論文の概要: AVATAAR: Agentic Video Answering via Temporal Adaptive Alignment and Reasoning
- arxiv url: http://arxiv.org/abs/2511.15578v1
- Date: Wed, 19 Nov 2025 16:09:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.893403
- Title: AVATAAR: Agentic Video Answering via Temporal Adaptive Alignment and Reasoning
- Title(参考訳): AVATAAR: 時間適応アライメントと推論によるエージェントビデオアンサー
- Authors: Urjitkumar Patel, Fang-Chun Yeh, Chinmay Gondhalekar,
- Abstract要約: AVATAARは、グローバルおよびローカルなビデオコンテキストと、Pre Retrieval Thinking AgentとRethink Moduleを組み合わせたモジュラーフレームワークである。
CinePileベンチマークでは、AVATAARがベースラインよりも大幅に改善されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With the increasing prevalence of video content, effectively understanding and answering questions about long form videos has become essential for numerous applications. Although large vision language models (LVLMs) have enhanced performance, they often face challenges with nuanced queries that demand both a comprehensive understanding and detailed analysis. To overcome these obstacles, we introduce AVATAAR, a modular and interpretable framework that combines global and local video context, along with a Pre Retrieval Thinking Agent and a Rethink Module. AVATAAR creates a persistent global summary and establishes a feedback loop between the Rethink Module and the Pre Retrieval Thinking Agent, allowing the system to refine its retrieval strategies based on partial answers and replicate human-like iterative reasoning. On the CinePile benchmark, AVATAAR demonstrates significant improvements over a baseline, achieving relative gains of +5.6% in temporal reasoning, +5% in technical queries, +8% in theme-based questions, and +8.2% in narrative comprehension. Our experiments confirm that each module contributes positively to the overall performance, with the feedback loop being crucial for adaptability. These findings highlight AVATAAR's effectiveness in enhancing video understanding capabilities. Ultimately, AVATAAR presents a scalable solution for long-form Video Question Answering (QA), merging accuracy, interpretability, and extensibility.
- Abstract(参考訳): ビデオコンテンツの普及に伴い、長いビデオに関する質問を効果的に理解し、答えることが、多くのアプリケーションにとって欠かせないものとなっている。
大規模視覚言語モデル(LVLM)は性能を向上しているが、包括的な理解と詳細な分析の両方を必要とするナンスなクエリでは、しばしば課題に直面している。
これらの障害を克服するために,グローバルなビデオコンテキストとローカルなビデオコンテキストを組み合わせたモジュラー・解釈可能なフレームワークであるAVATAARと,Pre Retrieval Thinking AgentとRethink Moduleを紹介した。
AVATAARは、永続的なグローバル要約を作成し、Rethink ModuleとPre Retrieval Thinking Agentの間のフィードバックループを確立する。
CinePileベンチマークでは、AVATAARはベースラインよりも大幅に改善され、時間的推論では+5.6%、技術的なクエリでは+5%、テーマベースの質問では+8%、物語の理解では+8.2%という相対的な向上を達成した。
実験の結果,各モジュールは全体のパフォーマンスに肯定的な貢献をしており,フィードバックループは適応性に不可欠であることが確認された。
これらの結果は,映像理解能力の向上におけるAVATAARの有効性を浮き彫りにした。
最終的に、AVATAARは、長い形式のビデオ質問回答(QA)、マージ精度、解釈可能性、拡張性のためのスケーラブルなソリューションを提供する。
関連論文リスト
- ViSS-R1: Self-Supervised Reinforcement Video Reasoning [84.1180294023835]
本稿では,新しい自己教師付き強化学習GRPOアルゴリズム(Pretext-GRPO)を標準R1パイプライン内に導入する。
また、プリテキストタスクに基づく自己教師型学習をMLLMのR1ポストトレーニングパラダイムに直接統合するViSS-R1フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-17T07:00:42Z) - REVISOR: Beyond Textual Reflection, Towards Multimodal Introspective Reasoning in Long-Form Video Understanding [23.684146245231457]
ロングフォームビデオ理解には、よりリッチでダイナミックな視覚入力が含まれる。
純粋にテキストベースのリフレクションメカニズムは、クロスモーダルなインタラクション機能を欠いている。
ツール拡張マルチモーダルリフレクションのための新しいフレームワークであるREVISORを提案する。
論文 参考訳(メタデータ) (2025-11-17T06:25:12Z) - LeAdQA: LLM-Driven Context-Aware Temporal Grounding for Video Question Answering [10.060267989615813]
本稿では,これらのギャップを埋める斬新な手法であるLeAdQAを紹介する。
NExT-QA, IntentQA, NExT-GQAに関する実験により, 本手法の正確な視覚的基盤化は, 映像検索関係の理解を著しく向上させることを示した。
論文 参考訳(メタデータ) (2025-07-20T01:57:00Z) - Reinforcement Learning Tuning for VideoLLMs: Reward Design and Data Efficiency [56.475612147721264]
本稿では、離散的かつ連続的な報酬信号を通して意味的推論と時間的推論の両方を監督する二重回帰定式化を提案する。
我々は,ビデオQA,テンポラルビデオグラウンディング,グラウンドドビデオQAを含む8つの代表的なビデオ理解タスクに対するアプローチを評価した。
その結果、MLLMを用いた推論中心のビデオ理解の進展において、報酬設計とデータ選択の重要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-06-02T17:28:26Z) - ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding [71.654781631463]
ReAgent-Vは、新しいエージェントビデオ理解フレームワークである。
推論中に効率の良いフレーム選択とリアルタイムの報酬生成を統合する。
12のデータセットに対する大規模な実験は、一般化と推論において大きな成果を上げている。
論文 参考訳(メタデータ) (2025-06-02T04:23:21Z) - ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。
ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。
ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文 参考訳(メタデータ) (2025-05-21T12:29:40Z) - Video SimpleQA: Towards Factuality Evaluation in Large Video Language Models [77.96693360763925]
Video SimpleQAは、ビデオコンテキストにおける事実性評価に適した最初の包括的なベンチマークである。
我々の研究は、既存のビデオベンチマークとは以下の重要な特徴によって異なる: 知識: ビデオの明示的な物語を超えた外部知識の統合を要求する。
短い形式の決定的な答え: 回答は、最小のスコアリング分散を持つ短いフォーマットで、曖昧で決定的に正しいものとして作成されます。
論文 参考訳(メタデータ) (2025-03-24T17:46:09Z) - SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis [52.050036778325094]
本稿では,SALOVA: Segment-Augmented Video Assistantを紹介する。
87.8Kビデオの高品質なコレクションをセグメントレベルで高密度にキャプションし、シーンの連続性を捕捉し、リッチなコンテキストを維持する。
本フレームワークは,クエリに応答して,関連ビデオセグメントの正確な識別と検索を可能にすることで,現在のビデオLMMの限界を緩和する。
論文 参考訳(メタデータ) (2024-11-25T08:04:47Z) - QD-VMR: Query Debiasing with Contextual Understanding Enhancement for Video Moment Retrieval [7.313447367245476]
Video Moment Retrieval (VMR) は、クエリに対応する未トリミングビデオの関連モーメントを検索することを目的としている。
本稿では,文脈理解度を高めたクエリデバイアスモデルであるQD-VMRを提案する。
論文 参考訳(メタデータ) (2024-08-23T10:56:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。