論文の概要: Video-MTR: Reinforced Multi-Turn Reasoning for Long Video Understanding
- arxiv url: http://arxiv.org/abs/2508.20478v1
- Date: Thu, 28 Aug 2025 06:55:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.143932
- Title: Video-MTR: Reinforced Multi-Turn Reasoning for Long Video Understanding
- Title(参考訳): Video-MTR:ロングビデオ理解のための強化マルチTurn推論
- Authors: Yuan Xie, Tianshui Chen, Zheng Ge, Lionel Ni,
- Abstract要約: Video-MTRは、反復的なキーセグメントの選択と質問理解を可能にするために設計された強化されたマルチターン推論フレームワークである。
単一のターンで予測を生成する従来のビデオ推論パイプラインとは異なり、Video-MTRは複数のターンで推論を実行する。
中間推論プロセスを保証するため,新たな二段階報酬システムを導入する。
- 参考スコア(独自算出の注目度): 33.58579390725519
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-form video understanding, characterized by long-range temporal dependencies and multiple events, remains a challenge. Existing methods often rely on static reasoning or external visual-language models (VLMs), which face issues like complexity and sub-optimal performance due to the lack of end-to-end training. In this paper, we propose Video-MTR, a reinforced multi-turn reasoning framework designed to enable iterative key video segment selection and question comprehension. Unlike traditional video reasoning pipeline, which generate predictions in a single turn, Video-MTR performs reasoning in multiple turns, selecting video segments progressively based on the evolving understanding of previously processed segments and the current question. This iterative process allows for a more refined and contextually aware analysis of the video. To ensure intermediate reasoning process, we introduce a novel gated bi-level reward system, combining trajectory-level rewards based on answer correctness and turn-level rewards emphasizing frame-query relevance. This system optimizes both video segment selection and question comprehension, eliminating the need for external VLMs and allowing end-to-end training. Extensive experiments on benchmarks like VideoMME, MLVU, and EgoSchema demonstrate that Video-MTR outperforms existing methods in both accuracy and efficiency, advancing the state-of-the-art in long video understanding.
- Abstract(参考訳): 長距離の時間的依存関係と複数のイベントを特徴とするロングフォームビデオ理解は依然として課題である。
既存の手法は静的推論や外部視覚言語モデル(VLM)に依存しており、エンドツーエンドのトレーニングが欠如しているため、複雑さや準最適パフォーマンスといった問題に直面している。
本稿では,キーセグメントの選択と質問理解を反復的に行えるように設計したマルチターン推論フレームワークであるVideo-MTRを提案する。
単一のターンで予測を生成する従来のビデオ推論パイプラインとは異なり、Video-MTRは複数のターンで推論を行い、以前処理されたセグメントの進化的理解と現在の質問に基づいて、ビデオセグメントを徐々に選択する。
この反復的なプロセスにより、ビデオのより洗練され、文脈的に認識される分析が可能になる。
中間的推論プロセスを保証するため,フレームクエリの妥当性を強調するターンレベルの報酬と回答の正しさに基づく軌道レベルの報酬を組み合わせた,新しい二段階報酬システムを導入する。
本システムはビデオセグメント選択と質問理解の両方を最適化し,外部VLMの必要性を排除し,エンドツーエンドのトレーニングを可能にする。
VideoMME、MLVU、EgoSchemaなどのベンチマークに関する大規模な実験では、Video-MTRは精度と効率の両方で既存の手法よりも優れており、長いビデオ理解における最先端の進歩を示している。
関連論文リスト
- Thinking With Videos: Multimodal Tool-Augmented Reinforcement Learning for Long Video Reasoning [29.811030252357195]
マルチモーダル大言語モデル(MLLM)は、ビデオ質問応答や時間的接地といった下流タスクに不可欠である。
本稿では,ツール・アグリゲード・ラーニング(VITAL)による映像インテリジェンスを提案する。
論文 参考訳(メタデータ) (2025-08-06T13:03:21Z) - ThinkVideo: High-Quality Reasoning Video Segmentation with Chain of Thoughts [64.93416171745693]
ビデオオブジェクトの推論は難しいタスクであり、入力ビデオと暗黙の複雑なテキストクエリからマスクシーケンスを生成する。
既存の作業は、セグメント化に基づく出力のためにMLLM(Multimodal Large Language Model)を微調整することでこの問題を調査するが、時間に敏感なクエリが与えられたビデオでは難しいケースでは依然として不足している。
MLLMのゼロショット・チェーン・オブ・ソート(CoT)機能を利用してこれらの課題に対処する新しいフレームワークであるThinkVideoを提案する。
論文 参考訳(メタデータ) (2025-05-24T07:01:31Z) - ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。
ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。
ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文 参考訳(メタデータ) (2025-05-21T12:29:40Z) - $\infty$-Video: A Training-Free Approach to Long Video Understanding via Continuous-Time Memory Consolidation [19.616624959353697]
$infty$-Videoは、連続時間長期メモリ(LTM)統合機構を通じて、任意に長いビデオを処理できる。
我々のフレームワークは、ビデオのコンテキストを効率的に処理し、追加のトレーニングを必要とせず、ビデオQフォーマーを増強する。
論文 参考訳(メタデータ) (2025-01-31T12:45:46Z) - SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis [52.050036778325094]
本稿では,SALOVA: Segment-Augmented Video Assistantを紹介する。
87.8Kビデオの高品質なコレクションをセグメントレベルで高密度にキャプションし、シーンの連続性を捕捉し、リッチなコンテキストを維持する。
本フレームワークは,クエリに応答して,関連ビデオセグメントの正確な識別と検索を可能にすることで,現在のビデオLMMの限界を緩和する。
論文 参考訳(メタデータ) (2024-11-25T08:04:47Z) - MIST: Multi-modal Iterative Spatial-Temporal Transformer for Long-form
Video Question Answering [73.61182342844639]
我々は,MIST(Multi-modal Iterative Spatial-temporal Transformer)と呼ばれる新しいモデルを導入する。
MISTは、従来の密集時空間自己アテンションをカスケードセグメントと領域選択モジュールに分解する。
異なる粒度の視覚概念は、アテンションモジュールを通して効率的に処理される。
論文 参考訳(メタデータ) (2022-12-19T15:05:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。