論文の概要: Video-STR: Reinforcing MLLMs in Video Spatio-Temporal Reasoning with Relation Graph
- arxiv url: http://arxiv.org/abs/2510.10976v1
- Date: Mon, 13 Oct 2025 03:26:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.1839
- Title: Video-STR: Reinforcing MLLMs in Video Spatio-Temporal Reasoning with Relation Graph
- Title(参考訳): Video-STR:リレーショナルグラフを用いたビデオ時空間推論におけるMLLMの強化
- Authors: Wentao Wang, Heqing Zou, Tianze Luo, Rui Huang, Yutian Zhao, Zhuochen Wang, Hansheng Zhang, Chengwei Qin, Yan Wang, Lin Zhao, Huaijian Zhang,
- Abstract要約: Video-STRは様々なベンチマークで最先端の結果を達成し、ML-Benchではベースモデルを13%上回っている。
コード、モデル、データはリリースされます。
- 参考スコア(独自算出の注目度): 29.737059125885057
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Recent progress in Multimodal Large Language Models (MLLMs) has demonstrated strong semantic understanding capabilities, but struggles to perform precise spatio-temporal understanding. Existing spatio-temporal methods primarily focus on the video itself, while overlooking the physical information within the video, such as multi-object layouts and motion. Such limitations restrict the use of MLLMs in downstream applications that demand high precision, including embodied intelligence and VR. To address this issue, we present Video-STR, a novel graph-based reinforcement method for precise Video Spatio-Temporal Reasoning. Building upon the capacity of Reinforcement Learning with Verifiable Reward (RLVR) to improve model abilities, we introduce a reasoning mechanism using graph-based Group Relative Policy Optimization (GRPO) method to guide the model in inferring the underlying spatio-temporal topology of scenarios during the thinking process. To resolve the lack of spatio-temporal training data, we construct the STV-205k dataset with 205k question-answering pairs, covering dynamic multi-object scenes in both indoor and outdoor environments, to support the model training. Experiments show that Video-STR achieves state-of-the-art results on various benchmarks, outperforming the base model by 13% on STI-Bench, and demonstrating the effectiveness of our approach and dataset. Code, model, and data will be released.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の最近の進歩は、強力な意味理解能力を示しているが、正確な時空間理解に苦慮している。
既存の時空間法は主にビデオそのものに焦点を当て、マルチオブジェクトレイアウトやモーションのようなビデオ内の物理的な情報を見渡す。
このような制限は、インテリジェンスやVRを含む高精度を求める下流アプリケーションにおけるMLLMの使用を制限する。
この問題に対処するために,ビデオ時空間推論のためのグラフベースの新しい強化手法であるVideo-STRを提案する。
モデル能力を向上させるためにRLVR(Reinforcement Learning with Verifiable Reward)の能力を基盤として,グラフに基づくグループ相対政策最適化(GRPO)手法を用いて,思考過程におけるシナリオの時空間トポロジを推定する手法を提案する。
時空間学習データの欠如を解決するため,STV-205kデータセットを205k問合せペアで構築し,室内環境と屋外環境の両方において動的多目的シーンをカバーし,モデルトレーニングを支援する。
実験の結果,Voice-STRは様々なベンチマークで最先端の結果が得られ,STI-Benchではベースモデルを13%上回り,我々のアプローチとデータセットの有効性を実証した。
コード、モデル、データはリリースされます。
関連論文リスト
- Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models [78.40747899831793]
ビデオ理解はコンピュータビジョンにおける最も困難なフロンティアである。
近年,映像理解タスクにおいて,映像多時間モデルが顕著に出現している。
Surveyは、ビデオ-LMM能力を向上するための統一的なフレームワークを研究者や実践者に提供することを目的としている。
論文 参考訳(メタデータ) (2025-10-06T17:10:44Z) - FrameMind: Frame-Interleaved Video Reasoning via Reinforcement Learning [65.42201665046505]
現在のビデオ理解モデルは、各質問の特定の推論条件にかかわらず、固定されたフレームサンプリング戦略に依存し、所定の視覚入力を処理する。
この静的アプローチは、視覚的エビデンスを適応的に収集する能力を制限し、広範囲の時間的カバレッジやきめ細かい空間的詳細を必要とするタスクにおいて、最適以下のパフォーマンスをもたらす。
Frame-Interleaved Chain-of-Thought (FiCOT)を通して、モデルが推論中に視覚情報を動的に要求することを可能にする強化学習で訓練されたエンドツーエンドフレームワークであるFrameMindを紹介する。
従来のアプローチとは異なり、FrameMindは複数のターンで動作し、モデルがテキスト推論とアクティブな視覚知覚を交互に切り替え、ツールを使って抽出する。
論文 参考訳(メタデータ) (2025-09-28T17:59:43Z) - Reinforcement Learning Tuning for VideoLLMs: Reward Design and Data Efficiency [56.475612147721264]
本稿では、離散的かつ連続的な報酬信号を通して意味的推論と時間的推論の両方を監督する二重回帰定式化を提案する。
我々は,ビデオQA,テンポラルビデオグラウンディング,グラウンドドビデオQAを含む8つの代表的なビデオ理解タスクに対するアプローチを評価した。
その結果、MLLMを用いた推論中心のビデオ理解の進展において、報酬設計とデータ選択の重要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-06-02T17:28:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。