論文の概要: MOSS-ChatV: Reinforcement Learning with Process Reasoning Reward for Video Temporal Reasoning
- arxiv url: http://arxiv.org/abs/2509.21113v1
- Date: Thu, 25 Sep 2025 12:59:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.915246
- Title: MOSS-ChatV: Reinforcement Learning with Process Reasoning Reward for Video Temporal Reasoning
- Title(参考訳): MOSS-ChatV:ビデオ時間推論のためのプロセス推論リワードによる強化学習
- Authors: Sicheng Tao, Jungang Li, Yibo Yan, Junyan Zhang, Yubo Gao, Hanqian Li, ShuHang Xun, Yuxuan Fan, Hong Chen, Jianxiang He, Xuming Hu,
- Abstract要約: マルチモーダル大言語モデル(MLLM)の重要機能としてビデオ推論が登場した
既存のMLLMは、最終回答が正しい場合でも、中間的推論がビデオダイナミクスから漂流するプロセスの不整合を示すことが多い。
動的時間ウォーピング(DTW)に基づくプロセス報酬を備えた強化学習フレームワークであるMOSS-ChatVを紹介する。
- 参考スコア(独自算出の注目度): 34.22013361168801
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video reasoning has emerged as a critical capability for multimodal large language models (MLLMs), requiring models to move beyond static perception toward coherent understanding of temporal dynamics in complex scenes. Yet existing MLLMs often exhibit process inconsistency, where intermediate reasoning drifts from video dynamics even when the final answer is correct, undermining interpretability and robustness. To address this issue, we introduce MOSS-ChatV, a reinforcement learning framework with a Dynamic Time Warping (DTW)-based process reward. This rule-based reward aligns reasoning traces with temporally grounded references, enabling efficient process supervision without auxiliary reward models. We further identify dynamic state prediction as a key measure of video reasoning and construct MOSS-Video, a benchmark with annotated reasoning traces, where the training split is used to fine-tune MOSS-ChatV and the held-out split is reserved for evaluation. MOSS-ChatV achieves 87.2\% on MOSS-Video (test) and improves performance on general video benchmarks such as MVBench and MMVU. The framework consistently yields gains across different architectures, including Qwen2.5-VL and Phi-2, confirming its broad applicability. Evaluations with GPT-4o-as-judge further show that MOSS-ChatV produces more consistent and stable reasoning traces.
- Abstract(参考訳): ビデオ推論はマルチモーダルな大規模言語モデル(MLLM)にとって重要な機能として現れており、複雑なシーンにおける時間的ダイナミクスのコヒーレントな理解に向けて静的認識を超えてモデルを動かす必要がある。
しかし、既存のMLLMは、最終回答が正しい場合でも、中間的推論がビデオ力学から逸脱し、解釈可能性や堅牢性を損なうプロセス不整合をしばしば示している。
この問題に対処するために,動的時間ウォーピング(DTW)に基づくプロセス報酬を備えた強化学習フレームワークであるMOSS-ChatVを紹介する。
このルールに基づく報酬は、推論トレースを時間的基盤の参照と整合させ、補助的な報酬モデルなしで効率的なプロセスの監督を可能にする。
さらに、動的状態予測をビデオ推論の重要な指標とし、注釈付き推論トレースを持つベンチマークであるMOSS-Videoを構築し、トレーニングスプリットをMOSS-ChatVの微調整に使用し、ホールドアウトスプリットを評価のために予約する。
MOSS-ChatV は MOSS-Video (test) で87.2\% を獲得し、MVBench や MMVU などの一般的なビデオベンチマークのパフォーマンスを向上させる。
このフレームワークは、Qwen2.5-VLやPhi-2など、さまざまなアーキテクチャで一貫して利益をもたらし、その広範な適用性を確認している。
GPT-4o-as-judgeによる評価は、MOSS-ChatVがより一貫性があり安定した推論トレースを生成することを示している。
関連論文リスト
- Video-MTR: Reinforced Multi-Turn Reasoning for Long Video Understanding [33.58579390725519]
Video-MTRは、反復的なキーセグメントの選択と質問理解を可能にするために設計された強化されたマルチターン推論フレームワークである。
単一のターンで予測を生成する従来のビデオ推論パイプラインとは異なり、Video-MTRは複数のターンで推論を実行する。
中間推論プロセスを保証するため,新たな二段階報酬システムを導入する。
論文 参考訳(メタデータ) (2025-08-28T06:55:08Z) - Flattery in Motion: Benchmarking and Analyzing Sycophancy in Video-LLMs [6.527988482383714]
ビデオ大言語モデル(ビデオ-LLM)は、マルチモーダル推論を必要とする現実のアプリケーションにますます統合されている。
これらのモデルが視覚的エビデンスと矛盾する場合でも、ユーザ入力と整合する傾向は、そのような文脈において彼らの信頼性を損なう。
我々は,最新のビデオLLMにおけるサイコファンティックな振る舞いを評価するための,最初の専用ベンチマークであるVISE(Video-LLM Sycophancy Benchmarking and Evaluation)を提案する。
論文 参考訳(メタデータ) (2025-06-08T15:00:21Z) - Reinforcement Learning Tuning for VideoLLMs: Reward Design and Data Efficiency [56.475612147721264]
本稿では、離散的かつ連続的な報酬信号を通して意味的推論と時間的推論の両方を監督する二重回帰定式化を提案する。
我々は,ビデオQA,テンポラルビデオグラウンディング,グラウンドドビデオQAを含む8つの代表的なビデオ理解タスクに対するアプローチを評価した。
その結果、MLLMを用いた推論中心のビデオ理解の進展において、報酬設計とデータ選択の重要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-06-02T17:28:26Z) - Vad-R1: Towards Video Anomaly Reasoning via Perception-to-Cognition Chain-of-Thought [58.321044666612174]
Vad-R1は、ビデオ異常推論のためのエンドツーエンドのMLLMベースのフレームワークである。
我々は、異常を認識する人間の過程をシミュレートするパーセプション・トゥ・コグニション・チェーン・オブ・ワット(P2C-CoT)を設計する。
また,MLLMの異常推論能力を明示的に動機付ける改良型強化学習アルゴリズムAVA-GRPOを提案する。
論文 参考訳(メタデータ) (2025-05-26T12:05:16Z) - DEL-ToM: Inference-Time Scaling for Theory-of-Mind Reasoning via Dynamic Epistemic Logic [28.54147281933252]
ToM(Theory-of-Mind)タスクは、小規模言語モデル(SLM)において、限られたスケールで独自の課題を提起する。
推論時間スケーリングによるToM推論を改善するフレームワークであるDEL-ToMを提案する。
論文 参考訳(メタデータ) (2025-05-22T23:52:56Z) - VideoRFT: Incentivizing Video Reasoning Capability in MLLMs via Reinforced Fine-Tuning [35.64831081829936]
強化微調整(RFT)は、Large Language Models(LLMs)の人間レベルの推論能力を達成する上で大きな可能性を示している。
MLLMにおけるヒューマンライクなビデオ推論能力を育成するために,RFTパラダイムを拡張した新しいアプローチであるVIDEORFTを提案する。
VideoRFT は RFT の標準的な2段階スキームに従う: チェーン・オブ・シント(CoT)アノテーションによる細調整(SFT)と、一般化を改善するための強化学習(RL)である。
論文 参考訳(メタデータ) (2025-05-18T14:14:35Z) - VCRBench: Exploring Long-form Causal Reasoning Capabilities of Large Video Language Models [29.706347050700867]
ビデオベース長周期因果推論(VCRBench)という新しいベンチマークを導入する。
VCRBenchは、LVLM(Large Video Language Model)が特定の目標を達成するために必要なイベントを特定し、推論し、正しくシーケンスできるかどうかをテストする。
本稿では,ビデオに基づく因果推論を,ビデオ認識と因果推論の2つのサブタスクに分割するモジュラーアプローチである認識推論分解(RRD)を提案する。
論文 参考訳(メタデータ) (2025-05-13T11:35:58Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [63.14000659130736]
本稿では、MVBenchという総合的なマルチモーダルビデオ理解ベンチマークを紹介する。
まず、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。
そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。
論文 参考訳(メタデータ) (2023-11-28T17:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。