論文の概要: VideoAuto-R1: Video Auto Reasoning via Thinking Once, Answering Twice
- arxiv url: http://arxiv.org/abs/2601.05175v1
- Date: Thu, 08 Jan 2026 18:00:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.322997
- Title: VideoAuto-R1: Video Auto Reasoning via Thinking Once, Answering Twice
- Title(参考訳): VideoAuto-R1: 一度考えるだけでビデオ自動推論が可能に
- Authors: Shuming Liu, Mingchen Zhuge, Changsheng Zhao, Jun Chen, Lemeng Wu, Zechun Liu, Chenchen Zhu, Zhipeng Cai, Chong Zhou, Haozhe Liu, Ernie Chang, Saksham Suri, Hongyu Xu, Qi Qian, Wei Wen, Balakrishnan Varadarajan, Zhuang Liu, Hu Xu, Florian Bordes, Raghuraman Krishnamoorthi, Bernard Ghanem, Vikas Chandra, Yunyang Xiong,
- Abstract要約: CoT推論(Chain-of-thinkt)は、ビデオ理解タスクにおけるマルチモーダルな大規模言語モデルのための強力なツールとして登場した。
本稿では,ビデオ理解フレームワークであるVideoAuto-R1を提案する。
- 参考スコア(独自算出の注目度): 88.93674345138054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chain-of-thought (CoT) reasoning has emerged as a powerful tool for multimodal large language models on video understanding tasks. However, its necessity and advantages over direct answering remain underexplored. In this paper, we first demonstrate that for RL-trained video models, direct answering often matches or even surpasses CoT performance, despite CoT producing step-by-step analyses at a higher computational cost. Motivated by this, we propose VideoAuto-R1, a video understanding framework that adopts a reason-when-necessary strategy. During training, our approach follows a Thinking Once, Answering Twice paradigm: the model first generates an initial answer, then performs reasoning, and finally outputs a reviewed answer. Both answers are supervised via verifiable rewards. During inference, the model uses the confidence score of the initial answer to determine whether to proceed with reasoning. Across video QA and grounding benchmarks, VideoAuto-R1 achieves state-of-the-art accuracy with significantly improved efficiency, reducing the average response length by ~3.3x, e.g., from 149 to just 44 tokens. Moreover, we observe a low rate of thinking-mode activation on perception-oriented tasks, but a higher rate on reasoning-intensive tasks. This suggests that explicit language-based reasoning is generally beneficial but not always necessary.
- Abstract(参考訳): CoT推論(Chain-of-thinkt)は、ビデオ理解タスクにおけるマルチモーダルな大規模言語モデルのための強力なツールとして登場した。
しかし、直接回答する必要性と利点はいまだに未解明のままである。
本稿では,RL学習ビデオモデルにおいて,CoTがステップバイステップ解析を高い計算コストで生成しているにもかかわらず,直接応答がCoT性能にマッチしたり,さらに上回ったりすることが実証された。
そこで本研究では,ビデオ理解フレームワークであるVideoAuto-R1を提案する。
トレーニング中、私たちのアプローチはThinking Once, Answering Twiceパラダイムに従っています。
どちらの答えも、検証可能な報酬によって管理される。
推論の間、モデルは最初の答えの信頼スコアを使用して推論を進めるかどうかを決定する。
ビデオQAとグラウンドベンチマークを通じて、VideoAuto-R1は最先端の精度を実現し、効率を大幅に改善し、平均応答長を149から44のトークンに短縮した。
さらに、認識指向タスクでは思考モードの活性化率が低いが、推論集約タスクでは高い。
これは、明示的な言語ベースの推論は一般的に有益であるが、常に必要ではないことを示唆している。
関連論文リスト
- Rethinking Chain-of-Thought Reasoning for Videos [19.579424881079447]
思考の連鎖(CoT)推論は自然言語処理における複雑なタスクの解決に成功している。
最近のマルチモーダル大言語モデル(MLLM)は、このパラダイムをビデオ推論に拡張している。
経験的観察によって動機づけられた我々は、簡潔な推論と少ない視覚的トークンの組み合わせは、効果的なビデオ推論に十分である、という仮説を立てた。
論文 参考訳(メタデータ) (2025-12-10T13:05:55Z) - Video-R2: Reinforcing Consistent and Grounded Reasoning in Multimodal Language Models [56.851611990473174]
動的ビジュアルコンテンツに対する推論は、大きな言語モデルにとって依然として中心的な課題である。
本稿では,時間的精度と推論一貫性を両立させる強化学習手法を提案する。
結果のモデルであるVideo R2は、複数のベンチマークでTAC、VAS、精度を一貫して向上させる。
論文 参考訳(メタデータ) (2025-11-28T18:59:58Z) - Answer-Consistent Chain-of-thought Reinforcement Learning For Multi-modal Large Langauge Models [33.398631680508814]
本稿では,GRPOアルゴリズムを補助的整合性チェックで修正するAnswer-Consistent Reinforcement Learningを提案する。
我々は、オリジナルとポストシャッフルの両方の回答が一致して正しい場合にのみ高い報酬を与える一貫性検証報酬を設計する。
我々は、ACREを挑戦的なビデオ推論ベンチマークとマルチモーダル数学推論ベンチマークで評価し、平均2.2%と1.5%の改善を達成した。
論文 参考訳(メタデータ) (2025-10-11T08:32:52Z) - Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models [67.87579664988199]
TONは視覚言語モデル(VLM)のための2段階のトレーニング戦略である
選択的な推論のためのコールドスタートとして機能するシンクまたはノットフォーマットを導入している。
TONは、バニラGRPOと比較して、完成期間を最大90%短縮することができる。
論文 参考訳(メタデータ) (2025-05-22T16:13:29Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。