論文の概要: Rethinking Chain-of-Thought Reasoning for Videos
- arxiv url: http://arxiv.org/abs/2512.09616v1
- Date: Wed, 10 Dec 2025 13:05:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.525501
- Title: Rethinking Chain-of-Thought Reasoning for Videos
- Title(参考訳): ビデオの連鎖推論を再考する
- Authors: Yiwu Zhong, Zi-Yuan Hu, Yin Li, Liwei Wang,
- Abstract要約: 思考の連鎖(CoT)推論は自然言語処理における複雑なタスクの解決に成功している。
最近のマルチモーダル大言語モデル(MLLM)は、このパラダイムをビデオ推論に拡張している。
経験的観察によって動機づけられた我々は、簡潔な推論と少ない視覚的トークンの組み合わせは、効果的なビデオ推論に十分である、という仮説を立てた。
- 参考スコア(独自算出の注目度): 19.579424881079447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chain-of-thought (CoT) reasoning has been highly successful in solving complex tasks in natural language processing, and recent multimodal large language models (MLLMs) have extended this paradigm to video reasoning. However, these models typically build on lengthy reasoning chains and large numbers of input visual tokens. Motivated by empirical observations from our benchmark study, we hypothesize that concise reasoning combined with a reduced set of visual tokens can be sufficient for effective video reasoning. To evaluate this hypothesis, we design and validate an efficient post-training and inference framework that enhances a video MLLM's reasoning capability. Our framework enables models to operate on compressed visual tokens and generate brief reasoning traces prior to answering. The resulting models achieve substantially improved inference efficiency, deliver competitive performance across diverse benchmarks, and avoid reliance on manual CoT annotations or supervised fine-tuning. Collectively, our results suggest that long, human-like CoT reasoning may not be necessary for general video reasoning, and that concise reasoning can be both effective and efficient. Our code will be released at https://github.com/LaVi-Lab/Rethink_CoT_Video.
- Abstract(参考訳): CoT推論は自然言語処理における複雑なタスクの解決に成功しており、近年ではMLLM(Multimodal large language model)がこのパラダイムをビデオ推論に拡張している。
しかし、これらのモデルは典型的には長い推論チェーンと多数の入力ビジュアルトークンの上に構築される。
評価実験から得られた経験的観察から,簡潔な推論と少ない視覚的トークンの組み合わせは,効果的なビデオ推論に十分である,という仮説を立てた。
この仮説を評価するために、ビデオMLLMの推論能力を高める効率的な後学習・推論フレームワークを設計し、検証する。
我々のフレームワークは、圧縮されたビジュアルトークン上でモデルが動作し、応答前に簡単な推論トレースを生成することを可能にする。
結果として得られたモデルは推論効率を大幅に改善し、様々なベンチマークで競合性能を提供し、手動のCoTアノテーションや監督された微調整に依存しない。
以上の結果から,ヒトライクなCoT推論は一般的なビデオ推論には不要であり,簡潔な推論は効率的かつ効果的である可能性が示唆された。
私たちのコードはhttps://github.com/LaVi-Lab/Rethink_CoT_Videoで公開されます。
関連論文リスト
- Video-CoM: Interactive Video Reasoning via Chain of Manipulations [78.64256470920166]
Interactive Video Reasoningを導入し、モデルが「ビデオについて考える」ことができるようにします。
当社のモデルである Video CoM は,CoM (Chain of Manipulations) を介し,証拠を収集・精査するための反復的な視覚行動を行う。
Video CoMは9つのビデオ推論ベンチマークで強い結果を出し、最近のアートモデルと比べて平均性能を3.6%向上させた。
論文 参考訳(メタデータ) (2025-11-28T18:59:57Z) - PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。
シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。
実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文 参考訳(メタデータ) (2025-05-29T17:55:49Z) - Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning [53.790502697674754]
本稿では、画像入力を重要な推論段階に移行する戦略であるTake-Allong Visual Conditioning (TVC)を提案する。
TVCは、推論を通して視覚的なコンポーネントへの注意を維持するのに役立つ。
提案手法は,5つの数学的推論ベンチマークにおいて,最先端の性能を平均で達成する。
論文 参考訳(メタデータ) (2025-03-17T16:45:12Z) - Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [64.74765550805024]
Chain-of-Thoughtはステップバイステップの問題解決を促すが、中間出力の過剰な冗長性を犠牲にすることが多い。
我々は,認知にインスパイアされた推論パラダイムを言語制約と統合する促進フレームワークであるSketch-of-Thought(SoT)を提案する。
SoTはトークンを最大84%削減し、18の推論データセットで最小限の精度ロスを達成している。
論文 参考訳(メタデータ) (2025-03-07T06:57:17Z) - SoftCoT: Soft Chain-of-Thought for Efficient Reasoning with LLMs [48.28847964704554]
CoT(Chain-of-Thought)推論により、LLM(Large Language Models)は複雑な推論タスクを解くことができる。
LLMの変更を必要としない連続空間推論のための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-02-17T18:52:29Z) - Efficient Reasoning with Hidden Thinking [48.96945580741641]
CoT(Chain-of-Thought)推論は、複雑な問題解決能力を改善するための強力なフレームワークになっています。
我々は,隠された潜在空間におけるCoTの推論を利用した効率的な推論フレームワークであるtextbfHeima$(隠されたラマとして)を提案する。
ハイマモデルは、ゼロショットタスクの精度を維持しつつ、より高い生成効率を達成する。
論文 参考訳(メタデータ) (2025-01-31T15:10:29Z) - Investigating Video Reasoning Capability of Large Language Models with Tropes in Movies [69.28082193942991]
本稿では、これまで見過ごされていた2つの重要なビデオ推論スキルを探索するためのテストベッドとして設計された、新しいデータセットであるTropes in Movies (TiM)を紹介する。
映画ストーリーテリングのトポロジを利用して、TiMは最先端のLCMベースのアプローチの推論能力を評価する。
これらの欠陥に対処するために、FEVoRI(Face-Enhanced Viper of Role Interactions)とConQueR(Context Query Reduction)を提案する。
論文 参考訳(メタデータ) (2024-06-16T12:58:31Z) - Multimodal Chain-of-Thought Reasoning in Language Models [94.70184390935661]
言語(テキスト)と視覚(画像)のモダリティを2段階のフレームワークに組み込んだマルチモーダルCoTを提案する。
その結果,ScienceQA と A-OKVQA のベンチマークは,提案手法の有効性を示した。
論文 参考訳(メタデータ) (2023-02-02T07:51:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。