論文の概要: Thinking with Drafts: Speculative Temporal Reasoning for Efficient Long Video Understanding
- arxiv url: http://arxiv.org/abs/2512.00805v1
- Date: Sun, 30 Nov 2025 09:27:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.427257
- Title: Thinking with Drafts: Speculative Temporal Reasoning for Efficient Long Video Understanding
- Title(参考訳): ドラフトによる思考: 効率的な長時間ビデオ理解のための投機的時間推論
- Authors: Pengfei Hu, Meng Cao, Yingyao Wang, Yi Wang, Jiahua Dong, Jun Song, Yu Cheng, Bo Zheng, Xiaodan Liang,
- Abstract要約: 人間のような知性には長いビデオ理解が不可欠であり、時間的文脈を超越したコヒーレントな認識と推論を可能にする。
強化学習に基づく投機的時間的推論フレームワークであるSpecTempを提案する。
我々はSpecTempが競争精度を維持するだけでなく、既存の思考とフレームの手法と比較して推論を著しく加速することを示した。
- 参考スコア(独自算出の注目度): 56.7383554589569
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Long video understanding is essential for human-like intelligence, enabling coherent perception and reasoning over extended temporal contexts. While the emerging thinking-with-frames paradigm, which alternates between global temporal reasoning and local frame examination, has advanced the reasoning capabilities of video multi-modal large language models (MLLMs), it suffers from a significant efficiency bottleneck due to the progressively growing and redundant multi-modal context. To address this, we propose SpecTemp, a reinforcement learning-based Speculative Temporal reasoning framework that decouples temporal perception from reasoning via a cooperative dual-model design. In SpecTemp, a lightweight draft MLLM rapidly explores and proposes salient frames from densely sampled temporal regions, while a powerful target MLLM focuses on temporal reasoning and verifies the draft's proposals, iteratively refining its attention until convergence. This design mirrors the collaborative pathways of the human brain, balancing efficiency with accuracy. To support training, we construct the SpecTemp-80K dataset, featuring synchronized dual-level annotations for coarse evidence spans and fine-grained frame-level evidence. Experiments across multiple video understanding benchmarks demonstrate that SpecTemp not only maintains competitive accuracy but also significantly accelerates inference compared with existing thinking-with-frames methods.
- Abstract(参考訳): 人間のような知性には長いビデオ理解が不可欠であり、時間的文脈を超越したコヒーレントな認識と推論を可能にする。
世界的時間的推論と局所的フレーム検査を交互に行う新たな思考・フレーム・ウィズ・パラダイムは、ビデオマルチモーダル大言語モデル(MLLM)の推論能力を向上させる一方で、段階的に成長し、冗長なマルチモーダルコンテキストによって、大きな効率ボトルネックに悩まされている。
そこで本研究では,協調的双対モデル設計により時間的知覚を推論から分離する,強化学習に基づく投機的時間的推論フレームワークであるSpecTempを提案する。
SpecTempでは、軽量なドラフトMLLMが、密集した時間領域からの健全なフレームを素早く探索し、提案する一方、強力なターゲットMLLMは、時間的推論に焦点を当て、ドラフトの提案を検証し、収束するまでその注意を反復的に改善する。
このデザインは人間の脳の協調経路を反映し、効率と精度のバランスをとる。
トレーニングを支援するために、粗いエビデンスときめ細かいフレームレベルのエビデンスを同期したデュアルレベルアノテーションを備えたSpecTemp-80Kデータセットを構築した。
複数のビデオ理解ベンチマークによる実験によると、SpecTempは競争精度を維持するだけでなく、既存の思考とフレームの手法と比較して推論を著しく加速する。
関連論文リスト
- Video-R2: Reinforcing Consistent and Grounded Reasoning in Multimodal Language Models [56.851611990473174]
動的ビジュアルコンテンツに対する推論は、大きな言語モデルにとって依然として中心的な課題である。
本稿では,時間的精度と推論一貫性を両立させる強化学習手法を提案する。
結果のモデルであるVideo R2は、複数のベンチマークでTAC、VAS、精度を一貫して向上させる。
論文 参考訳(メタデータ) (2025-11-28T18:59:58Z) - Improving Temporal Understanding Logic Consistency in Video-Language Models via Attention Enhancement [44.654178762186824]
大規模言語モデル(LLM)は、しばしば自己矛盾的な出力を生成する。
ビデオ言語モデル (Video-LLMs) は論理的に言い換えられた質問に対して一貫した応答を提供しない。
本稿では,テンポラリコンディショニング(Temporally Conditioned Attention Sharpening)と呼ばれるアテンション強化手法を提案する。
論文 参考訳(メタデータ) (2025-10-09T12:22:06Z) - Can Slow-thinking LLMs Reason Over Time? Empirical Studies in Time Series Forecasting [17.73769436497384]
時系列予測(TSF)は、古典的な統計的アプローチから現代のディープラーニングやマルチモーダル言語モデリングまで、基礎的で広く研究されている課題である。
一方、ゆっくり考え始めるLSMは、様々な領域にまたがる印象的な多段階推論能力を示している。
スロー思考のLLMは、時系列予測をサポートするために時間的パターンよりも効果的に推論できるのか?
論文 参考訳(メタデータ) (2025-05-30T12:19:02Z) - Investigating and Enhancing the Robustness of Large Multimodal Models Against Temporal Inconsistency [59.05753942719665]
本稿では,モデルのロバスト性を評価するために,時間的ロバスト性ベンチマーク(TemRobBench)を提案する。
16のLMMを評価した結果,従来の知識やテキストの文脈に頼りすぎていることが判明した。
我々はパノラマ直接選好最適化(PanoDPO)を設計し、LMMが視覚的特徴と言語的特徴の両方を同時に取り入れることを奨励する。
論文 参考訳(メタデータ) (2025-05-20T14:18:56Z) - Living in the Moment: Can Large Language Models Grasp Co-Temporal Reasoning? [70.19200858203388]
時間的推論は、世界を理解するための大きな言語モデルの基本である。
CoTempQAは4つの時間的シナリオを含むベンチマークである。
実験の結果,LLMの性能と人間レベルの推論との間に大きなギャップがあることが判明した。
論文 参考訳(メタデータ) (2024-06-13T12:56:21Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z) - Unlocking Temporal Question Answering for Large Language Models with Tailor-Made Reasoning Logic [84.59255070520673]
大きな言語モデル(LLM)は、時間的推論に関わる際に課題に直面します。
本研究では,時間的質問応答タスクに特化して設計された新しいフレームワークであるTempLogicを提案する。
論文 参考訳(メタデータ) (2023-05-24T10:57:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。