論文の概要: When Thinking Hurts: Mitigating Visual Forgetting in Video Reasoning via Frame Repetition
- arxiv url: http://arxiv.org/abs/2603.16256v1
- Date: Tue, 17 Mar 2026 08:41:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.177123
- Title: When Thinking Hurts: Mitigating Visual Forgetting in Video Reasoning via Frame Repetition
- Title(参考訳): ハートを考える:フレーム反復によるビデオ推論における視覚的フォーミングの軽減
- Authors: Xiaokun Sun, Yubo Wang, Haoyu Cao, Linli Xu,
- Abstract要約: Video Question Answeringでは、モデルはますます自己生成テキストに依存し、視覚的な入力を横取りし、幻覚を引き起こす。
軽量な繰り返しスコアリングモジュールを備えた自動拡張フレームワークであるFrameRepeatを提案する。
FrameRepeatは推論過程において重要な視覚的手がかりの強化に有効かつ一般化可能であることを示す。
- 参考スコア(独自算出の注目度): 22.037040360505742
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Multimodal Large Language Models (MLLMs) have demonstrated significant potential in complex visual tasks through the integration of Chain-of-Thought (CoT) reasoning. However, in Video Question Answering, extended thinking processes do not consistently yield performance gains and may even lead to degradation due to ``visual anchor drifting'', where models increasingly rely on self-generated text, sidelining visual inputs and causing hallucinations. While existing mitigations typically introduce specific mechanisms for the model to re-attend to visual inputs during inference, these approaches often incur prohibitive training costs and suffer from poor generalizability across different architectures. To address this, we propose FrameRepeat, an automated enhancement framework which features a lightweight repeat scoring module that enables Video-LLMs to autonomously identify which frames should be reinforced. We introduce a novel training strategy, Add-One-In (AOI), that uses MLLM output probabilities to generate supervision signals representing repeat gain. This can be used to train a frame scoring network, which guides the frame repetition behavior. Experimental results across multiple models and datasets demonstrate that FrameRepeat is both effective and generalizable in strengthening important visual cues during the reasoning process.
- Abstract(参考訳): 近年,Multimodal Large Language Models (MLLMs) は,Chain-of-Thought (CoT) 推論を統合することで,複雑な視覚タスクに有意な可能性を証明している。
しかしながら、ビデオ質問回答(英語版)では、拡張思考プロセスは、常にパフォーマンスの向上を得られず、「視覚的アンカードリフト」によって、モデルがますます自己生成テキストに依存し、視覚的な入力を横取りし、幻覚を引き起こすことによる劣化を招きかねない。
既存の緩和は一般的に、推論中に視覚的な入力に再従属するための特定のメカニズムを導入するが、これらのアプローチは、しばしば禁止的なトレーニングコストを発生させ、異なるアーキテクチャ間での一般化性の低下に悩まされる。
これを解決するために、ビデオLLMがどのフレームを補強すべきかを自律的に識別できる軽量な繰り返しスコアリングモジュールを備えた自動拡張フレームワークFrameRepeatを提案する。
本稿では,MLLM出力確率を用いてリピートゲインを表す監視信号を生成する新しいトレーニング戦略であるAdd-One-In(AOI)を紹介する。
これはフレームの繰り返し動作をガイドするフレームスコアリングネットワークのトレーニングに使用することができる。
複数のモデルとデータセットにまたがる実験結果から、FrameRepeatは推論過程において重要な視覚的手がかりを強化するのに効果的であり、一般化可能であることが示された。
関連論文リスト
- VideoZoomer: Reinforcement-Learned Temporal Focusing for Long Video Reasoning [49.35834435935727]
VideoZoomerは、MLLMが推論中に視覚的焦点を制御することができる新しいエージェントフレームワークである。
私たちの7Bモデルは、多種多様な複雑な推論パターンを提供し、幅広いビデオ理解と推論のベンチマークに強いパフォーマンスをもたらします。
これらの創発的な能力は、既存のオープンソースモデルを一貫して上回り、挑戦的なタスクでプロプライエタリなシステムをライバルにさえできる。
論文 参考訳(メタデータ) (2025-12-26T11:43:21Z) - REVISOR: Beyond Textual Reflection, Towards Multimodal Introspective Reasoning in Long-Form Video Understanding [23.684146245231457]
ロングフォームビデオ理解には、よりリッチでダイナミックな視覚入力が含まれる。
純粋にテキストベースのリフレクションメカニズムは、クロスモーダルなインタラクション機能を欠いている。
ツール拡張マルチモーダルリフレクションのための新しいフレームワークであるREVISORを提案する。
論文 参考訳(メタデータ) (2025-11-17T06:25:12Z) - FrameMind: Frame-Interleaved Video Reasoning via Reinforcement Learning [65.42201665046505]
現在のビデオ理解モデルは、各質問の特定の推論条件にかかわらず、固定されたフレームサンプリング戦略に依存し、所定の視覚入力を処理する。
この静的アプローチは、視覚的エビデンスを適応的に収集する能力を制限し、広範囲の時間的カバレッジやきめ細かい空間的詳細を必要とするタスクにおいて、最適以下のパフォーマンスをもたらす。
Frame-Interleaved Chain-of-Thought (FiCOT)を通して、モデルが推論中に視覚情報を動的に要求することを可能にする強化学習で訓練されたエンドツーエンドフレームワークであるFrameMindを紹介する。
従来のアプローチとは異なり、FrameMindは複数のターンで動作し、モデルがテキスト推論とアクティブな視覚知覚を交互に切り替え、ツールを使って抽出する。
論文 参考訳(メタデータ) (2025-09-28T17:59:43Z) - From Generation to Generalization: Emergent Few-Shot Learning in Video Diffusion Models [65.0487600936788]
ビデオ拡散モデル(VDM)は高品質なコンテンツを合成できる強力な生成ツールとして登場した。
我々は、VDMが自然に構造化された表現を探索し、視覚世界を暗黙的に理解することを主張する。
提案手法は,各タスクを視覚遷移に変換し,短い入力シーケンス上でLoRA重みのトレーニングを可能にする。
論文 参考訳(メタデータ) (2025-06-08T20:52:34Z) - ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。
ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。
ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文 参考訳(メタデータ) (2025-05-21T12:29:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。