論文の概要: Reasoning Resides in Layers: Restoring Temporal Reasoning in Video-Language Models with Layer-Selective Merging
- arxiv url: http://arxiv.org/abs/2604.11399v1
- Date: Mon, 13 Apr 2026 12:41:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.534822
- Title: Reasoning Resides in Layers: Restoring Temporal Reasoning in Video-Language Models with Layer-Selective Merging
- Title(参考訳): 層内のReasoning Resides:Layer-Selective Mergingを用いたビデオ言語モデルにおけるReasoning Temporal Reasoning
- Authors: Zihang Fu, Haonan Wang, Jian Kang, Kenji Kawaguchi, Jiaying Wu,
- Abstract要約: マルチモーダル適応は、知覚能力を持つ大きな言語モデルに装備するが、言語のみの事前学習から受け継いだ推論能力を弱めることが多い。
ビデオ言語モデルにおける時間的推論を復元するための訓練不要なタスク駆動モデルマージフレームワークであるMERITを提案する。
- 参考スコア(独自算出の注目度): 62.24239343184817
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal adaptation equips large language models (LLMs) with perceptual capabilities, but often weakens the reasoning ability inherited from language-only pretraining. This trade-off is especially pronounced in video-language models (VLMs), where visual alignment can impair temporal reasoning (TR) over sequential events. We propose MERIT, a training-free, task-driven model merging framework for restoring TR in VLMs. MERIT searches over layer-wise self-attention merging recipes between a VLM and its paired text-only backbone using an objective that improves TR while penalizing degradation in temporal perception (TP). Across three representative VLMs and multiple challenging video benchmarks, MERIT consistently improves TR, preserves or improves TP, and generalizes beyond the search set to four distinct benchmarks. It also outperforms uniform full-model merging and random layer selection, showing that effective recovery depends on selecting the right layers. Interventional masking and frame-level attribution further show that the selected layers are disproportionately important for reasoning and shift model decisions toward temporally and causally relevant evidence. These results show that targeted, perception-aware model merging can effectively restore TR in VLMs without retraining.
- Abstract(参考訳): マルチモーダル適応は、知覚能力を持つ大きな言語モデル(LLM)を装備するが、言語のみの事前訓練から受け継いだ推論能力を弱めることが多い。
このトレードオフは特にビデオ言語モデル(VLM)において顕著であり、視覚的アライメントは逐次的な出来事に対して時間的推論(TR)を損なう可能性がある。
本稿では,VLM における TR 復元のためのトレーニング不要なタスク駆動型モデルマージフレームワーク MERIT を提案する。
MERITは、時間知覚の劣化(TP)をペナルティ化しながらTRを改善する目的を用いて、VLMとそのペアのテキストのみのバックボーン間のレイヤーワイドな自己意図的なマージレシピを検索する。
3つの代表的VLMと複数の挑戦的なビデオベンチマークにまたがって、MERITはTRを継続的に改善し、TPを保存または改善し、検索セットを超えて4つの異なるベンチマークに一般化する。
また、統一されたフルモデルマージとランダムなレイヤ選択よりも優れており、効果的なリカバリは正しいレイヤの選択に依存することを示している。
インターベンショナルマスキングとフレームレベルの属性は、モデル決定を時間的および因果関係の証拠に転換するために、選択された層が不均等に重要であることを示している。
これらの結果から,VLMのTRを再トレーニングせずに効果的に回復できることが示唆された。
関連論文リスト
- Reflect to Inform: Boosting Multimodal Reasoning via Information-Gain-Driven Verification [55.357038267439684]
Visual Re-Examination (VRE)は、MLLMが視覚的な入力を追加することなく推論中に自律的に視覚的イントロスペクションを実行することができる自己進化型トレーニングフレームワークである。
VREは推論精度と知覚信頼性を継続的に改善し、特にロングチェーン環境では幻覚を著しく低減する。
論文 参考訳(メタデータ) (2026-03-27T12:22:13Z) - ReCALL: Recalibrating Capability Degradation for MLLM-based Composed Image Retrieval [64.14282916266998]
Composed Image Retrievalは、参照画像と修正テキストからなるハイブリッドクエリに基づいてターゲット画像を取得することを目的としている。
本稿では,診断・生成・再定義パイプラインに従うモデルに依存しないフレームワークであるReCALLを提案する。
CIRRとFashionIQの実験では、ReCALLは継続的に劣化した機能を再検討し、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-02-02T04:52:54Z) - Too Late to Recall: Explaining the Two-Hop Problem in Multimodal Knowledge Retrieval [28.475457214103404]
視覚言語モデル(VLM)は、視覚エンコーダからの視覚表現と、事前訓練された大言語モデル(LLM)のテキスト表現との整合を図ることを目的としている。
14モデルのうち11モデルが事実的リコール劣化を示した。
高性能なVLMは、既存のファクトリコール機構を再利用するのに十分な早くエンティティ表現を解決します。
論文 参考訳(メタデータ) (2025-12-02T22:31:43Z) - Directional Reasoning Injection for Fine-Tuning MLLMs [51.53222423215055]
マルチモーダルな大言語モデル(MLLM)は急速に進歩しているが、その推論能力は強いテキストのみのモデルよりも遅れていることが多い。
このギャップを埋める既存の方法は、大規模マルチモーダル推論データや強化学習の監督された微調整に依存している。
この問題を解決するために,DRIFT(Directional Reasoning Injection for Fine-Tuning)を提案する。
論文 参考訳(メタデータ) (2025-10-16T18:06:46Z) - Advancing Multi-Step Mathematical Reasoning in Large Language Models through Multi-Layered Self-Reflection with Auto-Prompting [0.0]
大規模言語モデル(LLM)における多段階数学的推論を強化する新しい手法を提案する。
Multi-Layered Self-Reflection with Auto-Prompting (MAPS)フレームワークは、Chain of Thought (CoT)、Self-Reflection、Auto-Promptingといったテクニックを統合している。
実験により、MAPSは標準のCoTよりも大幅に優れ、推論最適化モデルと競合する結果が得られることが示された。
論文 参考訳(メタデータ) (2025-06-30T14:18:35Z) - Reasoning-Aligned Perception Decoupling for Scalable Multi-modal Reasoning [95.44766931218896]
MLLM(Multi-modal large language model)は、テキストベースの推論に遅れを取っている。
本稿では,MLLMの推論コンポーネントをモジュール化し,容易に置き換え可能なパーセプション推論デカップリングを提案する。
本稿では,視覚知覚最適化(VPO)と呼ばれる新しい強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-05T02:28:07Z) - ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。
ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。
ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文 参考訳(メタデータ) (2025-05-21T12:29:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。