論文の概要: Improving Temporal Understanding Logic Consistency in Video-Language Models via Attention Enhancement
- arxiv url: http://arxiv.org/abs/2510.08138v1
- Date: Thu, 09 Oct 2025 12:22:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.061057
- Title: Improving Temporal Understanding Logic Consistency in Video-Language Models via Attention Enhancement
- Title(参考訳): 注意力増強によるビデオ言語モデルの時間的論理的整合性の改善
- Authors: Chengzhi Li, Heyan Huang, Ping Jian, Zhen Yang, Yaning Tian,
- Abstract要約: 大規模言語モデル(LLM)は、しばしば自己矛盾的な出力を生成する。
ビデオ言語モデル (Video-LLMs) は論理的に言い換えられた質問に対して一貫した応答を提供しない。
本稿では,テンポラリコンディショニング(Temporally Conditioned Attention Sharpening)と呼ばれるアテンション強化手法を提案する。
- 参考スコア(独自算出の注目度): 44.654178762186824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) often generate self-contradictory outputs, which severely impacts their reliability and hinders their adoption in practical applications. In video-language models (Video-LLMs), this phenomenon recently draws the attention of researchers. Specifically, these models fail to provide logically consistent responses to rephrased questions based on their grounding outputs. However, the underlying causes of this phenomenon remain underexplored. In this work, we adopt an interpretability-driven approach to analyze, statistically summarize, and intervention the potential factors of the phenomenon. We find that one of the primary reasons for the inconsistency in responses lies in the inability of cross-modal attention heads to effectively distinguish video tokens across different timestamps. To address this, we propose an attention enhancement method called Temporally Conditioned Attention Sharpening (TCAS), which constructs an enhancement objective based on attention distinctions to enhance the model's temporal resolution capability, thereby improving its temporal understanding logic consistency. Experimental results demonstrate that our method significantly enhances the temporal logic consistency of Video-LLMs. Further interpretability analyses reveal that our method indeed improves the temporal discriminability of attention heads, validating our conclusions. Additionally, our method achieves performance improvements in general video temporal grounding tasks, highlighting that temporal logic consistency is a bottleneck in temporal understanding. By enhancing consistency, our method drives significant progress in video temporal understanding.
- Abstract(参考訳): 大規模言語モデル(LLM)は、しばしば自己矛盾的なアウトプットを生成し、信頼性に深刻な影響を与え、実践的なアプリケーションでの採用を妨げる。
ビデオ言語モデル(Video-LLMs)では、この現象が研究者の注目を集めている。
具体的には、これらのモデルは、基礎となる出力に基づいて、言い換えられた質問に対して論理的に一貫した応答を提供しない。
しかし、この現象の根本原因は未解明のままである。
本研究では,この現象の潜在的な要因を分析し,統計的に要約し,介入するための解釈可能性駆動型アプローチを採用する。
応答の不整合の主な原因の1つは、異なるタイムスタンプ間のビデオトークンを効果的に識別できないことにある。
そこで本研究では,時間的条件付き注意強調法 (TCAS) を提案する。この手法は,注意識別に基づく拡張目標を構築し,その時間的解決能力を向上し,時間的理解論理の整合性を向上させる。
実験により,本手法はビデオLLMの時間的論理的整合性を大幅に向上させることが示された。
さらなる解釈可能性分析により,本手法は注目頭部の時間的識別性を向上し,結論の妥当性を検証した。
さらに,時間的論理的整合性が時間的理解のボトルネックであることを強調し,ビデオ時間的接地作業における性能改善を実現する。
一貫性を向上させることで,ビデオの時間的理解に大きな進歩をもたらす。
関連論文リスト
- Causality Matters: How Temporal Information Emerges in Video Language Models [17.570777893613137]
ビデオ入力における位置エンコーディングの除去や修正は、時間的理解の性能の低下を最小限に抑えることが判明した。
この振る舞いを説明するために、我々は時間的情報がモデルにどのように組み込まれているかを追跡するための重要な分析実験を行った。
そこで我々は,2つの効率重視戦略を提案する。
論文 参考訳(メタデータ) (2025-08-15T16:33:14Z) - Learning to Focus: Causal Attention Distillation via Gradient-Guided Token Pruning [47.764552063499046]
大規模言語モデル (LLM) は文脈理解において著しく改善されている。
しかし、長いコンテキストの推論と生成の間に真に重要な情報に出席する能力は、まだペースの遅れています。
本稿では,2段階のフレームワークであるLearning to Focus(LeaF)を導入し,コンバウンディング要因を緩和する。
論文 参考訳(メタデータ) (2025-06-09T15:16:39Z) - Investigating and Enhancing the Robustness of Large Multimodal Models Against Temporal Inconsistency [59.05753942719665]
本稿では,モデルのロバスト性を評価するために,時間的ロバスト性ベンチマーク(TemRobBench)を提案する。
16のLMMを評価した結果,従来の知識やテキストの文脈に頼りすぎていることが判明した。
我々はパノラマ直接選好最適化(PanoDPO)を設計し、LMMが視覚的特徴と言語的特徴の両方を同時に取り入れることを奨励する。
論文 参考訳(メタデータ) (2025-05-20T14:18:56Z) - Causality Model for Semantic Understanding on Videos [0.0]
この論文はセマンティックビデオ理解の領域に焦点を当てている。
VidVRD(Video Relation Detection)とVideoQA(Video Question Answering)の2つの基本的なタスクを前進させる因果モデリングの可能性を探る。
論文 参考訳(メタデータ) (2025-03-16T10:44:11Z) - Interpreting the Repeated Token Phenomenon in Large Language Models [31.1226642501095]
大きな言語モデル (LLM) は、引き起こされた時に1つの単語を正確に繰り返すことができず、代わりに無関係なテキストを出力する。
「この現象の原因を説明し、注意流しの概念と結びつけよう。」
我々の研究は、注意シンクの原因となる神経回路を特定し、この回路がどれくらいの時間繰り返しで破壊されるかを示す。
論文 参考訳(メタデータ) (2025-03-11T21:40:58Z) - On the Identification of Temporally Causal Representation with Instantaneous Dependence [50.14432597910128]
時間的因果表現学習は時系列観測から潜在因果過程を特定することを目的としている。
ほとんどの方法は、潜在因果過程が即時関係を持たないという仮定を必要とする。
我々は,インスタントtextbfOus textbfLatent dynamics のための textbfIDentification フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-24T08:08:05Z) - From Heuristic to Analytic: Cognitively Motivated Strategies for
Coherent Physical Commonsense Reasoning [66.98861219674039]
ヒューリスティック分析推論(HAR)戦略は、モデル決定のための合理化のコヒーレンスを大幅に改善する。
以上の結果から, PLM推論の一貫性と信頼性を効果的に向上できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-24T19:46:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。