論文の概要: Enhancing Temporal Understanding in Video-LLMs through Stacked Temporal Attention in Vision Encoders
- arxiv url: http://arxiv.org/abs/2510.26027v1
- Date: Wed, 29 Oct 2025 23:50:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.608215
- Title: Enhancing Temporal Understanding in Video-LLMs through Stacked Temporal Attention in Vision Encoders
- Title(参考訳): 視覚エンコーダにおける重み付き時間注意によるビデオLLMの時間的理解の促進
- Authors: Ali Rasekh, Erfan Bagheri Soula, Omid Daliran, Simon Gottschalk, Mohsen Fayyaz,
- Abstract要約: 本稿では,視覚エンコーダ内に直接重畳された時間的注意モジュールを導入したビデオLLMアーキテクチャを提案する。
この設計では、視覚エンコーダの時間的注意が組み込まれており、モデルがアクションの進行とフレーム間の関係をよりよく捉えることができる。
その結果,本手法は時間的推論を著しく改善し,ビデオ質問応答タスクにおける既存モデルよりも優れることがわかった。
- 参考スコア(独自算出の注目度): 9.162827706080337
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite significant advances in Multimodal Large Language Models (MLLMs), understanding complex temporal dynamics in videos remains a major challenge. Our experiments show that current Video Large Language Model (Video-LLM) architectures have critical limitations in temporal understanding, struggling with tasks that require detailed comprehension of action sequences and temporal progression. In this work, we propose a Video-LLM architecture that introduces stacked temporal attention modules directly within the vision encoder. This design incorporates a temporal attention in vision encoder, enabling the model to better capture the progression of actions and the relationships between frames before passing visual tokens to the LLM. Our results show that this approach significantly improves temporal reasoning and outperforms existing models in video question answering tasks, specifically in action recognition. We improve on benchmarks including VITATECS, MVBench, and Video-MME by up to +5.5%. By enhancing the vision encoder with temporal structure, we address a critical gap in video understanding for Video-LLMs. Project page and code are available at: https://alirasekh.github.io/STAVEQ2/.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の大幅な進歩にもかかわらず、ビデオにおける複雑な時間的ダイナミクスを理解することは大きな課題である。
実験の結果,現在のビデオ大言語モデル(Video Large Language Model, Video-LLM)アーキテクチャは時間的理解に限界があり,アクションシーケンスや時間的進行の詳細な理解を必要とするタスクに悩まされていることがわかった。
本研究では,視覚エンコーダ内に直接重畳された時間的注意モジュールを導入したビデオLLMアーキテクチャを提案する。
この設計では、視覚エンコーダの時間的注意が組み込まれており、LLMに視覚トークンを渡す前に、モデルがアクションの進行とフレーム間の関係をよりよく捉えることができる。
提案手法は,ビデオ質問応答タスク,特に行動認識において,時間的推論を大幅に改善し,既存のモデルよりも優れることを示す。
VITATECS、MVBench、Video-MMEなどのベンチマークを最大5.5%改善する。
視覚エンコーダを時間的構造で拡張することにより,ビデオLLMの映像理解における重要なギャップを解消する。
プロジェクトページとコードは、https://alirasekh.github.io/STAVEQ2/.com/で公開されている。
関連論文リスト
- Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models [78.32948112203228]
ビデオ理解はコンピュータビジョンにおける最も困難なフロンティアである。
近年,映像理解タスクにおいて,映像多時間モデルが顕著に出現している。
Surveyは、ビデオ-LMM能力を向上するための統一的なフレームワークを研究者や実践者に提供することを目的としている。
論文 参考訳(メタデータ) (2025-10-06T17:10:44Z) - Harnessing Synthetic Preference Data for Enhancing Temporal Understanding of Video-LLMs [54.502280390499756]
我々はTimeWarpを提案し、モデルからの応答を微調整し、与えられた入力ビデオにフォーカスするよう促すために、ターゲットとなる合成時間データセットを作成する。
提案手法を既存モデルに適用すると,時間的理解ベンチマークの性能が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2025-10-04T21:48:40Z) - Episodic Memory Representation for Long-form Video Understanding [52.33907540905242]
大きなビデオ言語モデルは、一般的なビデオ理解において優れているが、長い形式のコンテキストウィンドウの制限に苦労する。
人間の記憶の原理にインスパイアされたトレーニングフリーのフレームワークであるVideo-EMを紹介する。
Video-EMでは、各ベースラインに対して4-9%のパフォーマンス向上を実現し、フレームの削減を実現している。
論文 参考訳(メタデータ) (2025-08-13T04:33:07Z) - Response Wide Shut? Surprising Observations in Basic Vision Language Model Capabilities [54.94982467313341]
視覚言語モデル(VLM)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。
我々は、設計のどのコンポーネントが欠落しているかを調査する一連のテストを構築することで、基本的な視覚的タスクにおけるSoTA VLMの限界を理解することにしました。
論文 参考訳(メタデータ) (2025-07-10T15:26:41Z) - VideoMolmo: Spatio-Temporal Grounding Meets Pointing [66.19964563104385]
VideoMolmoは、ビデオシーケンスのきめ細かいポインティングに適したモデルだ。
新しい仮面融合はSAM2を双方向の点伝播に用いている。
The generalization of VideoMolmo, we introduced VPoMolS-temporal, a challenge out-of-distribution benchmark across two real-world scenarios。
論文 参考訳(メタデータ) (2025-06-05T17:59:29Z) - Temporal-Oriented Recipe for Transferring Large Vision-Language Model to Video Understanding [26.932018092345192]
我々は,LVLMの時間的理解に影響を及ぼす重要な構成要素を解明するために,徹底的な実証的研究を行っている。
これらの知見に基づいて、時間指向のトレーニングスキームと大規模インタフェースを含む時間指向のレシピを提案する。
論文 参考訳(メタデータ) (2025-05-19T01:40:25Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - Do Language Models Understand Time? [2.290956583394892]
大規模言語モデル(LLM)は、アクション認識、異常検出、要約を含む、ビデオベースのコンピュータビジョンアプリケーションに革命をもたらした。
本研究は,ビデオ処理におけるLLMの役割を,時間的推論能力に着目して批判的に考察する。
LLMの時間的理解を制限するため、バイアス、時間的アノテーションの欠如、ドメイン固有の制限など、既存のビデオデータセットによる課題を分析します。
論文 参考訳(メタデータ) (2024-12-18T13:38:06Z) - TC-LLaVA: Rethinking the Transfer from Image to Video Understanding with Temporal Considerations [23.188508465235717]
本稿では,映像理解タスクにおけるモデルの能力を高めるための2つの戦略を提案する。
第1のアプローチは、回転位置埋め込み(RoPE)と時間認識デュアルRoPEの強化に焦点を当てる。
第二のアプローチは、フレームワイドのブロック因果マスクによる注意マスクの強化である。
論文 参考訳(メタデータ) (2024-09-05T02:54:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。