論文の概要: Causality-Aware Temporal Projection for Video Understanding in Video-LLMs
- arxiv url: http://arxiv.org/abs/2601.01804v1
- Date: Mon, 05 Jan 2026 05:30:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.773797
- Title: Causality-Aware Temporal Projection for Video Understanding in Video-LLMs
- Title(参考訳): ビデオLLMにおける映像理解のための因果性を考慮した時間投影
- Authors: Zhengjian Kang, Qi Chen, Rui Liu, Kangtong Mo, Xingyu Zhang, Xiaoyu Deng, Ye Zhang,
- Abstract要約: V-COREは、ビデオ理解のための時間的制約を明示的に導入する、パラメータ効率のよいフレームワークである。
4ビットQLoRAと凍結LDMバックボーンにより、V-COREは単一のコンシューマGPU上で効率的にトレーニングできる。
実験の結果、V-COREは挑戦的なNExT-QAベンチマークで強い性能を示し、61.2%の精度に達した。
- 参考スコア(独自算出の注目度): 14.297733965389959
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent Video Large Language Models (Video-LLMs) have shown strong multimodal reasoning capabilities, yet remain challenged by video understanding tasks that require consistent temporal ordering and causal coherence. Many parameter-efficient Video-LLMs rely on unconstrained bidirectional projectors to model inter-frame interactions, which can blur temporal ordering by allowing later frames to influence earlier representations, without explicit architectural mechanisms to respect the directional nature of video reasoning. To address this limitation, we propose V-CORE, a parameter-efficient framework that introduces explicit temporal ordering constraints for video understanding. V-CORE consists of two key components: (1) Learnable Spatial Aggregation (LSA), which adaptively selects salient spatial tokens to reduce redundancy, and (2) a Causality-Aware Temporal Projector (CATP), which enforces structured unidirectional information flow via block-causal attention and a terminal dynamic summary token acting as a causal sink. This design preserves intra-frame spatial interactions while ensuring that temporal information is aggregated in a strictly ordered manner. With 4-bit QLoRA and a frozen LLM backbone, V-CORE can be trained efficiently on a single consumer GPU. Experiments show that V-CORE achieves strong performance on the challenging NExT-QA benchmark, reaching 61.2% accuracy, and remains competitive across MSVD-QA, MSRVTT-QA, and TGIF-QA, with gains concentrated in temporal and causal reasoning subcategories (+3.5% and +5.2% respectively), directly validating the importance of explicit temporal ordering constraints.
- Abstract(参考訳): 最近のビデオ大言語モデル (Video-LLMs) は、強いマルチモーダル推論能力を示しているが、一貫した時間的順序付けと因果コヒーレンスを必要とするビデオ理解タスクによって、依然として課題が残されている。
多くのパラメータ効率の高いビデオ-LLMは、フレーム間の相互作用をモデル化するために制約のない双方向プロジェクタに依存しており、後続のフレームがビデオ推論の方向性の性質を尊重する明示的なアーキテクチャ機構を伴わずに、以前の表現に影響を及ぼすことによって時間的順序を曖昧にすることができる。
この制限に対処するため,ビデオ理解のための時間的制約を明示的に導入するパラメータ効率の高いフレームワークであるV-COREを提案する。
V-CORE は,(1) 空間的アグリゲーション (LSA) を適応的に選択して冗長性を減少させる,(2) 因果的シンクとして機能する,ブロック・因果的注意による一方向情報の流れを構造化する因果的時間的プロジェクタ (CATP) と, 終端動的要約トークンからなる。
この設計は、時間情報が厳密に順序づけられた方法で集約されることを確保しながら、フレーム内の空間的相互作用を保存する。
4ビットQLoRAと凍結LDMバックボーンにより、V-COREは単一のコンシューマGPU上で効率的にトレーニングできる。
実験の結果、V-COREは難易度の高いNExT-QAベンチマークにおいて、61.2%の精度に達し、MSVD-QA、MSRVTT-QA、TGIF-QAで競争力を維持しており、それぞれ時間的および因果的推論サブカテゴリ(+3.5%と+5.2%)に集中している。
関連論文リスト
- TV-RAG: A Temporal-aware and Semantic Entropy-Weighted Framework for Long Video Retrieval and Understanding [14.570869250170139]
TV-RAGは、時間的アライメントとエントロピー誘導のセマンティクスを結合して、長時間ビデオの推論を改善する、トレーニング不要のアーキテクチャである。
これらの時間的および意味的な信号を織り合わせることで、TV-RAGは、再トレーニングや微調整なしに任意のLVLMに移植できる二重レベルの推論ルーチンを実現する。
論文 参考訳(メタデータ) (2025-12-29T14:10:22Z) - StreamingCoT: A Dataset for Temporal Dynamics and Multimodal Chain-of-Thought Reasoning in Streaming VideoQA [60.86024022291499]
ストリーミングビデオストリームにおける時間的に進化する推論のために明示的に設計された最初のデータセットであるStreamingCoTを紹介する。
本フレームワークは,秒単位の高密度な記述を生成し,類似性融合により時間依存性のセマンティックセグメントを構築する。
このデータセットは、ストリーミングビデオ理解、複雑な時間的推論、マルチモーダル推論の研究を促進する基盤を確立する。
論文 参考訳(メタデータ) (2025-10-29T09:47:38Z) - ResidualViT for Efficient Temporally Dense Video Encoding [66.57779133786131]
我々は,時間的に密集したタスクに対する計算機能のコスト削減に3つの貢献をしている。
まず、ビデオの時間的冗長性を活用するビジョントランスフォーマー(ViT)アーキテクチャ、ResidualViTを紹介する。
第2に,原基礎モデルのフレームレベルの特徴を近似する軽量蒸留方式を提案する。
論文 参考訳(メタデータ) (2025-09-16T17:12:23Z) - Video-LLMs with Temporal Visual Screening [59.18455762289321]
テンポラル・ビジュアル・スクリーニング (TVS) はビデオ質問応答とチューニングデータを処理する新しいタスクである。
TVSは、ビデオインストラクションチューニング(トレーニング)とビデオ質問回答(推論)パイプラインの両方にシームレスに統合可能な、モジュール化されたフロントエンドアダプタタスクとして定式化されている。
実験により、TVSを取り入れた場合、相対利得は7.33%(トレーニング)、34.6%(推論)となることが示された。
論文 参考訳(メタデータ) (2025-08-27T14:33:32Z) - Causality Matters: How Temporal Information Emerges in Video Language Models [17.570777893613137]
ビデオ入力における位置エンコーディングの除去や修正は、時間的理解の性能の低下を最小限に抑えることが判明した。
この振る舞いを説明するために、我々は時間的情報がモデルにどのように組み込まれているかを追跡するための重要な分析実験を行った。
そこで我々は,2つの効率重視戦略を提案する。
論文 参考訳(メタデータ) (2025-08-15T16:33:14Z) - LeAdQA: LLM-Driven Context-Aware Temporal Grounding for Video Question Answering [10.060267989615813]
本稿では,これらのギャップを埋める斬新な手法であるLeAdQAを紹介する。
NExT-QA, IntentQA, NExT-GQAに関する実験により, 本手法の正確な視覚的基盤化は, 映像検索関係の理解を著しく向上させることを示した。
論文 参考訳(メタデータ) (2025-07-20T01:57:00Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。