論文の概要: DATE: Dynamic Absolute Time Enhancement for Long Video Understanding
- arxiv url: http://arxiv.org/abs/2509.09263v1
- Date: Thu, 11 Sep 2025 08:49:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.301579
- Title: DATE: Dynamic Absolute Time Enhancement for Long Video Understanding
- Title(参考訳): DATE: 長時間ビデオ理解のための動的絶対時間拡張
- Authors: Chao Yuan, Yang Yang, Yehui Yang, Zach Cheng,
- Abstract要約: 長期ビデオ理解はマルチモーダル大言語モデル(MLLM)の根本的な課題であり続けている
MLLMにおける時間的意識を高める動的絶対時間拡張(DATE)を提案する。
本稿では,意味的関連性と時間的関連性の両方を保証するための2段階アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 8.720269393713451
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long video understanding remains a fundamental challenge for multimodal large language models (MLLMs), particularly in tasks requiring precise temporal reasoning and event localization. Existing approaches typically adopt uniform frame sampling and rely on implicit position encodings to model temporal order. However, these methods struggle with long-range dependencies, leading to critical information loss and degraded temporal comprehension. In this paper, we propose Dynamic Absolute Time Enhancement (DATE) that enhances temporal awareness in MLLMs through the Timestamp Injection Mechanism (TIM) and a semantically guided Temporal-Aware Similarity Sampling (TASS) strategy. Specifically, we interleave video frame embeddings with textual timestamp tokens to construct a continuous temporal reference system. We further reformulate the video sampling problem as a vision-language retrieval task and introduce a two-stage algorithm to ensure both semantic relevance and temporal coverage: enriching each query into a descriptive caption to better align with the vision feature, and sampling key event with a similarity-driven temporally regularized greedy strategy. Our method achieves remarkable improvements w.r.t. absolute time understanding and key event localization, resulting in state-of-the-art performance among 7B and 72B models on hour-long video benchmarks. Particularly, our 7B model even exceeds many 72B models on some benchmarks.
- Abstract(参考訳): 長いビデオ理解は、特に正確な時間的推論とイベントの局所化を必要とするタスクにおいて、MLLM(Multimodal large language model)の基本的な課題である。
既存のアプローチは一般に一様フレームサンプリングを採用し、時間順序をモデル化するために暗黙の位置エンコーディングに依存している。
しかし、これらの手法は長距離依存に苦しむため、重要な情報損失と時間的理解の低下につながる。
本稿では,TIM(Timestamp Injection Mechanism)とTASS(Temporal-Aware similarity Smpling)戦略を通じてMLLMの時間的意識を高める動的絶対時間拡張(DATE)を提案する。
具体的には,ビデオフレームの埋め込みをテキストタイムスタンプトークンでインターリーブし,連続的な時間的参照システムを構築する。
さらに、映像サンプリング問題を視覚言語検索タスクとして再構成し、意味的関連性と時間的関係性の両方を保証するための2段階のアルゴリズムを導入する。
提案手法は絶対時間理解とキーイベントの局所化による顕著な改善を実現し,時間長ビデオベンチマークにおける7Bおよび72Bモデル間の最先端性能を実現する。
特に、我々の7Bモデルは、いくつかのベンチマークで多くの72Bモデルを超えています。
関連論文リスト
- Iterative Zoom-In: Temporal Interval Exploration for Long Video Understanding [18.027290155746112]
時間探索(Temporal Search)は、MLLMが時間領域を探索し、長いビデオの理解を反復的に改善する訓練不要のフレームワークである。
モデルの生成信頼度は、時間間隔によって異なるため、予測精度と高い相関関係がある。
よりきめ細かな時間間隔に注意を移し、長いビデオの理解を深めることで、モデルの焦点を洗練させる。
論文 参考訳(メタデータ) (2025-06-28T15:24:05Z) - VideoMolmo: Spatio-Temporal Grounding Meets Pointing [66.19964563104385]
VideoMolmoは、ビデオシーケンスのきめ細かいポインティングに適したモデルだ。
新しい仮面融合はSAM2を双方向の点伝播に用いている。
The generalization of VideoMolmo, we introduced VPoMolS-temporal, a challenge out-of-distribution benchmark across two real-world scenarios。
論文 参考訳(メタデータ) (2025-06-05T17:59:29Z) - DisTime: Distribution-based Time Representation for Video Large Language Models [23.176698643825123]
DisTimeは、ビデオLLMにおける時間的理解を強化するために設計された軽量フレームワークである。
DisTimeは、連続的な時間的埋め込みスペースを作成するために学習可能なトークンを使用する。
DisTimeは3つの時間に敏感なタスクでベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-30T08:10:18Z) - Everything Can Be Described in Words: A Simple Unified Multi-Modal Framework with Semantic and Temporal Alignment [0.0]
大規模言語モデルのための構造化テキストとして視覚と聴覚の入力を統一するフレームワークであるUMaTを提案する。
最新技術であるLong Video Question Answeringの精度を大幅に向上させる。
論文 参考訳(メタデータ) (2025-03-12T05:28:24Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - Temporal Preference Optimization for Long-Form Video Understanding [63.196246578583136]
TPO(Temporal Preference Optimization)は、ビデオLMMの時間的グラウンド機能を高めるために設計された、新しいポストトレーニングフレームワークである。
TPOは、手動の注釈付きデータへの依存を減らしながら、時間的理解を著しく向上させる。
LLaVA-Video-TPOは、Video-MMEベンチマークでトップ7Bモデルとしての地位を確立している。
論文 参考訳(メタデータ) (2025-01-23T18:58:03Z) - MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval [53.417646562344906]
Video Moment Retrieval (VMR) は、自然言語クエリが与えられた未トリミング長ビデオ内の特定の時間セグメントをローカライズすることを目的としている。
既存の方法は、しばしば不十分なトレーニングアノテーションに悩まされる。つまり、文は通常、単語の多様性が制限された前景の顕著なビデオ内容のごく一部と一致する。
この本質的なモダリティの不均衡は、視覚情報のかなりの部分がテキストと一致しないまま残されている。
本研究では,MLLMをビデオナレーターとして用いて,ビデオのテキスト記述を多用し,モダリティの不均衡を緩和し,時間的局所化を促進させる。
論文 参考訳(メタデータ) (2024-06-25T18:39:43Z) - Temporally Consistent Referring Video Object Segmentation with Hybrid Memory [98.80249255577304]
本稿では,参照セグメンテーションとともに時間的一貫性を明示的にモデル化する,エンドツーエンドなR-VOSパラダイムを提案する。
自動生成された高品質の参照マスクを有するフレームの特徴は、残りのフレームをセグメント化するために伝播される。
大規模な実験により,本手法は時間的整合性を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-03-28T13:32:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。