論文の概要: Episodic Memory Representation for Long-form Video Understanding
- arxiv url: http://arxiv.org/abs/2508.09486v1
- Date: Wed, 13 Aug 2025 04:33:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.759078
- Title: Episodic Memory Representation for Long-form Video Understanding
- Title(参考訳): 長期映像理解のためのエピソード記憶表現法
- Authors: Yun Wang, Long Zhang, Jingren Liu, Jiaqi Yan, Zhanjie Zhang, Jiahao Zheng, Xun Yang, Dapeng Wu, Xiangyu Chen, Xuelong Li,
- Abstract要約: 大きなビデオ言語モデルは、一般的なビデオ理解において優れているが、長い形式のコンテキストウィンドウの制限に苦労する。
人間の記憶の原理にインスパイアされたトレーニングフリーのフレームワークであるVideo-EMを紹介する。
Video-EMでは、各ベースラインに対して4-9%のパフォーマンス向上を実現し、フレームの削減を実現している。
- 参考スコア(独自算出の注目度): 52.33907540905242
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video Large Language Models (Video-LLMs) excel at general video understanding but struggle with long-form videos due to context window limits. Consequently, recent approaches focus on keyframe retrieval, condensing lengthy videos into a small set of informative frames. Despite their practicality, these methods simplify the problem to static text image matching, overlooking spatio temporal relationships crucial for capturing scene transitions and contextual continuity, and may yield redundant keyframes with limited information, diluting salient cues essential for accurate video question answering. To address these limitations, we introduce Video-EM, a training free framework inspired by the principles of human episodic memory, designed to facilitate robust and contextually grounded reasoning. Rather than treating keyframes as isolated visual entities, Video-EM explicitly models them as temporally ordered episodic events, capturing both spatial relationships and temporal dynamics necessary for accurately reconstructing the underlying narrative. Furthermore, the framework leverages chain of thought (CoT) thinking with LLMs to iteratively identify a minimal yet highly informative subset of episodic memories, enabling efficient and accurate question answering by Video-LLMs. Extensive evaluations on the Video-MME, EgoSchema, HourVideo, and LVBench benchmarks confirm the superiority of Video-EM, which achieves highly competitive results with performance gains of 4-9 percent over respective baselines while utilizing fewer frames.
- Abstract(参考訳): ビデオ大言語モデル (Video Large Language Models, Video-LLMs) は、一般的なビデオ理解に優れるが、コンテキストウィンドウの制限により長めのビデオに苦しむ。
その結果、近年のアプローチでは、キーフレームの検索に焦点が当てられ、長いビデオを小さな情報フレームに凝縮する。
その実用性にもかかわらず、これらの手法は静的テキスト画像マッチングの問題を単純化し、シーンの遷移と文脈的連続性を捉えるのに不可欠な時空間的関係を見落とし、限られた情報を持つ冗長なキーフレームを生成し、正確なビデオ質問応答に不可欠な有能なキューを希釈する。
これらの制約に対処するために,人間のエピソード記憶の原理に触発されたトレーニングフリーフレームワークであるVideo-EMを導入する。
キーフレームを独立した視覚的実体として扱うのではなく、ビデオ-EMはそれらを時間的に順序付けられたエピソード事象として明確にモデル化し、基礎となる物語を正確に再構築するのに必要な空間的関係と時間的ダイナミクスの両方を捉えた。
さらに、このフレームワークは、LLMによる思考の連鎖(CoT)を利用して、最小でも高情報性の高いエピソード記憶の部分集合を反復的に識別し、ビデオLLMによる効率的な正確な質問応答を可能にする。
Video-MME, EgoSchema, HourVideo, LVBenchベンチマークの大規模評価により, Video-EMの優位性が確認された。
関連論文リスト
- KFFocus: Highlighting Keyframes for Enhanced Video Understanding [33.69757683688046]
KFFocusは,ビデオトークンを効率よく圧縮し,映像フレーム内に存在する情報的コンテキストを強調する手法である。
KFFocusは、コンテキスト関連性に基づいてフレームに様々な凝縮率を割り当てることで、情報コンテンツの詳細を保存しつつ、トークンの冗長性を効率的に低減する。
また,ビデオフレーム間の時間的関係と各フレーム内の空間構造をエンコードするマルチモーダルモデリングモジュールを導入する。
論文 参考訳(メタデータ) (2025-08-12T14:57:03Z) - STOP: Integrated Spatial-Temporal Dynamic Prompting for Video Understanding [48.12128042470839]
本稿では,STOP(Spatial-Temporal dynamic Prompting)モデルを提案する。
2つの相補的なモジュールで構成され、フレーム内の空間的プロンプトとフレーム間の時間的プロンプトである。
STOPは、最先端のメソッドに対して一貫して優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-20T09:16:20Z) - Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - $\infty$-Video: A Training-Free Approach to Long Video Understanding via Continuous-Time Memory Consolidation [19.616624959353697]
$infty$-Videoは、連続時間長期メモリ(LTM)統合機構を通じて、任意に長いビデオを処理できる。
我々のフレームワークは、ビデオのコンテキストを効率的に処理し、追加のトレーニングを必要とせず、ビデオQフォーマーを増強する。
論文 参考訳(メタデータ) (2025-01-31T12:45:46Z) - SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis [52.050036778325094]
本稿では,SALOVA: Segment-Augmented Video Assistantを紹介する。
87.8Kビデオの高品質なコレクションをセグメントレベルで高密度にキャプションし、シーンの連続性を捕捉し、リッチなコンテキストを維持する。
本フレームワークは,クエリに応答して,関連ビデオセグメントの正確な識別と検索を可能にすることで,現在のビデオLMMの限界を緩和する。
論文 参考訳(メタデータ) (2024-11-25T08:04:47Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。