論文の概要: $\infty$-Video: A Training-Free Approach to Long Video Understanding via Continuous-Time Memory Consolidation
- arxiv url: http://arxiv.org/abs/2501.19098v1
- Date: Fri, 31 Jan 2025 12:45:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 14:02:50.733038
- Title: $\infty$-Video: A Training-Free Approach to Long Video Understanding via Continuous-Time Memory Consolidation
- Title(参考訳): $\infty$-Video: 連続時間メモリ統合による長時間ビデオ理解のためのトレーニング不要のアプローチ
- Authors: Saul Santos, António Farinhas, Daniel C. McNamee, André F. T. Martins,
- Abstract要約: $infty$-Videoは、連続時間長期メモリ(LTM)統合機構を通じて、任意に長いビデオを処理できる。
我々のフレームワークは、ビデオのコンテキストを効率的に処理し、追加のトレーニングを必要とせず、ビデオQフォーマーを増強する。
- 参考スコア(独自算出の注目度): 19.616624959353697
- License:
- Abstract: Current video-language models struggle with long-video understanding due to limited context lengths and reliance on sparse frame subsampling, often leading to information loss. This paper introduces $\infty$-Video, which can process arbitrarily long videos through a continuous-time long-term memory (LTM) consolidation mechanism. Our framework augments video Q-formers by allowing them to process unbounded video contexts efficiently and without requiring additional training. Through continuous attention, our approach dynamically allocates higher granularity to the most relevant video segments, forming "sticky" memories that evolve over time. Experiments with Video-LLaMA and VideoChat2 demonstrate improved performance in video question-answering tasks, showcasing the potential of continuous-time LTM mechanisms to enable scalable and training-free comprehension of long videos.
- Abstract(参考訳): 現在のビデオ言語モデルは、コンテキスト長の制限とスパースフレームのサブサンプリングに依存するため、長いビデオ理解に苦慮している。
本稿では,LTM(Continuous-time Long-term memory)統合機構により,任意の長さの動画を任意に処理できる$\infty$-Videoを紹介する。
本フレームワークは,非有界なビデオコンテキストを,追加のトレーニングを必要とせず効率的に処理できるようにすることにより,映像Q-formerを増強する。
連続的な注意を通して、我々の手法は最も関連性の高いビデオセグメントに動的に高い粒度を割り当て、時間とともに進化する「粘着した」記憶を形成する。
Video-LLaMAとVideoChat2の実験では、ビデオ質問応答タスクのパフォーマンスが向上し、長期ビデオのスケーラブルでトレーニング不要な理解を可能にするために、継続的LTMメカニズムの可能性を示している。
関連論文リスト
- VideoChat-Flash: Hierarchical Compression for Long-Context Video Modeling [43.485687038460895]
本稿では,高忠実度表現のための階層型ビジュアルトークン圧縮(HiCo)手法を提案する。
HiCoは、長いビデオにおける視覚情報の冗長性を利用して、クリップレベルからビデオレベルまで、長いビデオコンテキストを圧縮する。
VideoChat-Flashは、2Bと7Bのモデルスケールで、メインストリームのビデオベンチマークとショートビデオベンチマークの両方で主要なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-12-31T18:01:23Z) - SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis [52.050036778325094]
本稿では,SALOVA: Segment-Augmented Video Assistantを紹介する。
87.8Kビデオの高品質なコレクションをセグメントレベルで高密度にキャプションし、シーンの連続性を捕捉し、リッチなコンテキストを維持する。
本フレームワークは,クエリに応答して,関連ビデオセグメントの正確な識別と検索を可能にすることで,現在のビデオLMMの限界を緩和する。
論文 参考訳(メタデータ) (2024-11-25T08:04:47Z) - LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。
DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。
時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文 参考訳(メタデータ) (2024-10-22T21:21:37Z) - FreeLong: Training-Free Long Video Generation with SpectralBlend Temporal Attention [57.651429116402554]
本稿では、一貫した長ビデオ生成のための既存の短ビデオ拡散モデルを拡張するための、単純で訓練のないアプローチについて検討する。
短いビデオ拡散モデルを直接適用することで、ビデオの品質が著しく低下することを発見した。
そこで本研究では,長い映像の特徴の周波数分布のバランスをとるために,FreeLongという新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T11:52:07Z) - LongVLM: Efficient Long Video Understanding via Large Language Models [55.813206751150716]
LongVLMはビデオ理解のためのシンプルだが強力なビデオLLMである。
ローカル情報とグローバル情報の両方を含むビデオ表現をエンコードする。
我々のモデルは、長いビデオ理解のためのより正確な応答を生成する。
論文 参考訳(メタデータ) (2024-04-04T11:33:29Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - VTimeLLM: Empower LLM to Grasp Video Moments [43.51980030572101]
大規模言語モデル(LLM)は、顕著なテキスト理解能力を示している。
ビデオLLMはビデオ全体の粗い記述しか提供できない。
微細な映像モーメント理解のためのビデオLLMであるVTimeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-30T10:49:56Z) - Revisiting Kernel Temporal Segmentation as an Adaptive Tokenizer for
Long-form Video Understanding [57.917616284917756]
実世界のビデオは、しばしば数分間の長さであり、意味的に一貫した長さのセグメントがある。
長いビデオを処理するための一般的なアプローチは、一定時間の長さの一様にサンプリングされたクリップにショートフォームビデオモデルを適用することである。
このアプローチは、固定長のクリップがしばしば冗長または非形式的であるため、長いビデオの基本的な性質を無視する。
論文 参考訳(メタデータ) (2023-09-20T18:13:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。