論文の概要: Déjà Vu: Efficient Video-Language Query Engine with Learning-based Inter-Frame Computation Reuse
- arxiv url: http://arxiv.org/abs/2506.14107v1
- Date: Tue, 17 Jun 2025 01:59:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.288247
- Title: Déjà Vu: Efficient Video-Language Query Engine with Learning-based Inter-Frame Computation Reuse
- Title(参考訳): Déjà Vu: 学習ベースのフレーム間計算再利用を備えた効率的なビデオ言語クエリエンジン
- Authors: Jinwoo Hwang, Daeun Kim, Sangyeop Lee, Yoonsung Kim, Guseul Heo, Hojoon Kim, Yunseok Jeong, Tadiwos Meaza, Eunhyeok Park, Jeongseob Ahn, Jongse Park,
- Abstract要約: 本稿では、連続するフレーム間の計算を再利用することで、VTベースのビデオLMを高速化するビデオ言語クエリエンジンであるD'eja Vuを紹介する。
コアとなるReuseViTは、ビデオLMタスク用に特別に設計された修正ViTモデルであり、フレーム間の再利用機会を検出することを学ぶ。
D'eja Vuは、2%のエラーバウンド内で最大2.64倍の埋め込み生成を加速し、大規模なビデオ解析のためのビデオLMの実用性を劇的に向上させることを示す。
- 参考スコア(独自算出の注目度): 7.283352519499699
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, Video-Language Models (VideoLMs) have demonstrated remarkable capabilities, offering significant potential for flexible and powerful video query systems. These models typically rely on Vision Transformers (ViTs), which process video frames individually to extract visual embeddings. However, generating embeddings for large-scale videos requires ViT inferencing across numerous frames, posing a major hurdle to real-world deployment and necessitating solutions for integration into scalable video data management systems. This paper introduces D\'ej\`a Vu, a video-language query engine that accelerates ViT-based VideoLMs by reusing computations across consecutive frames. At its core is ReuseViT, a modified ViT model specifically designed for VideoLM tasks, which learns to detect inter-frame reuse opportunities, striking an effective balance between accuracy and reuse. Although ReuseViT significantly reduces computation, these savings do not directly translate into performance gains on GPUs. To overcome this, D\'ej\`a Vu integrates memory-compute joint compaction techniques that convert the FLOP savings into tangible performance gains. Evaluations on three VideoLM tasks show that D\'ej\`a Vu accelerates embedding generation by up to a 2.64x within a 2% error bound, dramatically enhancing the practicality of VideoLMs for large-scale video analytics.
- Abstract(参考訳): 近年,ビデオ言語モデル (Video-Language Models, VideoLMs) は,フレキシブルで強力なビデオクエリシステムに重要な可能性を秘めている。
これらのモデルは一般的にヴィジュアルトランスフォーマー(ViT)に依存し、ビデオフレームを個別に処理して視覚的な埋め込みを抽出する。
しかし、大規模なビデオに埋め込みを生成するには、ViTが多数のフレームにわたって参照する必要があるため、現実のデプロイメントにおいて大きなハードルとなり、スケーラブルなビデオデータ管理システムに統合するためのソリューションが必要になる。
本稿では、連続するフレーム間の計算を再利用することで、VTベースのビデオLMを高速化するビデオ言語クエリエンジンであるD\'ej\`a Vuを紹介する。
コアとなるReuseViTは、ビデオLMタスク用に特別に設計された修正ViTモデルであり、フレーム間の再利用機会を検出し、精度と再利用の効果的なバランスを保っている。
ReuseViTは計算を著しく削減するが、これらの節約はGPUのパフォーマンス向上に直接変換されない。
これを解決するため、D\'ej\`a Vu は FLOP のセーブを具体的なパフォーマンスゲインに変換するメモリ計算ジョイント圧縮技術を統合する。
3つのVideoLMタスクの評価によると、D\'ej\`a Vuは2%のエラーバウンド内で最大2.64倍の埋め込み生成を加速し、大規模なビデオ分析のためのVideoLMの実用性を劇的に向上させる。
関連論文リスト
- FiLA-Video: Spatio-Temporal Compression for Fine-Grained Long Video Understanding [17.71123451197036]
ビデオデータの複雑さとコンテキスト処理の制限は、長いビデオの理解を妨げる。
本稿では,複数のフレームを単一の表現に統合する新しいフレームワークであるFiLA-Videoを提案する。
FiLA-Videoは、従来の方法に比べて、長時間ビデオ理解において優れた効率と精度を実現している。
論文 参考訳(メタデータ) (2025-04-29T03:09:46Z) - Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - VideoLLaMB: Long-context Video Understanding with Recurrent Memory Bridges [42.555895949250704]
VideoLLaMBは、ブリッジ層内の時間メモリトークンを使用して、ビデオシーケンス全体のエンコーディングを可能にする新しいフレームワークである。
SceneTillingアルゴリズムは、ビデオを独立したセマンティックユニットに分割し、セマンティックな整合性を維持する。
効率面では、16フレームでトレーニングされたVideoLLaMBは、1つのNvidia A100 GPU上で最大320フレームをサポートする。
論文 参考訳(メタデータ) (2024-09-02T08:52:58Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames [57.758863967770594]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - Multi-entity Video Transformers for Fine-Grained Video Representation
Learning [36.31020249963468]
ビデオ表現学習のためのトランスフォーマーアーキテクチャの設計を再検討する。
我々の自己監督手法の健全な側面は、時間的パイプラインにおける空間情報の統合の改善である。
我々のMV-Former(Multi-entity Video Transformer)アーキテクチャは、複数のきめ細かいビデオベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2023-11-17T21:23:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。