論文の概要: VideoLLaMB: Long-context Video Understanding with Recurrent Memory Bridges
- arxiv url: http://arxiv.org/abs/2409.01071v1
- Date: Mon, 2 Sep 2024 08:52:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 07:38:47.777719
- Title: VideoLLaMB: Long-context Video Understanding with Recurrent Memory Bridges
- Title(参考訳): VideoLLaMB:リカレントメモリブリッジによる長文ビデオ理解
- Authors: Yuxuan Wang, Cihang Xie, Yang Liu, Zilong Zheng,
- Abstract要約: VideoLLaMBは、ブリッジ層内の時間メモリトークンを使用して、ビデオシーケンス全体のエンコーディングを可能にする新しいフレームワークである。
SceneTillingアルゴリズムは、ビデオを独立したセマンティックユニットに分割し、セマンティックな整合性を維持する。
効率面では、16フレームでトレーニングされたVideoLLaMBは、1つのNvidia A100 GPU上で最大320フレームをサポートする。
- 参考スコア(独自算出の注目度): 42.555895949250704
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advancements in large-scale video-language models have shown significant potential for real-time planning and detailed interactions. However, their high computational demands and the scarcity of annotated datasets limit their practicality for academic researchers. In this work, we introduce VideoLLaMB, a novel framework that utilizes temporal memory tokens within bridge layers to allow for the encoding of entire video sequences alongside historical visual data, effectively preserving semantic continuity and enhancing model performance across various tasks. This approach includes recurrent memory tokens and a SceneTilling algorithm, which segments videos into independent semantic units to preserve semantic integrity. Empirically, VideoLLaMB significantly outstrips existing video-language models, demonstrating a 5.5 points improvement over its competitors across three VideoQA benchmarks, and 2.06 points on egocentric planning. Comprehensive results on the MVBench show that VideoLLaMB-7B achieves markedly better results than previous 7B models of same LLM. Remarkably, it maintains robust performance as PLLaVA even as video length increases up to 8 times. Besides, the frame retrieval results on our specialized Needle in a Video Haystack (NIAVH) benchmark, further validate VideoLLaMB's prowess in accurately identifying specific frames within lengthy videos. Our SceneTilling algorithm also enables the generation of streaming video captions directly, without necessitating additional training. In terms of efficiency, VideoLLaMB, trained on 16 frames, supports up to 320 frames on a single Nvidia A100 GPU with linear GPU memory scaling, ensuring both high performance and cost-effectiveness, thereby setting a new foundation for long-form video-language models in both academic and practical applications.
- Abstract(参考訳): 近年の大規模ビデオ言語モデルの進歩は、リアルタイムプランニングや詳細なインタラクションにおいて大きな可能性を秘めている。
しかし、それらの高い計算要求と注釈付きデータセットの不足は、学術研究者にとって実用性を制限している。
本稿では,橋梁内の時間的メモリトークンを利用して,歴史的視覚データとともにビデオシーケンス全体を符号化し,意味的連続性を効果的に保ち,様々なタスクにおけるモデル性能を向上させるための,新しいフレームワークであるVideoLLaMBを紹介する。
このアプローチには、リカレントメモリトークンと、ビデオを独立したセマンティックユニットに分割してセマンティックな整合性を維持するSceneTillingアルゴリズムが含まれている。
実証的に、VideoLLaMBは既存のビデオ言語モデルを大きく上回り、3つのVideoQAベンチマークで競合製品よりも5.5ポイント、エゴセントリックプランニングでは2.06ポイント改善されている。
MVBench の総合的な結果から, VideoLLaMB-7B は, 従来の 7B モデルと同等の LLM モデルよりも著しく良好な結果が得られることが示された。
ビデオ長が最大8倍になるにもかかわらず、PLLaVAとして頑丈な性能を維持している。
さらに,ビデオハイスタック(NIAVH)ベンチマークのフレーム検索結果から,長大なビデオ内の特定のフレームを正確に識別する VideoLLaMB の長所を検証した。
我々のSceneTillingアルゴリズムは、追加のトレーニングを必要とせずに、ストリーミングビデオキャプションを直接生成することを可能にする。
16フレームでトレーニングされたVideoLLaMBは、リニアGPUメモリスケーリングを備えた1台のNvidia A100 GPU上で最大320フレームをサポートする。
関連論文リスト
- Streaming Long Video Understanding with Large Language Models [83.11094441893435]
VideoStreamingは、ビデオ理解のための高度な視覚言語大モデル(VLLM)である。
一定の数のビデオストリーミングトークンを符号化し、伝播的に選択した任意の長さのビデオを理解することができる。
提案モデルは,長大なビデオベンチマークにおいて,優れた性能と高効率を実現する。
論文 参考訳(メタデータ) (2024-05-25T02:22:09Z) - Efficient Video Object Segmentation via Modulated Cross-Attention Memory [123.12273176475863]
頻繁なメモリ拡張を必要とせず、時間的滑らかさをモデル化するトランスフォーマーベースの手法MAVOSを提案する。
我々のMAVOSは、単一のV100 GPU上で37フレーム/秒(FPS)で動作しながら、J&Fスコア63.3%を達成する。
論文 参考訳(メタデータ) (2024-03-26T17:59:58Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders
Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - Frame-wise Action Representations for Long Videos via Sequence
Contrastive Learning [44.412145665354736]
本稿では,フレームワイドな行動表現を学習するための,新しいコントラッシブな行動表現学習フレームワークを提案する。
自己教師型学習の最近の進歩に触発されて,2つの相関する視点に適用した新しいシーケンス・コントラッシブ・ロス(SCL)を提案する。
提案手法は,映像アライメントや細かなフレーム検索作業において,優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-28T17:59:54Z) - Beyond Short Clips: End-to-End Video-Level Learning with Collaborative
Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。
これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。
提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-02T18:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。