論文の概要: VideoLLaMB: Long Streaming Video Understanding with Recurrent Memory Bridges
- arxiv url: http://arxiv.org/abs/2409.01071v2
- Date: Sat, 02 Aug 2025 13:32:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.569859
- Title: VideoLLaMB: Long Streaming Video Understanding with Recurrent Memory Bridges
- Title(参考訳): VideoLLaMB:リカレントメモリブリッジによる長時間ストリーミングビデオ理解
- Authors: Yuxuan Wang, Yiqi Song, Cihang Xie, Yang Liu, Zilong Zheng,
- Abstract要約: VideoLLaMBは、長いビデオ理解のためのフレームワークである。
SceneTilingアルゴリズムは、ビデオをコヒーレントなセマンティックユニットに分割する。
VideoLLaMBは1つのNvidia A100 GPUを使用して最大320フレームを処理する。
- 参考スコア(独自算出の注目度): 39.666361965650836
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advancements in large-scale video-language models have shown significant potential for real-time planning and detailed interactions. However, their high computational demands and the scarcity of annotated datasets limit their practicality for academic researchers. In this work, we introduce VideoLLaMB, a novel and efficient framework for long video understanding that leverages recurrent memory bridges and temporal memory tokens to enable seamless encoding of entire video sequences with preserved semantic continuity. Central to our approach is a SceneTiling algorithm that segments videos into coherent semantic units, facilitating robust understanding across tasks without requiring additional training. VideoLLaMB achieves state-of-the-art performance, surpassing existing models by 4.2 points on four VideoQA benchmarks and by 2.06 points on egocentric planning tasks. Notably, it maintains strong performance under extreme video length scaling (up to 8 times) and excels at fine-grained frame retrieval on our proposed Needle in a Video Haystack (NIAVH) benchmark. With linear GPU memory scaling, VideoLLaMB processes up to 320 frames using a single Nvidia A100 GPU, despite being trained on only 16 frames-offering an unprecedented balance of accuracy, scalability, and cost-effectiveness. This makes it highly accessible and practical for the academic community.
- Abstract(参考訳): 近年の大規模ビデオ言語モデルの進歩は、リアルタイムプランニングや詳細なインタラクションにおいて大きな可能性を秘めている。
しかし、それらの高い計算要求と注釈付きデータセットの不足は、学術研究者にとって実用性を制限している。
本稿では,連続したメモリブリッジと時間的メモリトークンを利用して,保存されたセマンティック連続性を持つビデオシーケンス全体をシームレスにエンコーディングする,ビデオ理解のための新しい,効率的なフレームワークであるVideoLLaMBを紹介する。
私たちのアプローチの中心は、ビデオを一貫性のあるセマンティックユニットに分割するSceneTilingアルゴリズムです。
VideoLLaMBは最先端のパフォーマンスを達成し、既存のモデルを4つのVideoQAベンチマークで4.2ポイント、エゴセントリックな計画タスクで2.06ポイント上回る。
特に、極端なビデオ長のスケーリング(最大8倍)下での強いパフォーマンスを維持し、提案したNeedle in a Video Haystack(NIAVH)ベンチマークにおいて、きめ細かいフレーム検索に優れています。
線形GPUメモリのスケーリングにより、VideoLLaMBは1つのNvidia A100 GPUを使用して最大320フレームの処理を行う。
これにより、学術界にとって非常にアクセシビリティが高く、実用的なものとなっている。
関連論文リスト
- Video-XL-2: Towards Very Long-Video Understanding Through Task-Aware KV Sparsification [9.615466029246694]
Video-XL-2は、タスク対応KVスペーシングに基づく長時間ビデオ理解に優れたコスト効率を提供する新しいMLLMである。
NVIDIA A100(80GB)のGPUで1万フレーム以上を処理でき、数千フレームをほんの数秒で処理できる。
論文 参考訳(メタデータ) (2025-06-24T01:19:56Z) - FRAME: Pre-Training Video Feature Representations via Anticipation and Memory [55.046881477209695]
FRAMEは、高密度ビデオ理解に適した自己監督型ビデオフレームエンコーダである。
同社は、過去と現在のRGBフレームから現在と将来のDINOパッチ機能を予測することを学ぶ。
画像エンコーダや既存の自己監督型ビデオモデルよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-06-05T19:44:47Z) - An LMM for Efficient Video Understanding via Reinforced Compression of Video Cubes [85.00111442236499]
本稿では,非時間密度の動画をGumbel Softmax を用いて様々な立方体に分割する新しい知覚パラダイムを持つ LMM である textbfQuicksviewer を提案する。
言語バックボーンから3段階のプログレッシブステージを通じてモデルをトレーニングし、それぞれが知覚効率によって平均420s/1fpsの長大なビデオを組み込む。
トレーニング用ビデオテキストサンプルは0.8Mに過ぎず, 精度が最大8.72倍に向上した。
論文 参考訳(メタデータ) (2025-04-21T17:57:21Z) - VideoScan: Enabling Efficient Streaming Video Understanding via Frame-level Semantic Carriers [23.541896057977745]
VideoScanは、リアルタイムビデオインタラクションのための効率的な視覚言語モデル(VLM)推論フレームワークである。
VideoScanでは、各フレームを表すために単一のセマンティックキャリアトークンを使用している。
論文 参考訳(メタデータ) (2025-03-12T13:30:40Z) - VideoChat-Flash: Hierarchical Compression for Long-Context Video Modeling [43.485687038460895]
マルチモーダル大言語モデル(MLLM)における長文ビデオモデリングの重要性
本稿では,モデルアーキテクチャ,トレーニングデータ,トレーニング戦略,評価ベンチマークといった側面からこの問題に対処することを目的とする。
我々はVideoChat-Flashという強力なビデオMLLMを構築し、メインストリームのビデオベンチマークとショートビデオベンチマークの両方で主要なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-12-31T18:01:23Z) - Look Every Frame All at Once: Video-Ma$^2$mba for Efficient Long-form Video Understanding with Multi-Axis Gradient Checkpointing [52.050036778325094]
Video-Ma$2$mbaは、Mamba-2フレームワークにステートスペースモデル(SSM)を組み込んだ新しいアーキテクチャである。
本手法は,標準勾配チェックポイントに比べてメモリフットプリントを大幅に削減する。
時間的ダイナミクスの詳細なキャプチャーを維持することで、長いビデオ理解タスクにおける応答の精度と関連性を改善することができる。
論文 参考訳(メタデータ) (2024-11-29T04:12:13Z) - VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。
GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。
フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T08:33:36Z) - Too Many Frames, Not All Useful: Efficient Strategies for Long-Form Video QA [40.21221568678641]
広い時間間隔にまたがるロングフォームビデオは、非常に冗長な情報である。
正しい応答を生成するために必要な全ての情報は、しばしばフレームの小さなサブセットに含まれる。
近年の文献では、LVQAベンチマークにおける大きな言語モデルの使用を探求し、例外的な性能を達成している。
論文 参考訳(メタデータ) (2024-06-13T17:59:16Z) - Streaming Long Video Understanding with Large Language Models [83.11094441893435]
VideoStreamingは、ビデオ理解のための高度な視覚言語大モデル(VLLM)である。
一定の数のビデオストリーミングトークンを符号化し、伝播的に選択した任意の長さのビデオを理解することができる。
提案モデルは,長大なビデオベンチマークにおいて,優れた性能と高効率を実現する。
論文 参考訳(メタデータ) (2024-05-25T02:22:09Z) - Efficient Video Object Segmentation via Modulated Cross-Attention Memory [123.12273176475863]
頻繁なメモリ拡張を必要とせず、時間的滑らかさをモデル化するトランスフォーマーベースの手法MAVOSを提案する。
我々のMAVOSは、単一のV100 GPU上で37フレーム/秒(FPS)で動作しながら、J&Fスコア63.3%を達成する。
論文 参考訳(メタデータ) (2024-03-26T17:59:58Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders
Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - Frame-wise Action Representations for Long Videos via Sequence
Contrastive Learning [44.412145665354736]
本稿では,フレームワイドな行動表現を学習するための,新しいコントラッシブな行動表現学習フレームワークを提案する。
自己教師型学習の最近の進歩に触発されて,2つの相関する視点に適用した新しいシーケンス・コントラッシブ・ロス(SCL)を提案する。
提案手法は,映像アライメントや細かなフレーム検索作業において,優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-28T17:59:54Z) - Beyond Short Clips: End-to-End Video-Level Learning with Collaborative
Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。
これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。
提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-02T18:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。