Fugu-MT 論文翻訳(概要): VideoLLaMB: Long-context Video Understanding with Recurrent Memory Bridges

論文の概要: VideoLLaMB: Long-context Video Understanding with Recurrent Memory Bridges

arxiv url: http://arxiv.org/abs/2409.01071v1
Date: Mon, 2 Sep 2024 08:52:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-06 07:38:47.777719
Title: VideoLLaMB: Long-context Video Understanding with Recurrent Memory Bridges
Title（参考訳）: VideoLLaMB:リカレントメモリブリッジによる長文ビデオ理解
Authors: Yuxuan Wang, Cihang Xie, Yang Liu, Zilong Zheng,
Abstract要約: VideoLLaMBは、ブリッジ層内の時間メモリトークンを使用して、ビデオシーケンス全体のエンコーディングを可能にする新しいフレームワークである。 SceneTillingアルゴリズムは、ビデオを独立したセマンティックユニットに分割し、セマンティックな整合性を維持する。効率面では、16フレームでトレーニングされたVideoLLaMBは、1つのNvidia A100 GPU上で最大320フレームをサポートする。
参考スコア（独自算出の注目度）: 42.555895949250704
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Recent advancements in large-scale video-language models have shown significant potential for real-time planning and detailed interactions. However, their high computational demands and the scarcity of annotated datasets limit their practicality for academic researchers. In this work, we introduce VideoLLaMB, a novel framework that utilizes temporal memory tokens within bridge layers to allow for the encoding of entire video sequences alongside historical visual data, effectively preserving semantic continuity and enhancing model performance across various tasks. This approach includes recurrent memory tokens and a SceneTilling algorithm, which segments videos into independent semantic units to preserve semantic integrity. Empirically, VideoLLaMB significantly outstrips existing video-language models, demonstrating a 5.5 points improvement over its competitors across three VideoQA benchmarks, and 2.06 points on egocentric planning. Comprehensive results on the MVBench show that VideoLLaMB-7B achieves markedly better results than previous 7B models of same LLM. Remarkably, it maintains robust performance as PLLaVA even as video length increases up to 8 times. Besides, the frame retrieval results on our specialized Needle in a Video Haystack (NIAVH) benchmark, further validate VideoLLaMB's prowess in accurately identifying specific frames within lengthy videos. Our SceneTilling algorithm also enables the generation of streaming video captions directly, without necessitating additional training. In terms of efficiency, VideoLLaMB, trained on 16 frames, supports up to 320 frames on a single Nvidia A100 GPU with linear GPU memory scaling, ensuring both high performance and cost-effectiveness, thereby setting a new foundation for long-form video-language models in both academic and practical applications.
Abstract（参考訳）: 近年の大規模ビデオ言語モデルの進歩は、リアルタイムプランニングや詳細なインタラクションにおいて大きな可能性を秘めている。しかし、それらの高い計算要求と注釈付きデータセットの不足は、学術研究者にとって実用性を制限している。本稿では,橋梁内の時間的メモリトークンを利用して,歴史的視覚データとともにビデオシーケンス全体を符号化し,意味的連続性を効果的に保ち,様々なタスクにおけるモデル性能を向上させるための,新しいフレームワークであるVideoLLaMBを紹介する。このアプローチには、リカレントメモリトークンと、ビデオを独立したセマンティックユニットに分割してセマンティックな整合性を維持するSceneTillingアルゴリズムが含まれている。実証的に、VideoLLaMBは既存のビデオ言語モデルを大きく上回り、3つのVideoQAベンチマークで競合製品よりも5.5ポイント、エゴセントリックプランニングでは2.06ポイント改善されている。 MVBench の総合的な結果から, VideoLLaMB-7B は, 従来の 7B モデルと同等の LLM モデルよりも著しく良好な結果が得られることが示された。ビデオ長が最大8倍になるにもかかわらず、PLLaVAとして頑丈な性能を維持している。さらに,ビデオハイスタック(NIAVH)ベンチマークのフレーム検索結果から,長大なビデオ内の特定のフレームを正確に識別する VideoLLaMB の長所を検証した。我々のSceneTillingアルゴリズムは、追加のトレーニングを必要とせずに、ストリーミングビデオキャプションを直接生成することを可能にする。 16フレームでトレーニングされたVideoLLaMBは、リニアGPUメモリスケーリングを備えた1台のNvidia A100 GPU上で最大320フレームをサポートする。

関連論文リスト

An LMM for Efficient Video Understanding via Reinforced Compression of Video Cubes [85.00111442236499]
本稿では,非時間密度の動画をGumbel Softmax を用いて様々な立方体に分割する新しい知覚パラダイムを持つ LMM である textbfQuicksviewer を提案する。言語バックボーンから3段階のプログレッシブステージを通じてモデルをトレーニングし、それぞれが知覚効率によって平均420s/1fpsの長大なビデオを組み込む。トレーニング用ビデオテキストサンプルは0.8Mに過ぎず, 精度が最大8.72倍に向上した。
論文参考訳（メタデータ） (2025-04-21T17:57:21Z)
VideoChat-Flash: Hierarchical Compression for Long-Context Video Modeling [43.485687038460895]
マルチモーダル大言語モデル(MLLM)における長文ビデオモデリングの重要性本稿では,モデルアーキテクチャ,トレーニングデータ,トレーニング戦略,評価ベンチマークといった側面からこの問題に対処することを目的とする。我々はVideoChat-Flashという強力なビデオMLLMを構築し、メインストリームのビデオベンチマークとショートビデオベンチマークの両方で主要なパフォーマンスを示している。
論文参考訳（メタデータ） (2024-12-31T18:01:23Z)
Look Every Frame All at Once: Video-Ma$^2$mba for Efficient Long-form Video Understanding with Multi-Axis Gradient Checkpointing [52.050036778325094]
Video-Ma$2$mbaは、Mamba-2フレームワークにステートスペースモデル(SSM)を組み込んだ新しいアーキテクチャである。本手法は,標準勾配チェックポイントに比べてメモリフットプリントを大幅に削減する。時間的ダイナミクスの詳細なキャプチャーを維持することで、長いビデオ理解タスクにおける応答の精度と関連性を改善することができる。
論文参考訳（メタデータ） (2024-11-29T04:12:13Z)
Too Many Frames, Not All Useful: Efficient Strategies for Long-Form Video QA [40.21221568678641]
広い時間間隔にまたがるロングフォームビデオは、非常に冗長な情報である。正しい応答を生成するために必要な全ての情報は、しばしばフレームの小さなサブセットに含まれる。近年の文献では、LVQAベンチマークにおける大きな言語モデルの使用を探求し、例外的な性能を達成している。
論文参考訳（メタデータ） (2024-06-13T17:59:16Z)
Streaming Long Video Understanding with Large Language Models [83.11094441893435]
VideoStreamingは、ビデオ理解のための高度な視覚言語大モデル(VLLM)である。一定の数のビデオストリーミングトークンを符号化し、伝播的に選択した任意の長さのビデオを理解することができる。提案モデルは,長大なビデオベンチマークにおいて,優れた性能と高効率を実現する。
論文参考訳（メタデータ） (2024-05-25T02:22:09Z)
Efficient Video Object Segmentation via Modulated Cross-Attention Memory [123.12273176475863]
頻繁なメモリ拡張を必要とせず、時間的滑らかさをモデル化するトランスフォーマーベースの手法MAVOSを提案する。我々のMAVOSは、単一のV100 GPU上で37フレーム/秒(FPS)で動作しながら、J&Fスコア63.3%を達成する。
論文参考訳（メタデータ） (2024-03-26T17:59:58Z)
Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文参考訳（メタデータ） (2024-02-05T16:30:49Z)
A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。 1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文参考訳（メタデータ） (2023-12-12T16:10:19Z)
Frame-wise Action Representations for Long Videos via Sequence Contrastive Learning [44.412145665354736]
本稿では,フレームワイドな行動表現を学習するための,新しいコントラッシブな行動表現学習フレームワークを提案する。自己教師型学習の最近の進歩に触発されて,2つの相関する視点に適用した新しいシーケンス・コントラッシブ・ロス(SCL)を提案する。提案手法は,映像アライメントや細かなフレーム検索作業において,優れた性能を示す。
論文参考訳（メタデータ） (2022-03-28T17:59:54Z)
Beyond Short Clips: End-to-End Video-Level Learning with Collaborative Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文参考訳（メタデータ） (2021-04-02T18:59:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。