論文の概要: Scaling the Long Video Understanding of Multimodal Large Language Models via Visual Memory Mechanism
- arxiv url: http://arxiv.org/abs/2603.29252v1
- Date: Tue, 31 Mar 2026 04:23:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.147891
- Title: Scaling the Long Video Understanding of Multimodal Large Language Models via Visual Memory Mechanism
- Title(参考訳): 視覚記憶機構を用いた多モーダル大言語モデルの長時間映像理解のスケールアップ
- Authors: Tao Chen, Kun Zhang, Qiong Wu, Xiao Chen, Chao Chang, Xiaoshuai Sun, Yiyi Zhou, Rongrong Ji,
- Abstract要約: EmphMultimodal Large Language Models(MLLM)の進歩に悩む長大なビデオ理解
本稿では, 視覚記憶機構の観点からこの問題を考察し, emphFlexible Memory (textbfFlexMem) と呼ばれる新しい, トレーニング不要な手法を提案する。
原則としてFlexMemは、ビデオ視聴の人間の振る舞いを模倣すること、すなわち、継続的にビデオコンテンツを見て、最も関連するメモリフラグメントをリコールして質問に答えることを目的としている。
- 参考スコア(独自算出の注目度): 82.67996027633986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long video understanding is a key challenge that plagues the advancement of \emph{Multimodal Large language Models} (MLLMs). In this paper, we study this problem from the perspective of visual memory mechanism, and proposed a novel and training-free approach, termed \emph{Flexible Memory} (\textbf{FlexMem}). In principle, FlexMem aims to mimic human behavior of video watching, \emph{i.e.}, continually watching video content and recalling the most relevant memory fragments to answer the question. In this way, FlexMem can help MLLMs achieve video understanding of infinite lengths, unlike previous methods that process all video information at once and have input upper-limit. Concretely, FlexMem first consider the visual KV caches as the memory sources, and realize the effective memory transfer and writing via a dual-pathway compression design. Afterwards, FlexMem also explores different memory reading strategies for the diverse video understanding tasks, including the popular streaming one. To validate FlexMem, we apply it to two popular video-MLLMs, and conduct extensive experiments on five long video and one streaming video task. The experimental results show that on \textbf{a single 3090 GPU}, our FlexMem can achieve obvious improvements than existing efficient video understanding methods and process more than \textbf{1k frames}, which also helps the base MLLMs achieve comparable or even better performance than SOTA MLLMs on some benchmarks, \emph{e.g.} , GPT-4o and Gemini-1.5 Pro.
- Abstract(参考訳): 長いビデオ理解は、MLLMの進歩を悩ませる重要な課題である。
本稿では,視覚記憶機構の観点からこの問題を考察し,新しい学習自由な手法である「emph{Flexible Memory} (\textbf{FlexMem})」を提案する。
原則として、FlexMemはビデオ視聴の人間の振る舞いを模倣することを目的としており、ビデオコンテンツを継続的に視聴し、最も関連性の高いメモリフラグメントをリコールして質問に答えることを目的としている。
このような方法でFlexMemは、すべてのビデオ情報を一度に処理し、入力上限を持つ従来の方法とは異なり、MLLMが無限長のビデオ理解を実現するのに役立ちます。
具体的には、FlexMemはまず視覚的なKVキャッシュをメモリソースとみなし、双方向圧縮設計による効果的なメモリ転送と書き込みを実現する。
その後FlexMemは、人気のあるストリーミング機能を含む様々なビデオ理解タスクのための異なるメモリ読み込み戦略についても検討している。
FlexMemを検証するために、2つの人気ビデオMLLMに適用し、5つの長ビデオと1つのストリーミングビデオタスクで広範な実験を行う。
実験結果から,FlexMemは既存の効率的なビデオ理解手法やプロセスよりも明らかな改善を達成でき,また,いくつかのベンチマーク(emph{e g }, GPT-4o, Gemini-1.5 Pro)において,ベースMLLMがSOTA MLLMと同等あるいはそれ以上のパフォーマンスを達成するのに役立つことがわかった。
関連論文リスト
- Flash-VStream: Efficient Real-Time Understanding for Long Video Streams [64.25549822010372]
Flash-VStreamは、非常に長いビデオを処理し、リアルタイムでユーザークエリに応答できるビデオ言語モデルである。
既存のモデルと比較して、Flash-VStreamは推論遅延を大幅に削減する。
論文 参考訳(メタデータ) (2025-06-30T13:17:49Z) - Look Every Frame All at Once: Video-Ma$^2$mba for Efficient Long-form Video Understanding with Multi-Axis Gradient Checkpointing [52.050036778325094]
Video-Ma$2$mbaは、Mamba-2フレームワークにステートスペースモデル(SSM)を組み込んだ新しいアーキテクチャである。
本手法は,標準勾配チェックポイントに比べてメモリフットプリントを大幅に削減する。
時間的ダイナミクスの詳細なキャプチャーを維持することで、長いビデオ理解タスクにおける応答の精度と関連性を改善することができる。
論文 参考訳(メタデータ) (2024-11-29T04:12:13Z) - ReWind: Understanding Long Videos with Instructed Learnable Memory [8.002949551539297]
VLM(Vision-Language Models)は、テキスト情報と視覚情報の統合的な理解を必要とするアプリケーションに不可欠である。
本稿では,時間的忠実さを保ちながら,より効率的な長時間ビデオ理解を実現するためのメモリベースの新しいVLMであるReWindを紹介する。
本稿では,視覚的質問応答(VQA)と時間的グラウンド処理におけるReWindの優れた性能を実証的に示す。
論文 参考訳(メタデータ) (2024-11-23T13:23:22Z) - Visual Context Window Extension: A New Perspective for Long Video Understanding [45.134271969594614]
我々は、コンテキストウィンドウの観点から、長いビデオ理解の課題に取り組む。
視覚的コンテキストウィンドウを拡張し,LMMを長時間の映像理解タスクに適用することを提案する。
ビデオフレーム数の増加に伴い,本手法は連続的に性能を向上する。
論文 参考訳(メタデータ) (2024-09-30T07:25:16Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames [57.758863967770594]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。