論文の概要: Free-MoRef: Instantly Multiplexing Context Perception Capabilities of Video-MLLMs within Single Inference
- arxiv url: http://arxiv.org/abs/2508.02134v1
- Date: Mon, 04 Aug 2025 07:31:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.225265
- Title: Free-MoRef: Instantly Multiplexing Context Perception Capabilities of Video-MLLMs within Single Inference
- Title(参考訳): Free-MoRef: 単一推論におけるビデオMLLMの文脈知覚能力を瞬時に多重化する
- Authors: Kuo Wang, Quanlong Zheng, Junlin Xie, Yanhao Zhang, Jinguo Luo, Haonan Lu, Liang Lin, Fan Zhou, Guanbin Li,
- Abstract要約: Free-MoRefは、ビデオMLLMのコンテキスト認識能力を多重化するトレーニング不要のアプローチである。
実験によると、Free-MoRefは1つのA100 GPUで圧縮することなく、2$times$から8$times$の入力フレームを完全に認識できる。
- 参考スコア(独自算出の注目度): 88.57742986765238
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Multimodal Large Language Models~(Video-MLLM) have achieved remarkable advancements in video understanding tasks. However, constrained by the context length limitation in the underlying LLMs, existing Video-MLLMs typically exhibit suboptimal performance on long video scenarios. To understand extended input frames, common solutions span token compression and streaming inference techniques, which sacrifice feature granularity or inference efficiency. Differently, to efficiently achieve comprehensive understanding of longer frame inputs, we draw ideas from MoE and propose a training-free approach \textbf{Free-MoRef}, which instantly multiplexes the context perception capabilities of Video-MLLMs within one inference pass. Specifically, Free-MoRef reconstructs the vision tokens into several short sequences as multi-references. Subsequently, we introduce MoRef-attention, which gathers clues from the multi-reference chunks in parallel to summarize unified query activations. After the shadow layers in LLMs, a reference fusion step is derived to compose a final mixed reasoning sequence with key tokens from parallel chunks, which compensates the cross-reference vision interactions that are neglected in MoRef-attention. By splitting and fusing the long vision token sequences, Free-MoRef achieves improved performance under much lower computing costs in reasoning multiplexed context length, demonstrating strong efficiency and effectiveness. Experiments on VideoMME, MLVU, LongVideoBench show that Free-MoRef achieves full perception of 2$\times$ to 8$\times$ longer input frames without compression on a single A100 GPU while keeping instant responses, thereby bringing significant performance gains, even surpassing dedicatedly trained long-video-MLLMs. Codes are available at https://github.com/wkfdb/Free-MoRef
- Abstract(参考訳): Video Multimodal Large Language Models~(Video-MLLM)は,映像理解タスクにおいて顕著な進歩を遂げている。
しかし、LLMのコンテキスト長制限に制約されるため、既存のビデオMLLMは長大なビデオシナリオで最適以下の性能を示すのが一般的である。
拡張入力フレームを理解するために、共通解はトークン圧縮とストリーミング推論技術にまたがり、特徴の粒度や推論効率を犠牲にする。
異なることに、より長いフレーム入力の包括的理解を効果的に達成するために、MoE のアイデアを描き、トレーニング不要なアプローチ \textbf{Free-MoRef} を提案する。
具体的には、Free-MoRefは視覚トークンを複数の短いシーケンスに再構成する。
次にMoRef-attentionを導入し、複数の参照チャンクからのヒントを並列に集め、統合されたクエリアクティベーションをまとめる。
LLMにおけるシャドウ層の後、参照融合ステップが導出され、MoRef-アテンションで無視される相互参照視覚相互作用を補償する並列チャンクからキートークンで最後の混合推論シーケンスを構成する。
長い視覚トークンシーケンスの分割と融合により、Free-MoRefは、多重コンテキスト長の推論において、より低い計算コスト下での性能向上を実現し、高い効率と有効性を示す。
VideoMME、MLVU、LongVideoBenchの実験では、Free-MoRefは1つのA100 GPUに圧縮することなく2$\times$から8$\times$の長い入力フレームをフル認識でき、これにより、専用に訓練された長ビデオMLLMよりも大きなパフォーマンス向上をもたらす。
コードはhttps://github.com/wkfdb/Free-MoRefで入手できる。
関連論文リスト
- SiLVR: A Simple Language-based Video Reasoning Framework [71.77141065418238]
簡単な言語ベースのビデオ推論フレームワークであるSiLVRについて紹介する。
第一段階では、SiLVRは生動画を多感覚入力を用いて言語ベースの表現に変換する。
第2段階では、複雑なビデオ言語理解タスクを解決するために、言語記述を強力な理由付けLLMに入力する。
論文 参考訳(メタデータ) (2025-05-30T17:59:19Z) - Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling [56.130911402831906]
本稿では,LRC(Long and rich context)モデリングによるビデオ大言語モデル(LM)の性能向上を目的とする。
InternVideo2.5の新バージョンを開発し、ビデオの細かい詳細を知覚するオリジナルのMLLMの能力の向上に焦点をあてる。
実験により、このユニークな設計ML LRCは、主流理解ベンチマークにおけるビデオMLLMの結果を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-01-21T18:59:00Z) - AIM: Adaptive Inference of Multi-Modal LLMs via Token Merging and Pruning [19.68349294206012]
大規模言語モデル(LLM)は、画像やビデオなどの視覚的データの強力な理解を示すマルチモーダルLLMの作成を可能にする。
多様な効率要件を満たすマルチモーダルLCMの学習自由適応推論法を提案する。
論文 参考訳(メタデータ) (2024-12-04T11:47:57Z) - LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。
DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。
時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文 参考訳(メタデータ) (2024-10-22T21:21:37Z) - Video-XL: Extra-Long Vision Language Model for Hour-Scale Video Understanding [25.61734041983714]
Video-XLはMLLM固有のキー値スカラー化能力を活用して視覚入力を凝縮する新しい手法である。
ビデオXLの有効性は3つの側面から検証される。第一に、より優れた長ビデオ理解能力を実現し、同等の大きさの最先端モデルよりも優れる。
論文 参考訳(メタデータ) (2024-09-22T15:13:31Z) - Inf-MLLM: Efficient Streaming Inference of Multimodal Large Language Models on a Single GPU [14.719538667881311]
Inf-MLLMはマルチモーダル大言語モデル(MLLM)のための効率的な推論フレームワークである
Inf-MLLM は,複数の LLM と MLLM が 4M 個の長文に対して安定した性能を実現し,単一の GPU 上での 1 時間ビデオとのマルチラウンド会話を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-09-11T12:44:12Z) - MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding [66.56100008577134]
本研究は,長期的映像理解のための効率的かつ効果的なモデルの設計に焦点を当てる。
我々は,過去の映像情報をメモリバンクに格納し,オンラインで動画を処理することを提案する。
我々のモデルは、複数のデータセットにわたって最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2024-04-08T17:59:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。