論文の概要: Slow-Fast Architecture for Video Multi-Modal Large Language Models
- arxiv url: http://arxiv.org/abs/2504.01328v1
- Date: Wed, 02 Apr 2025 03:24:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:21:39.000113
- Title: Slow-Fast Architecture for Video Multi-Modal Large Language Models
- Title(参考訳): ビデオマルチモーダル大言語モデルのためのスローファストアーキテクチャ
- Authors: Min Shi, Shihao Wang, Chieh-Yun Chen, Jitesh Jain, Kai Wang, Junjun Xiong, Guilin Liu, Zhiding Yu, Humphrey Shi,
- Abstract要約: 既存の方法では、事前に定義されたルールを使用してビデオ表現を圧縮し、マルチモーダルな大言語モデルに入力する。
本稿では、このトレードオフを自然に回避し、空間的詳細を保存しながらより多くの入力フレームを使用できる、新しい低速アーキテクチャを提案する。
提案モデルでは,入力容量を16フレームから128フレームに拡張し,計算能力は3%向上した。
- 参考スコア(独自算出の注目度): 42.3957835391319
- License:
- Abstract: Balancing temporal resolution and spatial detail under limited compute budget remains a key challenge for video-based multi-modal large language models (MLLMs). Existing methods typically compress video representations using predefined rules before feeding them into the LLM, resulting in irreversible information loss and often ignoring input instructions. To address this, we propose a novel slow-fast architecture that naturally circumvents this trade-off, enabling the use of more input frames while preserving spatial details. Inspired by how humans first skim a video before focusing on relevant parts, our slow-fast design employs a dual-token strategy: 1) "fast" visual tokens -- a compact set of compressed video features -- are fed into the LLM alongside text embeddings to provide a quick overview; 2) "slow" visual tokens -- uncompressed video features -- are cross-attended by text embeddings through specially designed hybrid decoder layers, enabling instruction-aware extraction of relevant visual details with linear complexity. We conduct systematic exploration to optimize both the overall architecture and key components. Experiments show that our model significantly outperforms self-attention-only baselines, extending the input capacity from 16 to 128 frames with just a 3% increase in computation, and achieving a 16% average performance improvement across five video understanding benchmarks. Our 7B model achieves state-of-the-art performance among models of similar size. Furthermore, our slow-fast architecture is a plug-and-play design that can be integrated into other video MLLMs to improve efficiency and scalability.
- Abstract(参考訳): 限られた計算予算の下で時間分解能と空間的詳細をバランスさせることは、ビデオベースのマルチモーダル大言語モデル(MLLM)にとって重要な課題である。
既存の方法では、既定のルールを使ってビデオ表現を圧縮し、LCMに入力する前に圧縮することで、情報損失が不可逆となり、しばしば入力命令を無視する。
そこで本研究では,このトレードオフを自然に回避し,空間的詳細を保存しながら,より多くの入力フレームを使用できる新しい高速アーキテクチャを提案する。
人間が関連部品に焦点を合わせる前に、最初にビデオをスキップする方法にインスパイアされた私たちの遅いデザインは、デュアルトークンの戦略を採用しています。
1)圧縮されたビデオ機能のコンパクトなセットである高速なビジュアルトークンは、テキストの埋め込みとともにLLMに入力され、簡単な概要を提供する。
2) スローなビジュアルトークン -- 圧縮されていないビデオ機能 -- は、特別に設計されたハイブリッドデコーダ層を通じてテキストの埋め込みによって横断的に配置される。
アーキテクチャ全体とキーコンポーネントの両方を最適化するために、系統的な探索を行います。
実験により,本モデルが自己注意のみのベースラインを著しく上回り,入力能力が16フレームから128フレームに拡張され,計算能力がわずか3%向上し,ビデオ理解ベンチマークで平均性能が16%向上した。
我々の7Bモデルは、類似サイズのモデル間で最先端の性能を達成する。
さらに、我々の遅いアーキテクチャは、他のビデオMLLMと統合して効率とスケーラビリティを向上させるプラグイン・アンド・プレイの設計である。
関連論文リスト
- Video-Panda: Parameter-efficient Alignment for Encoder-free Video-Language Models [26.866184981409607]
本稿では,計算オーバーヘッドを大幅に削減しつつ,競争性能を向上するビデオ言語理解のための効率的なエンコーダレス手法を提案する。
本稿では,ビデオ入力を直接処理する時空間アライメントブロック(STAB)を提案する。
本モデルでは,標準ベンチマークによるオープンエンドビデオ質問応答に対して,エンコーダに基づくアプローチに匹敵する,あるいは優れた性能を実現する。
論文 参考訳(メタデータ) (2024-12-24T18:59:56Z) - Fast and Memory-Efficient Video Diffusion Using Streamlined Inference [41.505829393818274]
現在のビデオ拡散モデルは、計算要求と高いピークメモリ使用量を示す。
本稿では,映像拡散モデルの時間的・空間的特性を利用したストリーム線形推論を提案する。
我々のアプローチはピークメモリと計算オーバーヘッドを大幅に削減し、単一のコンシューマGPU上で高品質なビデオを生成することができる。
論文 参考訳(メタデータ) (2024-11-02T07:52:18Z) - LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。
DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。
時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文 参考訳(メタデータ) (2024-10-22T21:21:37Z) - Oryx MLLM: On-Demand Spatial-Temporal Understanding at Arbitrary Resolution [90.31313348540607]
画像,ビデオ,3Dシーンの空間的時間的理解のための統合マルチモーダルアーキテクチャであるOryxを提案する。
Oryxは任意の空間サイズと時間長の視覚入力をシームレスかつ効率的に処理するオンデマンドソリューションを提供する。
デザイン機能により、Oryxは低解像度で高圧縮でビデオのような非常に長い視覚的コンテキストに対応できる。
論文 参考訳(メタデータ) (2024-09-19T17:59:51Z) - SlowFast-LLaVA: A Strong Training-Free Baseline for Video Large Language Models [51.712700398020075]
本研究では,空間的セマンティクスと長時間の時間的コンテキストを協調的にキャプチャできる学習自由ビデオ大言語モデル(LLM)を提案する。
これは、ビデオLLMの入力の2ストリームSlowFast設計を用いて、サンプルフレームの特徴を効果的に集約することで実現される。
実験の結果, SF-LLaVAは, 既存のトレーニング不要の手法よりも広い範囲の映像タスクにおいて優れていた。
論文 参考訳(メタデータ) (2024-07-22T17:58:04Z) - VideoGPT+: Integrating Image and Video Encoders for Enhanced Video Understanding [15.959757105308238]
ビデオLMMは、視覚入力を処理するために、画像エンコーダまたはビデオエンコーダに依存しており、それぞれに独自の制限がある。
本稿では,映像エンコーダと映像エンコーダの相補的利点(大域的時間文脈モデリング)を組み合わせたビデオGPT+を紹介する。
本稿では,VCGBench,MVBench,Zero-shotなど,複数のビデオベンチマークのパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2024-06-13T17:59:59Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames [57.758863967770594]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。