論文の概要: MambaMia: A State-Space-Model-Based Compression for Efficient Video Understanding in Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2506.13564v1
- Date: Mon, 16 Jun 2025 14:49:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:48.705855
- Title: MambaMia: A State-Space-Model-Based Compression for Efficient Video Understanding in Large Multimodal Models
- Title(参考訳): MambaMia: 大規模マルチモーダルモデルにおける効率的なビデオ理解のための状態空間モデルに基づく圧縮
- Authors: Geewook Kim, Minjoon Seo,
- Abstract要約: 大規模なマルチモーダルモデルに反映する前に、複数のビデオフレームの特徴を圧縮する効率的なフレームワークを提案する。
われわれのフレームワークは、リソースを意識した効率を重視し、現実世界のデプロイに実用的である。
- 参考スコア(独自算出の注目度): 33.89483627891117
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose an efficient framework to compress multiple video-frame features before feeding them into large multimodal models, thereby mitigating the severe token explosion arising from long or dense videos. Our design leverages a bidirectional state-space-based block equipped with a gated skip connection and a learnable weighted-average pooling mechanism applied to periodically inserted learned queries. This structure enables hierarchical downsampling across both spatial and temporal dimensions, preserving performance in a cost-effective manner. Across challenging long and dense video understanding tasks, our approach demonstrates competitive results against state-of-the-art models, while significantly reducing overall token budget. Notably, replacing our proposed state-space block with a conventional Transformer results in substantial performance degradation, highlighting the advantages of state-space modeling for effectively compressing multi-frame video data. Our framework emphasizes resource-conscious efficiency, making it practical for real-world deployments. We validate its scalability and generality across multiple benchmarks, achieving the dual objectives of efficient resource usage and comprehensive video understanding.
- Abstract(参考訳): 大規模なマルチモーダルモデルに投入する前に,複数のビデオフレームの特徴を圧縮する効率的なフレームワークを提案する。
本設計では、ゲートスキップ接続と学習可能な重み付き平均プール機構を備えた双方向状態空間ベースブロックを周期的に挿入したクエリに適用する。
この構造は、空間次元と時間次元の両方にわたる階層的なダウンサンプリングを可能にし、コスト効率の良い性能を維持する。
長大かつ高密度なビデオ理解タスクを課題として、我々のアプローチは、最先端のモデルに対する競争結果を示しながら、全体的なトークン予算を大幅に削減する。
特に,提案した状態空間ブロックを従来のTransformerに置き換えることで性能が大幅に低下し,マルチフレーム映像データを効果的に圧縮する状態空間モデリングの利点が浮き彫りになった。
われわれのフレームワークは、リソースを意識した効率を重視し、現実世界のデプロイに実用的である。
複数のベンチマークでそのスケーラビリティと汎用性を検証し、効率的なリソース利用と包括的なビデオ理解という2つの目的を達成する。
関連論文リスト
- FCA2: Frame Compression-Aware Autoencoder for Modular and Fast Compressed Video Super-Resolution [68.77813885751308]
最先端(SOTA)圧縮ビデオ超解像(CVSR)モデルは、長期の推論時間、複雑なトレーニングパイプライン、補助情報への依存など、永続的な課題に直面している。
ハイパースペクトル画像(HSI)とビデオデータの構造的および統計的類似性から着想を得た,効率的でスケーラブルなソリューションを提案する。
提案手法では,計算複雑性を低減し,推論を高速化し,フレーム間の時間情報の抽出を促進する圧縮駆動型次元減少戦略を導入する。
論文 参考訳(メタデータ) (2025-06-13T07:59:52Z) - Super-Resolution Generative Adversarial Networks based Video Enhancement [0.0]
本研究は、通常のシングルイメージSIS(SRGAN)構造を拡張して、対数データを扱うことで、ビデオ超解像への拡張アプローチを導入する。
3次元非局所ブロックを組み込んだ修正フレームワークが開発され、空間次元と時間次元の両方で関係を捉えることができる。
その結果、従来の単一画像法と比較して、時間的コヒーレンス、よりシャープなテクスチャ、視覚的アーティファクトが向上した。
論文 参考訳(メタデータ) (2025-05-14T20:16:51Z) - Towards Scalable Modeling of Compressed Videos for Efficient Action Recognition [6.168286187549952]
提案するハイブリッドなエンドツーエンドフレームワークは,3つの重要な概念にまたがって学習を分解し,推論コストを先行技術に対して330倍に削減する。
実験により,本手法は最先端のビデオ認識性能を実現する軽量なアーキテクチャを実現することが示された。
論文 参考訳(メタデータ) (2025-03-17T21:13:48Z) - RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。
提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。
我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文 参考訳(メタデータ) (2024-01-11T16:48:44Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames [57.758863967770594]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - Video Frame Interpolation Transformer [86.20646863821908]
本稿では,トランスフォーマーをベースとした動画フレームワークを提案し,コンテンツ認識集約の重み付けと,自己注意操作による長距離依存を考慮した。
グローバルな自己注意の計算コストが高くなるのを避けるため、ビデオに局所的注意の概念を導入する。
さらに,トランスフォーマーの可能性を完全に実現するためのマルチスケール・フレーム・スキームを開発した。
論文 参考訳(メタデータ) (2021-11-27T05:35:10Z) - An Efficient Recurrent Adversarial Framework for Unsupervised Real-Time
Video Enhancement [132.60976158877608]
対比ビデオの例から直接学習する効率的な対比ビデオ強化フレームワークを提案する。
特に,空間的情報と時間的情報の暗黙的統合のための局所的モジュールとグローバルモジュールからなる新しい再帰的セルを導入する。
提案する設計では,フレーム間の情報伝達を効率的に行うことができ,複雑なネットワークの必要性を低減できる。
論文 参考訳(メタデータ) (2020-12-24T00:03:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。