論文の概要: Query-based Cross-Modal Projector Bolstering Mamba Multimodal LLM
- arxiv url: http://arxiv.org/abs/2606.04719v1
- Date: Wed, 03 Jun 2026 10:56:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.694514
- Title: Query-based Cross-Modal Projector Bolstering Mamba Multimodal LLM
- Title(参考訳): 問合せ型クロスモーダルプロジェクタ, マンバ多モードLDM
- Authors: SooHwan Eom, Jay Shim, Gwanhyeong Koo, Haebin Na, Mark A. Hasegawa-Johnson, Sungwoong Kim, Chang D. Yoo,
- Abstract要約: 選択走査構造状態空間モデル (Selective Scan Structured State-Space Model, Mamba) は、この計算課題を効果的に解決する。
本稿では,マンバの視覚言語モデリング効率を高めるために,クエリベースのクロスモーダルプロジェクタを提案する。
- 参考スコア(独自算出の注目度): 34.72878578414079
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Transformer's quadratic complexity with input length imposes an unsustainable computational load on large language models (LLMs). In contrast, the Selective Scan Structured State-Space Model, or Mamba, addresses this computational challenge effectively. This paper explores a query-based cross-modal projector designed to bolster Mamba's efficiency for vision-language modeling by compressing visual tokens based on input through the cross-attention mechanism. This innovative projector also removes the need for manually designing the 2D scan order of original image features when converting them into an input sequence for Mamba LLM. Experimental results across various vision-language understanding benchmarks show that the proposed cross-modal projector enhances Mamba-based multimodal LLMs, boosting both performance and throughput.
- Abstract(参考訳): Transformerの2次複雑性と入力長は、大きな言語モデル(LLM)に持続不可能な計算負荷を課す。
対照的に、Selective Scan Structured State-Space Model(Mamba)は、この計算課題を効果的に解決する。
本稿では,Mambaの視覚言語モデリングにおける効率向上を目的とした,クエリベースのクロスモーダルプロジェクタについて検討する。
この革新的なプロジェクタは、Mamba LLMの入力シーケンスに変換する際に、オリジナルの画像特徴の2Dスキャン順序を手動で設計する必要がない。
様々な視覚言語理解ベンチマークによる実験結果から,提案したクロスモーダルプロジェクタは,マンバをベースとしたマルチモーダルLLMを強化し,性能とスループットを向上することが示された。
関連論文リスト
- ABMAMBA: Multimodal Large Language Model with Aligned Hierarchical Bidirectional Scan for Efficient Video Captioning [11.388109553982089]
完全にオープンなマルチモーダル大言語モデル(MLLM)による動画キャプションに焦点を当てる。
ABMambaは、ビデオシーケンスのスケーラブルな処理を可能にする線形計算複雑性を持つ完全にオープンなMLLMである。
VATEX や MSR-VTT のような標準的なビデオキャプションベンチマークでは、ABMamba は典型的な MLLM と比較して競争性能を示している。
論文 参考訳(メタデータ) (2026-04-09T09:58:56Z) - From One-to-One to Many-to-Many: Dynamic Cross-Layer Injection for Deep Vision-Language Fusion [91.35078719566472]
VLM(Vision-Language Models)は、粗い非対称接続を使用することで、深刻な視覚的特徴のボトルネックを生み出す。
CLI(Cross-Layer Injection)は,2つのモダリティの間に動的に多対多の橋を架ける,斬新で軽量なフレームワークである。
論文 参考訳(メタデータ) (2026-01-15T18:59:10Z) - SUDER: Self-Improving Unified Large Multimodal Models for Understanding and Generation with Dual Self-Rewards [55.99492656542475]
textbfSDER (textbfSelf-improving textbfUnified LMMs with textbfDual stextbfElf-textbfRewards) を提案する。
論文 参考訳(メタデータ) (2025-06-09T17:38:45Z) - LEO: Boosting Mixture of Vision Encoders for Multimodal Large Language Models [9.660892239615364]
本研究は、ハイブリッドMLLMのための視覚トークンの融合戦略を探求し、LEOの設計に繋がる。
Leoは、適応後の融合戦略と適応型タイリングを組み込んだデュアルブランチビジョンエンコーダフレームワークを備えた、新しいMLLMである。
LEOは、モデルアーキテクチャやトレーニングレシピを変更することなく、自律運転の専門領域に適応できることを示す。
論文 参考訳(メタデータ) (2025-01-13T00:29:55Z) - MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - EMMA: Empowering Multi-modal Mamba with Structural and Hierarchical Alignment [39.870809905905325]
微細な視覚情報を抽出するための構造的・階層的アライメント(EMMA)を用いたマルチモーダルマンバのエンパワーディングを提案する。
本モデルでは,他のマンバ系MLLMよりもレイテンシが低く,推論時の変圧器系MLLMよりも約4倍高速であることを示す。
論文 参考訳(メタデータ) (2024-10-08T11:41:55Z) - ML-Mamba: Efficient Multi-Modal Large Language Model Utilizing Mamba-2 [4.30176340351235]
本稿では,マルチモーダル言語モデルであるML-Mambaを紹介する。
トランスフォーマーベースのバックボーンを事前訓練したMamba-2モデルに置き換え、マルチモーダル学習に2次元視覚選択的走査機構を統合する方法を模索する。
論文 参考訳(メタデータ) (2024-07-29T09:38:15Z) - Lumen: Unleashing Versatile Vision-Centric Capabilities of Large Multimodal Models [87.47400128150032]
本稿では,多目的視覚中心機能拡張を備えた大規模マルチモーダルモデルであるLumenという新しいLMMアーキテクチャを提案する。
ルーメンはまず、きめ細かい視覚言語の概念のアライメントを促進する。
そして、共有表現を軽量なタスクデコーダに柔軟にルーティングすることで、タスク固有のデコーダを実行する。
論文 参考訳(メタデータ) (2024-03-12T04:13:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。