論文の概要: Firebolt-VL: Efficient Vision-Language Understanding with Cross-Modality Modulation
- arxiv url: http://arxiv.org/abs/2604.04579v1
- Date: Mon, 06 Apr 2026 10:25:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.171173
- Title: Firebolt-VL: Efficient Vision-Language Understanding with Cross-Modality Modulation
- Title(参考訳): Firebolt-VL: クロスモーダル変調による高能率視覚言語理解
- Authors: Quoc-Huy Trinh, Mustapha Abdullahi, Bo Zhao, Debesh Jha,
- Abstract要約: Firebolt-VLは、TransformerベースのデコーダをLiquid Foundation Model (LFM)デコーダに置き換える効率的な視覚言語モデルである。
そこで本稿では,テキストトークンと画像パッチの軽量な相関関係を計算するToken-Grid相関モジュールを提案する。
- 参考スコア(独自算出の注目度): 7.6937364614883625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in multimodal large language models (MLLMs) have enabled impressive progress in vision-language understanding, yet their high computational cost limits deployment in resource-constrained scenarios such as personal assistants, document understanding, and smart cameras. Most existing methods rely on Transformer-based cross-attention, whose quadratic complexity hinders efficiency. Moreover, small vision-language models often struggle to precisely capture fine-grained, task-relevant visual regions, leading to degraded performance on fine-grained reasoning tasks that limit their effectiveness in the real world. To address these issues, we introduce Firebolt-VL, an efficient vision-language model that replaces the Transformer-based decoder with a Liquid Foundation Model (LFM) decoder. To further enhance visual grounding, we propose a Token-Grid Correlation Module, which computes lightweight correlations between text tokens and image patches and modulates via the state-space model with FiLM conditioning. This enables the model to selectively emphasize visual regions relevant to the textual prompt while maintaining linear-time inference. Experimental results across multiple benchmarks demonstrate that Firebolt-VL achieves accurate, fine-grained understanding with significantly improved efficiency. Our model and code are available at: https://fireboltvl.github.io
- Abstract(参考訳): マルチモーダル大規模言語モデル(MLLM)の最近の進歩は、視覚言語理解の顕著な進歩を実現しているが、その高い計算コスト制限は、パーソナルアシスタント、文書理解、スマートカメラなどのリソース制約のあるシナリオへの展開を制限している。
既存の手法の多くはトランスフォーマーベースのクロスアテンションに依存しており、その2次複雑性は効率を妨げている。
さらに、小さな視覚言語モデルは、細粒度でタスク関連のある視覚領域を正確に捉えるのに苦労することが多く、現実の世界での有効性を制限する細粒度推論タスクの性能が低下する。
これらの問題に対処するために,Transformer ベースのデコーダを Liquid Foundation Model (LFM) デコーダに置き換える,効率的なビジョン言語モデルである Firebolt-VL を導入する。
テキストトークンと画像パッチの軽量な相関を計算し,FiLM条件付き状態空間モデルによる変調を行うToken-Grid相関モジュールを提案する。
これにより、線形時間推論を維持しながら、テキストプロンプトに関連する視覚領域を選択的に強調することができる。
複数のベンチマークでの実験結果から、Firebolt-VLは正確できめ細かな理解を達成でき、効率は大幅に向上した。
私たちのモデルとコードは以下の通りです。
関連論文リスト
- WeMMU: Enhanced Bridging of Vision-Language Models and Diffusion Models via Noisy Query Tokens [69.97021957331326]
本稿では,VLMと拡散モデル間の分散表現空間をエンドツーエンドの最適化により学習するノイズクエリトークンを提案する。
また、細粒度画像の詳細を復元する線形投影を用いたVAE分岐も導入する。
論文 参考訳(メタデータ) (2025-12-02T09:02:20Z) - Viper-F1: Fast and Fine-Grained Multimodal Understanding with Cross-Modal State-Space Modulation [7.171333807979583]
本稿では,効率的な液体状態空間ダイナミクスに置き換えるハイブリッド状態空間ビジョンランゲージモデルであるViper-F1を紹介する。
その結果,Viper-F1は精度が高く,精度が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2025-11-14T11:21:48Z) - MUSE-VL: Modeling Unified VLM through Semantic Discrete Encoding [6.538592344967826]
本稿では,MUSE-VL(Unified Vision-Language Model Semantic)を紹介する。
提案手法は,従来のSOTA Emu3に比べて4.8%向上し,LLaVA-NeXT 34Bを3.7%上回った。
論文 参考訳(メタデータ) (2024-11-26T03:33:52Z) - ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。
我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文 参考訳(メタデータ) (2024-10-23T11:31:06Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - Memory-Space Visual Prompting for Efficient Vision-Language Fine-Tuning [59.13366859237086]
大規模視覚言語(VL)モデルを効率的に構築するための現在のソリューションは、2段階のパラダイムに従う。
視覚情報に関連するタスクに対処する際の言語モデルを容易にする追加知識として視覚的プロンプトを考察する。
本稿では,視覚的知識注入のためのFFNの重み付けにより視覚的プロンプトを記憶する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-09T08:23:20Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。