論文の概要: BcQLM: Efficient Vision-Language Understanding with Distilled Q-Gated Cross-Modal Fusion
- arxiv url: http://arxiv.org/abs/2509.08715v1
- Date: Wed, 10 Sep 2025 16:09:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.487881
- Title: BcQLM: Efficient Vision-Language Understanding with Distilled Q-Gated Cross-Modal Fusion
- Title(参考訳): BcQLM: Q-Gated Cross-Modal Fusion を用いた高能率視覚言語理解
- Authors: Sike Xiang, Shuang Chen, Amir Atapour-Abarghouei,
- Abstract要約: 大規模言語モデルは、リソース制約のある環境でのデプロイメントに挑戦する。
本稿では,エンドツーエンドの視覚的質問応答のための軽量MLLMフレームワークを提案する。
提案手法は,効率的なマルチモーダル理解のために最適化されたコンパクトだが強力な視覚言語である BreezeCLIP を中心にしている。
- 参考スコア(独自算出の注目度): 6.8723394189831035
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As multimodal large language models (MLLMs) advance, their large-scale architectures pose challenges for deployment in resource-constrained environments. In the age of large models, where energy efficiency, computational scalability and environmental sustainability are paramount, the development of lightweight and high-performance models is critical for real-world applications. As such, we propose a lightweight MLLM framework for end-to-end visual question answering. Our proposed approach centres on BreezeCLIP, a compact yet powerful vision-language encoder optimised for efficient multimodal understanding. With only 1.2 billion parameters overall, our model significantly reduces computational cost while achieving performance comparable to standard-size MLLMs. Experiments conducted on multiple datasets further validate its effectiveness in balancing accuracy and efficiency. The modular and extensible design enables generalisation to broader multimodal tasks. The proposed lightweight vision-language framework is denoted as BcQLM (BreezeCLIP-enhanced Q-Gated Multimodal Language Model). It offers a promising path toward deployable MLLMs under practical hardware constraints. The source code is available at https://github.com/thico0224/BcQLM.
- Abstract(参考訳): マルチモーダルな大規模言語モデル(MLLM)が進むにつれて、その大規模アーキテクチャはリソース制約のある環境への展開に挑戦する。
エネルギー効率、計算スケーラビリティ、環境サステナビリティが最重要である大規模モデルでは、軽量で高性能なモデルの開発が現実のアプリケーションにとって重要である。
そこで我々は,エンドツーエンドの視覚質問応答のための軽量MLLMフレームワークを提案する。
提案手法は,効率的なマルチモーダル理解のために最適化されたコンパクトだが強力な視覚言語エンコーダである BreezeCLIP を中心にしている。
全体としては12億のパラメータしか持たないため,標準サイズのMLLMに匹敵する性能を保ちながら,計算コストを大幅に削減できる。
複数のデータセットで実施された実験は、精度と効率のバランスをとる上での有効性をさらに検証する。
モジュラーで拡張可能な設計は、より広範なマルチモーダルタスクへの一般化を可能にする。
提案する軽量ビジョン言語フレームワークはBcQLM(BreezeCLIP拡張Q-Gated Multimodal Language Model)と呼ばれる。
これは、実用的なハードウェア制約下での、デプロイ可能なMLLMへの有望なパスを提供する。
ソースコードはhttps://github.com/thico0224/BcQLMで入手できる。
関連論文リスト
- Efficient Multi-modal Long Context Learning for Training-free Adaptation [96.21248144937627]
本稿では,マルチモーダル長文脈学習(EMLoC)について紹介する。
モデル入力に直接デモ例を埋め込む。
長いコンテキストのマルチモーダル入力をコンパクトでタスク固有のメモリ表現に凝縮する。
論文 参考訳(メタデータ) (2025-05-26T10:49:44Z) - Selective State Space Memory for Large Vision-Language Models [0.0]
State Space Memory Integration (SSMI)は、LVLMの効率的な微調整のための新しいアプローチである。
SSMIは長距離依存関係をキャプチャし、タスク固有の視覚的およびシーケンシャルなパターンを効果的に注入する。
COCO Captioning、VQA、Flickr30kといったベンチマークデータセットの実験は、SSMIが最先端のパフォーマンスを達成することを実証している。
論文 参考訳(メタデータ) (2024-12-13T05:40:50Z) - AmoebaLLM: Constructing Any-Shape Large Language Models for Efficient and Instant Deployment [13.977849745488339]
AmoebaLLMは任意の形状の大規模言語モデルの即時導出を可能にする新しいフレームワークである。
AmoebaLLMは、様々なプラットフォームやアプリケーションに適した迅速なデプロイメントを著しく促進する。
論文 参考訳(メタデータ) (2024-11-15T22:02:28Z) - LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [72.68665884790002]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
本稿では,教師モデルの頑健な表現を視覚的,言語的両面で伝達するために,MDist(Multimodal Distillation)を導入する。
また,提案した蒸留戦略の可能性をフル活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - Designing Large Foundation Models for Efficient Training and Inference: A Survey [35.40505841618305]
本稿では,基礎モデルに基づく現代的効率的なトレーニングと推論技術に焦点を当てる。
モデルとシステムデザイン 計算資源を節約するために、異なる側面からのLLMトレーニングと推論を最適化する。
論文 参考訳(メタデータ) (2024-09-03T15:35:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。