論文の概要: BcQLM: Efficient Vision-Language Understanding with Distilled Q-Gated Cross-Modal Fusion
- arxiv url: http://arxiv.org/abs/2509.08715v1
- Date: Wed, 10 Sep 2025 16:09:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.487881
- Title: BcQLM: Efficient Vision-Language Understanding with Distilled Q-Gated Cross-Modal Fusion
- Title(参考訳): BcQLM: Q-Gated Cross-Modal Fusion を用いた高能率視覚言語理解
- Authors: Sike Xiang, Shuang Chen, Amir Atapour-Abarghouei,
- Abstract要約: 大規模言語モデルは、リソース制約のある環境でのデプロイメントに挑戦する。
本稿では,エンドツーエンドの視覚的質問応答のための軽量MLLMフレームワークを提案する。
提案手法は,効率的なマルチモーダル理解のために最適化されたコンパクトだが強力な視覚言語である BreezeCLIP を中心にしている。
- 参考スコア(独自算出の注目度): 6.8723394189831035
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As multimodal large language models (MLLMs) advance, their large-scale architectures pose challenges for deployment in resource-constrained environments. In the age of large models, where energy efficiency, computational scalability and environmental sustainability are paramount, the development of lightweight and high-performance models is critical for real-world applications. As such, we propose a lightweight MLLM framework for end-to-end visual question answering. Our proposed approach centres on BreezeCLIP, a compact yet powerful vision-language encoder optimised for efficient multimodal understanding. With only 1.2 billion parameters overall, our model significantly reduces computational cost while achieving performance comparable to standard-size MLLMs. Experiments conducted on multiple datasets further validate its effectiveness in balancing accuracy and efficiency. The modular and extensible design enables generalisation to broader multimodal tasks. The proposed lightweight vision-language framework is denoted as BcQLM (BreezeCLIP-enhanced Q-Gated Multimodal Language Model). It offers a promising path toward deployable MLLMs under practical hardware constraints. The source code is available at https://github.com/thico0224/BcQLM.
- Abstract(参考訳): マルチモーダルな大規模言語モデル(MLLM)が進むにつれて、その大規模アーキテクチャはリソース制約のある環境への展開に挑戦する。
エネルギー効率、計算スケーラビリティ、環境サステナビリティが最重要である大規模モデルでは、軽量で高性能なモデルの開発が現実のアプリケーションにとって重要である。
そこで我々は,エンドツーエンドの視覚質問応答のための軽量MLLMフレームワークを提案する。
提案手法は,効率的なマルチモーダル理解のために最適化されたコンパクトだが強力な視覚言語エンコーダである BreezeCLIP を中心にしている。
全体としては12億のパラメータしか持たないため,標準サイズのMLLMに匹敵する性能を保ちながら,計算コストを大幅に削減できる。
複数のデータセットで実施された実験は、精度と効率のバランスをとる上での有効性をさらに検証する。
モジュラーで拡張可能な設計は、より広範なマルチモーダルタスクへの一般化を可能にする。
提案する軽量ビジョン言語フレームワークはBcQLM(BreezeCLIP拡張Q-Gated Multimodal Language Model)と呼ばれる。
これは、実用的なハードウェア制約下での、デプロイ可能なMLLMへの有望なパスを提供する。
ソースコードはhttps://github.com/thico0224/BcQLMで入手できる。
関連論文リスト
- Sparse Shortcuts: Facilitating Efficient Fusion in Multimodal Large Language Models [26.305881774348844]
マルチモーダル大言語モデル(MLLM)は、複数のモーダルにまたがるデータ処理能力において急速に進歩している。
視覚言語モデルでは、高レベルな視覚的特徴のみを用いたモダリティの整列は、中レベルと低レベルの特徴に存在するリッチな意味情報を捨てることが多い。
SparseCut は MLLM のための汎用のクロスモーダル融合アーキテクチャである。
論文 参考訳(メタデータ) (2026-01-31T04:15:42Z) - From One-to-One to Many-to-Many: Dynamic Cross-Layer Injection for Deep Vision-Language Fusion [91.35078719566472]
VLM(Vision-Language Models)は、粗い非対称接続を使用することで、深刻な視覚的特徴のボトルネックを生み出す。
CLI(Cross-Layer Injection)は,2つのモダリティの間に動的に多対多の橋を架ける,斬新で軽量なフレームワークである。
論文 参考訳(メタデータ) (2026-01-15T18:59:10Z) - VisCodex: Unified Multimodal Code Generation via Merging Vision and Coding Models [82.05514464090172]
マルチモーダルな大言語モデル(MLLM)は、視覚的およびテキスト的理解の統合を著しく進歩させてきた。
しかし、マルチモーダル入力からコードを生成する能力は依然として限られている。
視覚とコーディング言語モデルをシームレスにマージする統合フレームワークであるVisCodexを紹介します。
論文 参考訳(メタデータ) (2025-08-13T17:00:44Z) - Efficient Multi-modal Long Context Learning for Training-free Adaptation [96.21248144937627]
本稿では,マルチモーダル長文脈学習(EMLoC)について紹介する。
モデル入力に直接デモ例を埋め込む。
長いコンテキストのマルチモーダル入力をコンパクトでタスク固有のメモリ表現に凝縮する。
論文 参考訳(メタデータ) (2025-05-26T10:49:44Z) - LoCoML: A Framework for Real-World ML Inference Pipelines [0.0]
LoCoMLは、さまざまな機械学習モデルの統合を簡単にするために設計されたローコードフレームワークである。
LoCoMLは少量の計算負荷しか加えず、大規模なML統合に効率的かつ効果的であることを示す。
論文 参考訳(メタデータ) (2025-01-24T01:35:08Z) - Selective State Space Memory for Large Vision-Language Models [0.0]
State Space Memory Integration (SSMI)は、LVLMの効率的な微調整のための新しいアプローチである。
SSMIは長距離依存関係をキャプチャし、タスク固有の視覚的およびシーケンシャルなパターンを効果的に注入する。
COCO Captioning、VQA、Flickr30kといったベンチマークデータセットの実験は、SSMIが最先端のパフォーマンスを達成することを実証している。
論文 参考訳(メタデータ) (2024-12-13T05:40:50Z) - AmoebaLLM: Constructing Any-Shape Large Language Models for Efficient and Instant Deployment [13.977849745488339]
AmoebaLLMは任意の形状の大規模言語モデルの即時導出を可能にする新しいフレームワークである。
AmoebaLLMは、様々なプラットフォームやアプリケーションに適した迅速なデプロイメントを著しく促進する。
論文 参考訳(メタデータ) (2024-11-15T22:02:28Z) - LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [72.68665884790002]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
本稿では,教師モデルの頑健な表現を視覚的,言語的両面で伝達するために,MDist(Multimodal Distillation)を導入する。
また,提案した蒸留戦略の可能性をフル活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - Designing Large Foundation Models for Efficient Training and Inference: A Survey [35.40505841618305]
本稿では,基礎モデルに基づく現代的効率的なトレーニングと推論技術に焦点を当てる。
モデルとシステムデザイン 計算資源を節約するために、異なる側面からのLLMトレーニングと推論を最適化する。
論文 参考訳(メタデータ) (2024-09-03T15:35:01Z) - CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。
本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。
ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文 参考訳(メタデータ) (2024-02-08T18:27:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。