論文の概要: AndesVL Technical Report: An Efficient Mobile-side Multimodal Large Language Model
- arxiv url: http://arxiv.org/abs/2510.11496v2
- Date: Tue, 14 Oct 2025 05:05:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 12:06:24.265238
- Title: AndesVL Technical Report: An Efficient Mobile-side Multimodal Large Language Model
- Title(参考訳): AndesVL Technical Report: 効率的なモバイル側マルチモーダル言語モデル
- Authors: Zhiwei Jin, Xiaohui Song, Nan Wang, Yafei Liu, Chao Li, Xin Li, Ruichen Wang, Zhihao Li, Qi Qi, Long Cheng, Dongze Hao, Quanlong Zheng, Yanhao Zhang, Haobo Ji, Jian Ma, Zhitong Zheng, Zhenyi Lin, Haolin Deng, Xin Zou, Xiaojie Yin, Ruilin Wang, Liankai Cai, Haijing Liu, Yuqing Qiu, Ke Chen, Zixian Li, Chi Xie, Huafei Li, Chenxing Li, Chuangchuang Wang, Kai Tang, Zhiguang Zhu, Kai Tang, Wenmei Gao, Rui Wang, Jun Wu, Chao Liu, Qin Xie, Chen Chen, Haonan Lu,
- Abstract要約: AndesVLはQwen3のLLMと様々なビジュアルエンコーダに基づいて0.6Bから4Bのパラメータを持つモバイル側のMLLMのスイートである。
効率的なタスク適応とモデル圧縮を容易にするために,Quantization-Aware LoRA Fine-Tuningフレームワークとともに1+N LoRAアーキテクチャを導入する。
我々は、MediaTek Dimensity 9500チップにAndesVL-4Bをデプロイする際に、最大6.7倍のピーク復号率、最大30.9%のメモリ削減、1.8ビット/ウェイトを実現した。
- 参考スコア(独自算出の注目度): 40.488271586857884
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, while cloud-based MLLMs such as QwenVL, InternVL, GPT-4o, Gemini, and Claude Sonnet have demonstrated outstanding performance with enormous model sizes reaching hundreds of billions of parameters, they significantly surpass the limitations in memory, power consumption, and computing capacity of edge devices such as mobile phones. This paper introduces AndesVL, a suite of mobile-side MLLMs with 0.6B to 4B parameters based on Qwen3's LLM and various visual encoders. We comprehensively outline the model architectures, training pipeline, and training data of AndesVL, which achieves first-tier performance across a wide range of open-source benchmarks, including fields such as text-rich image understanding, reasoning and math, multi-image comprehension, general VQA, hallucination mitigation, multilingual understanding, and GUI-related tasks when compared with state-of-the-art models of a similar scale. Furthermore, we introduce a 1+N LoRA architecture alongside a Quantization-Aware LoRA Fine-Tuning (QALFT) framework to facilitate efficient task adaptation and model compression during mobile-side deployment of AndesVL. Moreover, utilizing our cache eviction algorithm -- OKV -- along with customized speculative decoding and compression strategies, we achieve a 6.7x peak decoding speedup ratio, up to 30.9% memory reduction, and 1.8 bits-per-weight when deploying AndesVL-4B on MediaTek Dimensity 9500 chips. We release all models on https://huggingface.co/OPPOer.
- Abstract(参考訳): 近年、QwenVL、InternVL、GPT-4o、Gemini、Claude SonnetといったクラウドベースのMLLMは、数十億のパラメータに到達した巨大なモデルサイズで優れた性能を示してきたが、携帯電話などのエッジデバイスのメモリ、消費電力、計算能力の限界を大幅に超えている。
本稿では,Qwen3のLSMと様々なビジュアルエンコーダに基づいて,0.6Bから4Bのパラメータを持つ移動体MLLMのスイートであるAndesVLを紹介する。
我々は、テキストリッチな画像理解、推論と数学、マルチイメージ理解、一般的なVQA、幻覚軽減、多言語理解、GUI関連タスクなど、さまざまなオープンソースベンチマークにおいて、一級のパフォーマンスを実現するAndesVLのモデルアーキテクチャ、トレーニングパイプライン、トレーニングデータを包括的に概説する。
さらに、1+N LoRAアーキテクチャとQuantization-Aware LoRA Fine-Tuning (QALFT) フレームワークを導入し、AndesVLのモバイル側デプロイ時の効率的なタスク適応とモデル圧縮を容易にする。
さらに、キャッシュ消去アルゴリズム -- OKV -- と、カスタマイズされた投機的復号化と圧縮戦略により、MediaTek Dimensity 9500チップにAndesVL-4Bをデプロイする際の6.7倍のピーク復号化率、最大30.9%のメモリ削減、1.8ビット毎の軽量化を実現した。
すべてのモデルをhttps://huggingface.co/OPPOer.comでリリースします。
関連論文リスト
- ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。
我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文 参考訳(メタデータ) (2024-10-23T11:31:06Z) - Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance [78.48606021719206]
Mini-InternVL は 1B から 4B までのパラメータを持つ一連の MLLM であり、パラメータの 5% しか持たない性能の90% を達成している。
我々は,ダウンストリームタスクにおける特化モデルの転送と性能向上を可能にする,Mini-InternVLの統一適応フレームワークを開発した。
論文 参考訳(メタデータ) (2024-10-21T17:58:20Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。
この上に構築されたEfficient Dense Connectorは,視覚トークンの25%に過ぎず,LLaVA-v1.5に匹敵するパフォーマンスを実現する。
画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文 参考訳(メタデータ) (2024-05-22T16:25:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。