論文の概要: AndesVL Technical Report: An Efficient Mobile-side Multimodal Large Language Model
- arxiv url: http://arxiv.org/abs/2510.11496v1
- Date: Mon, 13 Oct 2025 15:04:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.418401
- Title: AndesVL Technical Report: An Efficient Mobile-side Multimodal Large Language Model
- Title(参考訳): AndesVL Technical Report: 効率的なモバイル側マルチモーダル言語モデル
- Authors: Zhiwei Jin, Xiaohui Song, Nan Wang, Yafei Liu, Chao Li, Xin Li, Ruichen Wang, Zhihao Li, Qi Qi, Long Cheng, Dongze Hao, Quanlong Zheng, Yanhao Zhang, Haobo Ji, Jian Ma, Zhitong Zheng, Zhenyi Lin, Haolin Deng, Xin Zou, Xiaojie Yin, Ruilin Wang, Liankai Cai, Haijing Liu, Yuqing Qiu, Ke Chen, Zixian Li, Chi Xie, Huafei Li, Chenxing Li, Chuangchuang Wang, Kai Tang, Zhiguang Zhu, Kai Tang, Wenmei Gao, Rui Wang, Jun Wu, Chao Liu, Qin Xie, Chen Chen, Haonan Lu,
- Abstract要約: AndesVLはQwen3のLLMと様々なビジュアルエンコーダに基づいて0.6Bから4Bパラメータを持つモバイル側のMLLMのスイートである。
幅広いオープンソースベンチマークでファーストレベルのパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 40.488271586857884
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, while cloud-based MLLMs such as QwenVL, InternVL, GPT-4o, Gemini, and Claude Sonnet have demonstrated outstanding performance with enormous model sizes reaching hundreds of billions of parameters, they significantly surpass the limitations in memory, power consumption, and computing capacity of edge devices such as mobile phones. This paper introduces AndesVL, a suite of mobile-side MLLMs with 0.6B to 4B parameters based on Qwen3's LLM and various visual encoders. We comprehensively outline the model architectures, training pipeline, and training data of AndesVL, which achieves first-tier performance across a wide range of open-source benchmarks, including fields such as text-rich image understanding, reasoning and math, multi-image comprehension, general VQA, hallucination mitigation, multilingual understanding, and GUI-related tasks when compared with state-of-the-art models of a similar scale. Furthermore, we introduce a 1+N LoR
- Abstract(参考訳): 近年、QwenVL、InternVL、GPT-4o、Gemini、Claude SonnetといったクラウドベースのMLLMは、数十億のパラメータに到達した巨大なモデルサイズで優れた性能を示してきたが、携帯電話などのエッジデバイスのメモリ、消費電力、計算能力の限界を大幅に超えている。
本稿では,Qwen3のLSMと様々なビジュアルエンコーダに基づいて,0.6Bから4Bのパラメータを持つ移動体MLLMのスイートであるAndesVLを紹介する。
我々は,テキストリッチな画像理解,推論と数学,マルチイメージ理解,一般VQA,幻覚軽減,多言語理解,GUI関連タスクなど,さまざまなオープンソースベンチマークにおいて,一段階のパフォーマンスを実現するAndesVLのモデルアーキテクチャ,トレーニングパイプライン,トレーニングデータについて概説する。
さらに、1+N LoRを導入します。
関連論文リスト
- DrivePI: Spatial-aware 4D MLLM for Unified Autonomous Driving Understanding, Perception, Prediction and Planning [94.62097655403683]
本稿では,ビジョン・ランゲージ・アクション統合フレームワークとして機能する空間認識型4次元MLLMであるDrivePIを提案する。
提案手法は,空間的理解,3次元知覚,予測(占有フロー),計画(行動出力)を並列に行う。
MLLMのバックボーンとして0.5BのQwen2.5モデルしか持たず、単一の統一モデルとしてのDrivePIは既存のVLAモデルと特殊VAモデルの両方を上回るか、あるいは超える。
論文 参考訳(メタデータ) (2025-12-14T18:45:54Z) - Bi-VLM: Pushing Ultra-Low Precision Post-Training Quantization Boundaries in Vision-Language Models [41.569153064451385]
本稿では,ガウス量子論に基づくモデル重みを非一様に分離するBi-VLMを提案する。
VLMの言語モデルでは、視覚的質問応答タスクにおいて、私たちのBi-VLMは、SOTAよりも3%-47%優れています。
VLM全体では、私たちのBi-VLMはSOTAよりも4%-45%優れています。
論文 参考訳(メタデータ) (2025-09-23T07:55:48Z) - VLsI: Verbalized Layers-to-Interactions from Large to Small Vision Language Models [84.84277196012907]
VLsI: Verbalized Layers-to-Interactions, a new VLM family in 2B and 7B model size。
GPT-4Vよりも優れた性能向上(2Bは11.0%、7Bは17.4%)を達成した。
論文 参考訳(メタデータ) (2024-12-02T18:58:25Z) - ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。
我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文 参考訳(メタデータ) (2024-10-23T11:31:06Z) - Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance [78.48606021719206]
Mini-InternVL は 1B から 4B までのパラメータを持つ一連の MLLM であり、パラメータの 5% しか持たない性能の90% を達成している。
我々は,ダウンストリームタスクにおける特化モデルの転送と性能向上を可能にする,Mini-InternVLの統一適応フレームワークを開発した。
論文 参考訳(メタデータ) (2024-10-21T17:58:20Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。
この上に構築されたEfficient Dense Connectorは,視覚トークンの25%に過ぎず,LLaVA-v1.5に匹敵するパフォーマンスを実現する。
画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文 参考訳(メタデータ) (2024-05-22T16:25:03Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z) - EfficientVLM: Fast and Accurate Vision-Language Models via Knowledge
Distillation and Modal-adaptive Pruning [19.354515754130592]
我々は,大規模な視覚言語モデルをより小さく,より速く,より正確なものに圧縮する蒸留精錬フレームワークを導入する。
EfficientVLMは、6つの視覚層、3つのテキスト層、3つのモーダル融合層からなる高速かつ正確な視覚言語モデルである。
効率的なVLMは、教師モデルの98.4%のパフォーマンスを維持し、推論速度を2.2倍に加速する。
論文 参考訳(メタデータ) (2022-10-14T13:26:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。