論文の概要: BlueLM-2.5-3B Technical Report
- arxiv url: http://arxiv.org/abs/2507.05934v1
- Date: Tue, 08 Jul 2025 12:34:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:38.04266
- Title: BlueLM-2.5-3B Technical Report
- Title(参考訳): BlueLM-2.5-3B技術報告
- Authors: Baojiao Xiong, Boheng Chen, Chengzhi Wang, Daxiong Luo, Dongsheng Xu, Dongyang Liu, Fan Yang, Fangyuan Li, Fei Teng, Feng Wang, Fukang Qin, Fuquan Peng, Guanxin Tan, Guozhi Wang, Haibo Yu, Haohao Gao, Heng Liu, Hongbo Yang, Hongjian Zou, Houzheng Shen, Hu Meng, Huan Li, Hui Tan, Jiali Chen, Jianzhao Chen, Jinliang Zhu, Kai Wang, Lei Wu, Liangbing Liu, Liuyang Bian, Liyan He, Long Liu, Peiwen Li, Penggang Shi, Qi Ding, Rui Hu, Shuai Cao, Shuai Ren, Shuang Peng, Teng Xie, Weiji Chen, Weilin Xiang, Weixin Wu, Xi Yin, Xiaoxin Chen, Xu Chen, Yafei Wen, Yan Hu, Yanzhou Yang, Yina Xie, Yinghao Chen, Yixuan Liao, Yu Geng, Yuanjiang Ouyang, Yuanzhuo Yang, Yuehua He, Yushuai Peng, Zhaoxiong Wang, Zheng Wang, Zhibo Zhou, Ziyang Wu,
- Abstract要約: コンパクトで統一された多モード多言語モデル(MLLM)であるBlueLM-2.5-3Bを提案する。
BlueLM-2.5-3Bは、思考モードと非思考モードの両方をサポートする最初の3BスケールのMLLMである。
我々のモデルは、29億のパラメータしか持たない競合する純粋テキスト性能を維持しながら、優れたマルチモーダルキャパシティを実現する。
- 参考スコア(独自算出の注目度): 26.46758022076278
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present BlueLM-2.5-3B, a compact and unified dense Multimodal Large Language Model (MLLM) designed for efficient edge-device deployment, offering strong general-purpose and reasoning capabilities. To the best of our knowledge, this is the first 3B-scale MLLM to support both thinking and non-thinking modes, while also enabling explicit control over thinking token budget. BlueLM-2.5-3B is developed through diversified data curation, key data resampling, hybrid heterogeneous reinforcement learning, and a high-performance training infrastructure. Our model achieves superior multimodal capacity while preserving competitive pure-text performance with only 2.9 billion parameters. We conduct comprehensive evaluations across a broad range of multimodal and text-only benchmarks. In thinking mode, BlueLM-2.5-3B achieves comparable performance to Qwen3-4B on text-only benchmarks, and trails the larger Kimi-VL-A3B-16B by only about 5% on average across multimodal evaluations. In non-thinking mode, it outperforms Qwen2.5-VL-3B on the majority of multimodal benchmarks. Additionally, BlueLM-2.5-3B exhibits exceptional data efficiency. All of the aforementioned performance is achieved with substantially less total training data than Qwen2.5-VL-3B and Qwen3-4B. We hope our work contributes to the advancement of high-performance, on-device MLLMs and provides meaningful insights to the research community.
- Abstract(参考訳): エッジデバイスを効率的に展開するために設計された,コンパクトで統一された多モード多言語モデル(MLLM)であるBlueLM-2.5-3Bについて述べる。
私たちの知る限りでは、この3BスケールのMLLMは、思考モードと非思考モードの両方をサポートしながら、思考トークンの予算を明示的に制御できる最初の3BスケールのMLLMです。
BlueLM-2.5-3Bは、多様化したデータキュレーション、キーデータ再サンプリング、ハイブリッドな異種強化学習、高性能なトレーニングインフラによって開発されている。
我々のモデルは、29億のパラメータしか持たない競合する純粋テキスト性能を維持しながら、優れたマルチモーダルキャパシティを実現する。
幅広いマルチモーダルおよびテキストのみのベンチマークを網羅的に評価する。
シンキングモードでは、BlueLM-2.5-3BはテキストのみのベンチマークでQwen3-4Bに匹敵する性能を達成し、Kimi-VL-A3B-16Bはマルチモーダル評価で平均5%程度しか遅れない。
非思考モードでは、マルチモーダルベンチマークの大部分でQwen2.5-VL-3Bを上回っている。
さらに、BlueLM-2.5-3Bは例外的なデータ効率を示す。
上記の全ての性能は、Qwen2.5-VL-3BやQwen3-4Bよりも大幅に少ないトレーニングデータで達成される。
我々は,我々の研究が高性能・オンデバイスMLLMの進歩に寄与し,研究コミュニティに有意義な洞察を与えてくれることを願っている。
関連論文リスト
- InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models [139.19991097260115]
InternVL3は、ネイティブなマルチモーダル事前学習パラダイムを備えたInternVLシリーズの重要な進歩である。
特に、InternVL3-78B は MMMU ベンチマークで72.2 のスコアを獲得し、オープンソースの MLLM に新しい最先端技術を設定する。
オープンサイエンスの原則を追求するため、我々は、次世代MLLMのさらなる研究・開発を促進するために、トレーニングデータとモデルウェイトの両方を公開します。
論文 参考訳(メタデータ) (2025-04-14T17:59:25Z) - ViLBench: A Suite for Vision-Language Process Reward Modeling [25.565912785217822]
本稿では,現在の視覚大言語モデル(VLLM)を2種類の報酬モデルとしてベンチマークする。
我々は、集中的なプロセス報酬信号を必要とするように設計された視覚言語ベンチマークViLBenchを紹介する。
本稿では,一般VLLMと報奨モデルとのギャップを埋めるための有望な経路を予め紹介する。
論文 参考訳(メタデータ) (2025-03-26T06:38:31Z) - FedMLLM: Federated Fine-tuning MLLM on Multimodal Heterogeneity Data [56.08867996209236]
フェデレートラーニング(FL)による微調整型マルチモーダル大言語モデル(MLLM)は、プライベートデータソースを含めることで、トレーニングデータの範囲を拡大することができる。
マルチモーダルな異種シナリオにおけるMLLMのファインチューニング性能を評価するためのベンチマークを提案する。
従来のFL手法を2つのモダリティに依存しない戦略と組み合わせた一般的なFedMLLMフレームワークを開発した。
論文 参考訳(メタデータ) (2024-11-22T04:09:23Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。