Fugu-MT 論文翻訳(概要): BlueLM-2.5-3B Technical Report

論文の概要: BlueLM-2.5-3B Technical Report

arxiv url: http://arxiv.org/abs/2507.05934v1
Date: Tue, 08 Jul 2025 12:34:10 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-09 16:34:38.04266
Title: BlueLM-2.5-3B Technical Report
Title（参考訳）: BlueLM-2.5-3B技術報告
Authors: Baojiao Xiong, Boheng Chen, Chengzhi Wang, Daxiong Luo, Dongsheng Xu, Dongyang Liu, Fan Yang, Fangyuan Li, Fei Teng, Feng Wang, Fukang Qin, Fuquan Peng, Guanxin Tan, Guozhi Wang, Haibo Yu, Haohao Gao, Heng Liu, Hongbo Yang, Hongjian Zou, Houzheng Shen, Hu Meng, Huan Li, Hui Tan, Jiali Chen, Jianzhao Chen, Jinliang Zhu, Kai Wang, Lei Wu, Liangbing Liu, Liuyang Bian, Liyan He, Long Liu, Peiwen Li, Penggang Shi, Qi Ding, Rui Hu, Shuai Cao, Shuai Ren, Shuang Peng, Teng Xie, Weiji Chen, Weilin Xiang, Weixin Wu, Xi Yin, Xiaoxin Chen, Xu Chen, Yafei Wen, Yan Hu, Yanzhou Yang, Yina Xie, Yinghao Chen, Yixuan Liao, Yu Geng, Yuanjiang Ouyang, Yuanzhuo Yang, Yuehua He, Yushuai Peng, Zhaoxiong Wang, Zheng Wang, Zhibo Zhou, Ziyang Wu,
Abstract要約: コンパクトで統一された多モード多言語モデル(MLLM)であるBlueLM-2.5-3Bを提案する。 BlueLM-2.5-3Bは、思考モードと非思考モードの両方をサポートする最初の3BスケールのMLLMである。我々のモデルは、29億のパラメータしか持たない競合する純粋テキスト性能を維持しながら、優れたマルチモーダルキャパシティを実現する。
参考スコア（独自算出の注目度）: 26.46758022076278
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present BlueLM-2.5-3B, a compact and unified dense Multimodal Large Language Model (MLLM) designed for efficient edge-device deployment, offering strong general-purpose and reasoning capabilities. To the best of our knowledge, this is the first 3B-scale MLLM to support both thinking and non-thinking modes, while also enabling explicit control over thinking token budget. BlueLM-2.5-3B is developed through diversified data curation, key data resampling, hybrid heterogeneous reinforcement learning, and a high-performance training infrastructure. Our model achieves superior multimodal capacity while preserving competitive pure-text performance with only 2.9 billion parameters. We conduct comprehensive evaluations across a broad range of multimodal and text-only benchmarks. In thinking mode, BlueLM-2.5-3B achieves comparable performance to Qwen3-4B on text-only benchmarks, and trails the larger Kimi-VL-A3B-16B by only about 5% on average across multimodal evaluations. In non-thinking mode, it outperforms Qwen2.5-VL-3B on the majority of multimodal benchmarks. Additionally, BlueLM-2.5-3B exhibits exceptional data efficiency. All of the aforementioned performance is achieved with substantially less total training data than Qwen2.5-VL-3B and Qwen3-4B. We hope our work contributes to the advancement of high-performance, on-device MLLMs and provides meaningful insights to the research community.
Abstract（参考訳）: エッジデバイスを効率的に展開するために設計された,コンパクトで統一された多モード多言語モデル(MLLM)であるBlueLM-2.5-3Bについて述べる。私たちの知る限りでは、この3BスケールのMLLMは、思考モードと非思考モードの両方をサポートしながら、思考トークンの予算を明示的に制御できる最初の3BスケールのMLLMです。 BlueLM-2.5-3Bは、多様化したデータキュレーション、キーデータ再サンプリング、ハイブリッドな異種強化学習、高性能なトレーニングインフラによって開発されている。我々のモデルは、29億のパラメータしか持たない競合する純粋テキスト性能を維持しながら、優れたマルチモーダルキャパシティを実現する。幅広いマルチモーダルおよびテキストのみのベンチマークを網羅的に評価する。シンキングモードでは、BlueLM-2.5-3BはテキストのみのベンチマークでQwen3-4Bに匹敵する性能を達成し、Kimi-VL-A3B-16Bはマルチモーダル評価で平均5%程度しか遅れない。非思考モードでは、マルチモーダルベンチマークの大部分でQwen2.5-VL-3Bを上回っている。さらに、BlueLM-2.5-3Bは例外的なデータ効率を示す。上記の全ての性能は、Qwen2.5-VL-3BやQwen3-4Bよりも大幅に少ないトレーニングデータで達成される。我々は,我々の研究が高性能・オンデバイスMLLMの進歩に寄与し,研究コミュニティに有意義な洞察を与えてくれることを願っている。

関連論文リスト

Truth in the Few: High-Value Data Selection for Efficient Multi-Modal Reasoning [71.3533541927459]
アクティベーション推論ポテンシャル(RAP)と呼ばれる新しいデータ選択パラダイムを提案する。 RAPは、真のマルチモーダル推論を刺激する各サンプルのポテンシャルを推定することで、認知サンプルを識別する。我々のRAP法は、トレーニングデータの9.3%しか使用せず、計算コストを43%以上削減しながら、常に優れた性能を実現している。
論文参考訳（メタデータ） (2025-06-05T08:40:24Z)
Skywork-VL Reward: An Effective Reward Model for Multimodal Understanding and Reasoning [9.790628089475781]
実験により、Skywork-VL RewardはマルチモーダルVL-RewardBenchの最先端結果が得られることが示された。この結果から,Skywork-VL Rewardは多モードアライメントのための汎用かつ信頼性の高い報酬モデルへの大きな進歩と評価された。
論文参考訳（メタデータ） (2025-05-12T06:23:08Z)
InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models [139.19991097260115]
InternVL3は、ネイティブなマルチモーダル事前学習パラダイムを備えたInternVLシリーズの重要な進歩である。特に、InternVL3-78B は MMMU ベンチマークで72.2 のスコアを獲得し、オープンソースの MLLM に新しい最先端技術を設定する。オープンサイエンスの原則を追求するため、我々は、次世代MLLMのさらなる研究・開発を促進するために、トレーニングデータとモデルウェイトの両方を公開します。
論文参考訳（メタデータ） (2025-04-14T17:59:25Z)
ViLBench: A Suite for Vision-Language Process Reward Modeling [25.565912785217822]
本稿では,現在の視覚大言語モデル(VLLM)を2種類の報酬モデルとしてベンチマークする。我々は、集中的なプロセス報酬信号を必要とするように設計された視覚言語ベンチマークViLBenchを紹介する。本稿では,一般VLLMと報奨モデルとのギャップを埋めるための有望な経路を予め紹介する。
論文参考訳（メタデータ） (2025-03-26T06:38:31Z)
Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling [128.24325909395188]
InternVL 2.5は、InternVL 2.0上に構築された高度マルチモーダル大規模言語モデル(MLLM)シリーズである。 InternVL 2.5は、GPT-4oやClaude-3.5-Sonnetといった主要な商用モデルと競合する競争力を持つ。このモデルが、マルチモーダルAIシステムの開発と適用のための新しい標準を設定することで、オープンソースコミュニティに貢献できることを願っています。
論文参考訳（メタデータ） (2024-12-06T18:57:08Z)
FedMLLM: Federated Fine-tuning MLLM on Multimodal Heterogeneity Data [56.08867996209236]
フェデレートラーニング(FL)による微調整型マルチモーダル大言語モデル(MLLM)は、プライベートデータソースを含めることで、トレーニングデータの範囲を拡大することができる。マルチモーダルな異種シナリオにおけるMLLMのファインチューニング性能を評価するためのベンチマークを提案する。従来のFL手法を2つのモダリティに依存しない戦略と組み合わせた一般的なFedMLLMフレームワークを開発した。
論文参考訳（メタデータ） (2024-11-22T04:09:23Z)
Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance [78.48606021719206]
Mini-InternVL は 1B から 4B までのパラメータを持つ一連の MLLM であり、パラメータの 5% しか持たない性能の90% を達成している。我々は,ダウンストリームタスクにおける特化モデルの転送と性能向上を可能にする,Mini-InternVLの統一適応フレームワークを開発した。
論文参考訳（メタデータ） (2024-10-21T17:58:20Z)
NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文参考訳（メタデータ） (2024-09-17T17:59:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。