論文の概要: Qianfan-VL: Domain-Enhanced Universal Vision-Language Models
- arxiv url: http://arxiv.org/abs/2509.18189v1
- Date: Fri, 19 Sep 2025 07:05:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.473118
- Title: Qianfan-VL: Domain-Enhanced Universal Vision-Language Models
- Title(参考訳): Qianfan-VL:ドメイン拡張ユニバーサルビジョンランゲージモデル
- Authors: Daxiang Dong, Mingming Zheng, Dong Xu, Bairong Zhuang, Wenyu Zhang, Chunhua Luo, Haoran Wang, Zijian Zhao, Jie Li, Yuxuan Li, Hanjun Zhong, Mengyue Liu, Jieting Chen, Shupeng Li, Lun Tian, Yaping Feng, Xin Li, Donggang Jiang, Yong Chen, Yehua Xu, Duohao Qin, Chen Feng, Dan Wang, Henghua Zhang, Jingjing Ha, Jinhui He, Yanfeng Zhai, Chengxin Zheng, Jiayi Mao, Jiacheng Chen, Ruchang Yao, Ziye Yuan, Jianmin Wu, Guangjun Xie, Dou Shen,
- Abstract要約: マルチモーダルな大規模言語モデルであるQianfan-VLは、革新的なドメイン拡張技術によって最先端のパフォーマンスを達成する。
提案手法では,多段階のプログレッシブトレーニングと高精度データ合成パイプラインを用いる。
すべてのモデルはBaiduのKunlun P800チップで完全にトレーニングされており、SOTAレベルのマルチモーダルモデルをトレーニングする大規模AIインフラストラクチャの能力を検証する。
- 参考スコア(独自算出の注目度): 30.739042613064015
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Qianfan-VL, a series of multimodal large language models ranging from 3B to 70B parameters, achieving state-of-the-art performance through innovative domain enhancement techniques. Our approach employs multi-stage progressive training and high-precision data synthesis pipelines, which prove to be critical technologies for enhancing domain-specific capabilities while maintaining strong general performance. Qianfan-VL achieves comparable results to leading open-source models on general benchmarks, with state-of-the-art performance on benchmarks such as CCBench, SEEDBench IMG, ScienceQA, and MMStar. The domain enhancement strategy delivers significant advantages in OCR and document understanding, validated on both public benchmarks (OCRBench 873, DocVQA 94.75%) and in-house evaluations. Notably, Qianfan-VL-8B and 70B variants incorporate long chain-of-thought capabilities, demonstrating superior performance on mathematical reasoning (MathVista 78.6%) and logical inference tasks. All models are trained entirely on Baidu's Kunlun P800 chips, validating the capability of large-scale AI infrastructure to train SOTA-level multimodal models with over 90% scaling efficiency on 5000 chips for a single task. This work establishes an effective methodology for developing domain-enhanced multimodal models suitable for diverse enterprise deployment scenarios.
- Abstract(参考訳): 本稿では,3Bパラメータから70Bパラメータまでの多モーダルな大規模言語モデルであるQianfan-VLについて述べる。
提案手法では,多段階のプログレッシブトレーニングと高精度なデータ合成パイプラインを採用しており,高い汎用性能を維持しつつ,ドメイン固有能力を向上するための重要な技術であることが証明されている。
Qianfan-VLは、CCBench、SEEDBench IMG、ScienceQA、MMStarなどのベンチマークにおける最先端のパフォーマンスで、一般的なベンチマークにおける主要なオープンソースモデルに匹敵する結果を達成している。
ドメイン拡張戦略は、OCRBench 873、DocVQA 94.75%)と社内評価の両方で検証された、OCRと文書理解に大きな利点をもたらす。
特に、Qianfan-VL-8B と 70B は長いチェーン・オブ・シント機能を備えており、数学的推論(MathVista 78.6%)と論理推論タスクにおいて優れた性能を示している。
すべてのモデルはBaiduのKunlun P800チップで完全にトレーニングされており、1つのタスクで5000チップ上で90%以上のスケーリング効率を持つSOTAレベルのマルチモーダルモデルをトレーニングする大規模AIインフラストラクチャの能力を検証する。
この研究は、多様なエンタープライズ展開シナリオに適したドメイン強化マルチモーダルモデルを開発するための効果的な方法論を確立します。
関連論文リスト
- EfficientLLaVA:Generalizable Auto-Pruning for Large Vision-language Models [64.18350535770357]
マルチモーダル推論の効率を高めるために,大規模視覚言語モデルの自動プルーニング手法を提案する。
提案手法では,所望のプルーニングポリシーを探索するために,少数のサンプルのみを活用する。
視覚的質問応答のためのScienceQA, Vizwiz, MM-vet, LLaVA-Benchデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2025-03-19T16:07:04Z) - Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling [128.24325909395188]
InternVL 2.5は、InternVL 2.0上に構築された高度マルチモーダル大規模言語モデル(MLLM)シリーズである。
InternVL 2.5は、GPT-4oやClaude-3.5-Sonnetといった主要な商用モデルと競合する競争力を持つ。
このモデルが、マルチモーダルAIシステムの開発と適用のための新しい標準を設定することで、オープンソースコミュニティに貢献できることを願っています。
論文 参考訳(メタデータ) (2024-12-06T18:57:08Z) - VL-RewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models [66.56298924208319]
視覚言語生成報酬モデル(VL-GenRM)は、マルチモーダルAIシステムの調整と評価において重要な役割を果たす。
現在の評価方法は、主に従来のタスクからのAIアノテーション付き好みラベルに依存している。
VL-RewardBenchは、一般的なマルチモーダルクエリ、視覚幻覚検出、複雑な推論タスクにまたがる包括的なベンチマークである。
論文 参考訳(メタデータ) (2024-11-26T14:08:34Z) - Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance [78.48606021719206]
Mini-InternVL は 1B から 4B までのパラメータを持つ一連の MLLM であり、パラメータの 5% しか持たない性能の90% を達成している。
我々は,ダウンストリームタスクにおける特化モデルの転送と性能向上を可能にする,Mini-InternVLの統一適応フレームワークを開発した。
論文 参考訳(メタデータ) (2024-10-21T17:58:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。