論文の概要: Qwen3 Technical Report
- arxiv url: http://arxiv.org/abs/2505.09388v1
- Date: Wed, 14 May 2025 13:41:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 21:44:09.476942
- Title: Qwen3 Technical Report
- Title(参考訳): Qwen3テクニカルレポート
- Authors: An Yang, Anfeng Li, Baosong Yang, Beichen Zhang, Binyuan Hui, Bo Zheng, Bowen Yu, Chang Gao, Chengen Huang, Chenxu Lv, Chujie Zheng, Dayiheng Liu, Fan Zhou, Fei Huang, Feng Hu, Hao Ge, Haoran Wei, Huan Lin, Jialong Tang, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Yang, Jiaxi Yang, Jing Zhou, Jingren Zhou, Junyang Lin, Kai Dang, Keqin Bao, Kexin Yang, Le Yu, Lianghao Deng, Mei Li, Mingfeng Xue, Mingze Li, Pei Zhang, Peng Wang, Qin Zhu, Rui Men, Ruize Gao, Shixuan Liu, Shuang Luo, Tianhao Li, Tianyi Tang, Wenbiao Yin, Xingzhang Ren, Xinyu Wang, Xinyu Zhang, Xuancheng Ren, Yang Fan, Yang Su, Yichang Zhang, Yinger Zhang, Yu Wan, Yuqiong Liu, Zekun Wang, Zeyu Cui, Zhenru Zhang, Zhipeng Zhou, Zihan Qiu,
- Abstract要約: Qwenモデルファミリの最新バージョンであるQwen3を紹介します。
Qwen3は、性能、効率、多言語機能を向上させるために設計された一連の大規模言語モデル(LLM)から構成されている。
- 参考スコア(独自算出の注目度): 137.96804244102205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present Qwen3, the latest version of the Qwen model family. Qwen3 comprises a series of large language models (LLMs) designed to advance performance, efficiency, and multilingual capabilities. The Qwen3 series includes models of both dense and Mixture-of-Expert (MoE) architectures, with parameter scales ranging from 0.6 to 235 billion. A key innovation in Qwen3 is the integration of thinking mode (for complex, multi-step reasoning) and non-thinking mode (for rapid, context-driven responses) into a unified framework. This eliminates the need to switch between different models--such as chat-optimized models (e.g., GPT-4o) and dedicated reasoning models (e.g., QwQ-32B)--and enables dynamic mode switching based on user queries or chat templates. Meanwhile, Qwen3 introduces a thinking budget mechanism, allowing users to allocate computational resources adaptively during inference, thereby balancing latency and performance based on task complexity. Moreover, by leveraging the knowledge from the flagship models, we significantly reduce the computational resources required to build smaller-scale models, while ensuring their highly competitive performance. Empirical evaluations demonstrate that Qwen3 achieves state-of-the-art results across diverse benchmarks, including tasks in code generation, mathematical reasoning, agent tasks, etc., competitive against larger MoE models and proprietary models. Compared to its predecessor Qwen2.5, Qwen3 expands multilingual support from 29 to 119 languages and dialects, enhancing global accessibility through improved cross-lingual understanding and generation capabilities. To facilitate reproducibility and community-driven research and development, all Qwen3 models are publicly accessible under Apache 2.0.
- Abstract(参考訳): 本稿では、Qwenモデルファミリの最新バージョンであるQwen3を紹介する。
Qwen3は、性能、効率、多言語機能を向上させるために設計された一連の大規模言語モデル(LLM)から構成されている。
Qwen3シリーズには、密度とMixture-of-Expert(MoE)アーキテクチャの両方のモデルが含まれており、パラメータスケールは0.6から235億である。
Qwen3における重要なイノベーションは、思考モード(複雑で多段階の推論のための)と非思考モード(迅速なコンテキスト駆動応答のための)を統一されたフレームワークに統合することである。
これにより、チャット最適化モデル(例:GPT-4o)や専用推論モデル(例:QwQ-32B)など、さまざまなモデル間の切り替えが不要になり、ユーザクエリやチャットテンプレートに基づいた動的モード切り替えが可能になる。
一方、Qwen3は思考予算機構を導入し、ユーザーは推論中に計算リソースを適応的に割り当て、タスクの複雑さに基づいてレイテンシとパフォーマンスのバランスをとることができる。
さらに, フラッグシップモデルからの知識を活用することで, 小型モデル構築に必要な計算資源を大幅に削減し, 高い競争性能を確保した。
実証的な評価では、Qwen3はコード生成、数学的推論、エージェントタスクなど様々なベンチマークで最先端の結果を達成し、より大きなMoEモデルやプロプライエタリモデルと競合することを示している。
以前のQwen2.5と比較して、Qwen3は29から119の言語と方言への多言語サポートを拡張し、言語間理解と生成能力の改善を通じてグローバルアクセシビリティを向上させる。
再現性とコミュニティ主導のリサーチと開発を容易にするため、すべてのQwen3モデルはApache 2.0で公開されている。
関連論文リスト
- Qwen3 Embedding: Advancing Text Embedding and Reranking Through Foundation Models [90.54780244175511]
我々は、前身のGTE-Qwenシリーズよりも大幅に進歩したQwen3 Embeddingシリーズを紹介する。
Qwen3 Embeddingシリーズは、組み込みタスクと再ランクタスクの両方のためのモデルサイズの範囲を提供する。
Qwen3 Embeddingシリーズは様々なベンチマークで最先端の結果が得られる。
論文 参考訳(メタデータ) (2025-06-05T15:49:48Z) - An Empirical Study of Qwen3 Quantization [30.214896404069677]
低ビット量子化は有望な解であるが、Qwen3の性能への影響は未解明のままである。
Qwen3に適用された5つの古典的ポストトレーニング量子化手法を,1ビットから8ビットまでのビット幅で厳格に評価する。
以上の結果から,Qwen3は適度なビット幅での競合性能を維持しながら,超低精度での言語タスクの顕著な劣化を経験していることが明らかとなった。
論文 参考訳(メタデータ) (2025-05-04T18:43:44Z) - Qwen2.5 Technical Report [122.13958993185952]
Qwen2.5は多種多様なニーズに対応するように設計された大規模言語モデル(LLM)の包括的シリーズである。
以前のイテレーションと比較して、Qwen 2.5はトレーニング前とトレーニング後の両方で大幅に改善されている。
オープンウェイト製品には、ベースモデルと命令チューニングモデルが含まれており、量子化されたバージョンが利用可能である。
ホスト型ソリューションでは、現在プロプライエタリなモデルには、Qwen2.5-TurboとQwen2.5-Plusの2つの混合型(MoE)が含まれている。
論文 参考訳(メタデータ) (2024-12-19T17:56:09Z) - Qwen2 Technical Report [141.0766756297144]
本稿では,我々の大規模言語モデルと大規模マルチモーダルモデルへの最新の追加であるQwen2シリーズを紹介する。
Qwen2は、前身のQwen1.5を含む、これまでのほとんどのオープンウェイトモデルを超え、プロプライエタリモデルと比較して競争力のある性能を示している。
Qwen2は、英語、中国語、スペイン語、フランス語、ドイツ語、アラビア語、ロシア語、韓国語、日本語、タイ語、ベトナム語など、約30の言語で熟練した堅牢な多言語機能を示している。
論文 参考訳(メタデータ) (2024-07-15T12:35:42Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - Qwen Technical Report [132.54304067403922]
当社の大規模言語モデルシリーズの最初のインストールであるQwenを紹介します。
Qwenはトレーニング済みの言語モデルの基本であり、Qwen-Chatは人間のアライメント技術で微調整されたチャットモデルである。
また、コーディング特化モデルであるCode-QwenとCode-Qwen-Chatも開発し、数学に焦点を当てたMath-Qwen-Chatも開発しました。
論文 参考訳(メタデータ) (2023-09-28T17:07:49Z) - Large Language Models Are Also Good Prototypical Commonsense Reasoners [11.108562540123387]
従来の微調整アプローチはリソース集約的であり、モデルの一般化能力を損なう可能性がある。
我々は、調整されたタスクのための大規模モデルの出力からインスピレーションを受け、半自動で新しいプロンプトのセットを開発した。
より優れた設計のプロンプトによって、ProtoQAのリーダーボードで新しい最先端(SOTA)を達成することができます。
論文 参考訳(メタデータ) (2023-09-22T20:07:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。