論文の概要: INTELLECT-3: Technical Report
- arxiv url: http://arxiv.org/abs/2512.16144v1
- Date: Thu, 18 Dec 2025 03:57:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.904496
- Title: INTELLECT-3: Technical Report
- Title(参考訳): INTELLECT-3: Technical Report
- Authors: Prime Intellect Team, Mika Senghaas, Fares Obeid, Sami Jaghouar, William Brown, Jack Min Ong, Daniel Auras, Matej Sirovatka, Jannik Straube, Andrew Baker, Sebastian Müller, Justus Mattern, Manveer Basra, Aiman Ismail, Dominik Scherm, Cooper Miller, Ameen Patel, Simon Kirsten, Mario Sieg, Christian Reetz, Kemal Erdem, Vincent Weisser, Johannes Hagemann,
- Abstract要約: INTELLECT-3は、大規模な強化学習で訓練されたMixture-of-Expertsモデル(12Bアクティブ)である。
私たちは、RLフレームワークを含む、モデルを作成するのに使用される完全なインフラストラクチャスタックとともに、モデルをオープンソースにしています。
大規模非同期強化学習のためのオープンフレームワークである Prime-rl を紹介する。
- 参考スコア(独自算出の注目度): 5.3998786788822
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present INTELLECT-3, a 106B-parameter Mixture-of-Experts model (12B active) trained with large-scale reinforcement learning on our end-to-end RL infrastructure stack. INTELLECT-3 achieves state of the art performance for its size across math, code, science and reasoning benchmarks, outperforming many larger frontier models. We open-source the model together with the full infrastructure stack used to create it, including RL frameworks, complete recipe, and a wide collection of environments, built with the verifiers library, for training and evaluation from our Environments Hub community platform. Built for this effort, we introduce prime-rl, an open framework for large-scale asynchronous reinforcement learning, which scales seamlessly from a single node to thousands of GPUs, and is tailored for agentic RL with first-class support for multi-turn interactions and tool use. Using this stack, we run both SFT and RL training on top of the GLM-4.5-Air-Base model, scaling RL training up to 512 H200s with high training efficiency.
- Abstract(参考訳): エンド・ツー・エンドのRLインフラストラクチャスタック上で大規模強化学習を訓練した106Bパラメータ・ミックス・オブ・エクササイズモデル(12B)であるINTELLECT-3を提案する。
INTELLECT-3は数学、コード、科学、推論のベンチマークで最先端のパフォーマンスを達成し、多くの大きなフロンティアモデルを上回っている。
RLフレームワーク、完全なレシピ、検証ライブラリで構築された幅広い環境のコレクションを含む、作成に使用される完全なインフラストラクチャスタックとともに、モデルをオープンソースにして、環境ハブコミュニティプラットフォームからトレーニングと評価を行います。
この取り組みのために構築されたPrime-rlは、大規模非同期強化学習のためのオープンフレームワークで、単一のノードから数千のGPUにシームレスにスケールし、マルチターンインタラクションとツール使用のためのファーストクラスサポートを備えたエージェントRL用に調整されている。
このスタックを使用して、GLM-4.5-Air-Baseモデル上でSFTとRLのトレーニングを実行し、高いトレーニング効率で最大512H200までRLのトレーニングをスケールする。
関連論文リスト
- Training Foundation Models on a Full-Stack AMD Platform: Compute, Networking, and System Design [26.12152103450326]
本報告では,AMDハードウェアの大規模混合実験(MoE)事前学習について報告する。
システムとモデル設計の両方の実用的なガイダンスを精査する。
ZAYA1ベースの性能は、Qwen3-4BやGemma3-12Bのような主要なベースモデルに匹敵する。
論文 参考訳(メタデータ) (2025-11-21T10:44:02Z) - Revolutionizing Reinforcement Learning Framework for Diffusion Large Language Models [49.911784762244814]
TraceRLは拡散言語モデル(DLM)のための軌道対応強化学習フレームワークである
我々は最先端の拡散言語モデル、すなわち TraDo を導出する。
TraDo-8B-InstructはQwen2.5-7B-Instructで6.1%、Llama3.1-8B-Instructで51.3%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-09-08T17:58:06Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - LlamaRL: A Distributed Asynchronous Reinforcement Learning Framework for Efficient Large-scale LLM Training [32.575669924032276]
強化学習(RL)は、大規模言語モデル(LLM)の能力向上のための訓練後の最も効果的なアプローチとなっている。
本稿では,LlamaRLについて述べる。LlamaRLは大規模LLMの効率的なトレーニングに最適化された,完全に分散された非同期RLフレームワークである。
論文 参考訳(メタデータ) (2025-05-29T22:14:15Z) - INTELLECT-2: A Reasoning Model Trained Through Globally Decentralized Reinforcement Learning [2.2063836130393817]
INTELLECT-2は、32億のパラメータ言語モデルによるRLトレーニングで、世界初のグローバル分散強化学習(RL)である。
このユニークなインフラストラクチャでトレーニングを実行可能にするために、私たちは、さまざまなコンポーネントをスクラッチから構築しました。
私たちは、すべてのコードとデータとともにINTELLECT-2をオープンソースとして公開しています。
論文 参考訳(メタデータ) (2025-05-12T07:24:33Z) - Scaling Offline Model-Based RL via Jointly-Optimized World-Action Model Pretraining [49.730897226510095]
我々は,60億のトークンデータを持つアタリゲーム上で事前訓練されたオフラインモデルベースRLエージェントであるJOWA: Jointly-Reinforceed World-Action Modelを紹介する。
われわれの最大のエージェントは、1億5000万のパラメータを持ち、10%のサブサンプルオフラインデータだけで事前トレーニングされたゲーム上での人間レベルのパフォーマンス78.9%で、既存の最先端の大規模なオフラインRLベースラインを31.6%上回っている。
論文 参考訳(メタデータ) (2024-10-01T10:25:03Z) - Bayesian Generational Population-Based Training [35.70338636901159]
Population-Based Training (PBT)は、いくつかの大規模な設定で素晴らしいパフォーマンスを実現している。
PBTスタイルの手法に2つの新しい革新を導入する。
これらのイノベーションが大きなパフォーマンス向上につながっていることを示しています。
論文 参考訳(メタデータ) (2022-07-19T16:57:38Z) - ElegantRL-Podracer: Scalable and Elastic Library for Cloud-Native Deep
Reinforcement Learning [141.58588761593955]
クラウドネイティブな深層強化学習のためのライブラリElegantRL-podracerを提案する。
数百万のコアを効率的にサポートし、複数のレベルで大規模な並列トレーニングを実行する。
低レベルでは、各ポッドは1つのGPUで7,000近いGPUコアをフル活用することで、エージェントと環境のインタラクションを並列にシミュレートする。
論文 参考訳(メタデータ) (2021-12-11T06:31:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。