論文の概要: INTELLECT-2: A Reasoning Model Trained Through Globally Decentralized Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.07291v1
- Date: Mon, 12 May 2025 07:24:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.288621
- Title: INTELLECT-2: A Reasoning Model Trained Through Globally Decentralized Reinforcement Learning
- Title(参考訳): INTELLECT-2:グローバル分散強化学習を通して学習した推論モデル
- Authors: Prime Intellect Team, Sami Jaghouar, Justus Mattern, Jack Min Ong, Jannik Straube, Manveer Basra, Aaron Pazdera, Kushal Thaman, Matthew Di Ferrante, Felix Gabriel, Fares Obeid, Kemal Erdem, Michael Keiblinger, Johannes Hagemann,
- Abstract要約: INTELLECT-2は、32億のパラメータ言語モデルによるRLトレーニングで、世界初のグローバル分散強化学習(RL)である。
このユニークなインフラストラクチャでトレーニングを実行可能にするために、私たちは、さまざまなコンポーネントをスクラッチから構築しました。
私たちは、すべてのコードとデータとともにINTELLECT-2をオープンソースとして公開しています。
- 参考スコア(独自算出の注目度): 2.2063836130393817
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce INTELLECT-2, the first globally distributed reinforcement learning (RL) training run of a 32 billion parameter language model. Unlike traditional centralized training efforts, INTELLECT-2 trains a reasoning model using fully asynchronous RL across a dynamic, heterogeneous swarm of permissionless compute contributors. To enable a training run with this unique infrastructure, we built various components from scratch: we introduce PRIME-RL, our training framework purpose-built for distributed asynchronous reinforcement learning, based on top of novel components such as TOPLOC, which verifies rollouts from untrusted inference workers, and SHARDCAST, which efficiently broadcasts policy weights from training nodes to inference workers. Beyond infrastructure components, we propose modifications to the standard GRPO training recipe and data filtering techniques that were crucial to achieve training stability and ensure that our model successfully learned its training objective, thus improving upon QwQ-32B, the state of the art reasoning model in the 32B parameter range. We open-source INTELLECT-2 along with all of our code and data, hoping to encourage and enable more open research in the field of decentralized training.
- Abstract(参考訳): 我々は,32億のパラメータ言語モデルを用いた最初のグローバル分散強化学習(RL)トレーニングであるINTELLECT-2を紹介する。
従来の集中型トレーニングとは異なり、INTELLECT-2は、完全に非同期なRLを使用して、動的で不均一な計算コントリビュータの群をまたいだ推論モデルをトレーニングする。
トレーニングノードから推論ワーカーへのポリシーの重みを効率よくブロードキャストするSHARDCASTや、TOPLOCのような新しいコンポーネントをベースとして、分散非同期強化学習を目的としたトレーニングフレームワークであるPRIME-RLを導入しました。
インフラストラクチャコンポーネント以外にも,トレーニング安定性を達成する上で重要な標準のGRPOトレーニングレシピやデータフィルタリング技術の変更を提案し,トレーニング目標の学習に成功し,32Bパラメータ範囲の最先端推論モデルであるQwQ-32Bを改善した。
私たちは、すべてのコードとデータとともにINTELLECT-2をオープンソースとして公開しています。
関連論文リスト
- DUMP: Automated Distribution-Level Curriculum Learning for RL-based LLM Post-training [15.74527731339671]
本稿では,分布レベルの学習可能性の概念に基づくカリキュラム学習フレームワークを提案する。
我々のフレームワークは、高い平均的優位性(探索)または低いサンプル数(探索)で分布を優先順位付けする。
実験の結果,本フレームワークは収束速度と最終性能を大幅に改善することがわかった。
論文 参考訳(メタデータ) (2025-04-13T20:10:27Z) - Meta-Computing Enhanced Federated Learning in IIoT: Satisfaction-Aware Incentive Scheme via DRL-Based Stackelberg Game [50.6166553799783]
効率的なIIoT操作は、モデル品質とトレーニング遅延の間のトレードオフを必要とする。
本稿では,データサイズ,情報時代(AoI),メタコンピューティングのトレーニング遅延を考慮した満足度関数を設計する。
我々は、スタックルバーグ均衡を学ぶために、深い強化学習アプローチを採用する。
論文 参考訳(メタデータ) (2025-02-10T03:33:36Z) - Heterogeneity-aware Personalized Federated Learning via Adaptive Dual-Agent Reinforcement Learning [15.61141633436468]
フェデレートラーニング(FL)は、複数のクライアントに対して、ローカルデータを共有せずに機械学習モデルを協調的にトレーニングする権限を与える。
本稿では,多段階強化学習(RL)機構を用いて,HAPFLと呼ばれる新しい異種性を考慮した個人化フェデレーション学習手法を提案する。
複数のベンチマークデータセットに対する実験結果によると、HAPFLは高い精度を達成するだけでなく、トレーニング全体の時間を20.9%から40.4%短縮する。
論文 参考訳(メタデータ) (2025-01-28T14:08:57Z) - RLDG: Robotic Generalist Policy Distillation via Reinforcement Learning [53.8293458872774]
本稿では,RLDG(Reinforcement Learning Distilled Generalists)を提案する。
我々は、RL生成データで訓練されたジェネラリストポリシーが、人間の実演で訓練された者より一貫して優れていたことを実証する。
以上の結果から,タスク固有RLと一般政策蒸留を組み合わせることで,より有能で効率的なロボット操作システムの開発が期待できる可能性が示唆された。
論文 参考訳(メタデータ) (2024-12-13T04:57:55Z) - FedMS: Federated Learning with Mixture of Sparsely Activated Foundations
Models [11.362085734837217]
我々はFedMSと呼ばれる新しい2段階のフェデレーション学習アルゴリズムを提案する。
グローバルエキスパートは第一段階で訓練され、ローカルエキスパートは第二段階で訓練され、より良いパーソナライズを提供する。
我々はFedMSの有効性を検証するために広範囲な実験を行い、その結果、FedMSは他のSOTAベースラインを55.25%まで上回る結果となった。
論文 参考訳(メタデータ) (2023-12-26T07:40:26Z) - Federated Learning with Projected Trajectory Regularization [65.6266768678291]
フェデレーション学習は、ローカルデータを共有せずに、分散クライアントから機械学習モデルの共同トレーニングを可能にする。
連合学習における重要な課題の1つは、クライアントにまたがる識別できない分散データを扱うことである。
本稿では,データ問題に対処するための予測軌道正則化(FedPTR)を備えた新しいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-22T02:12:08Z) - An Adaptive Placement and Parallelism Framework for Accelerating RLHF Training [11.749347656959822]
2つの一般的なアジャイルモデル配置戦略を提供するフレキシブルなモデル配置フレームワークを提案する。
私たちのフレームワークは、さまざまなトレーニングシナリオにおいて、これらの戦略を簡単にかつ柔軟に設定するための、シンプルなユーザインターフェースとガイドラインを提供します。
論文 参考訳(メタデータ) (2023-12-19T03:24:55Z) - Exploring the Robustness of Decentralized Training for Large Language
Models [51.41850749014054]
大規模な言語モデルの分散トレーニングは、この技術を民主化するための効果的な方法として現れてきた。
本稿では,3つの主要な視点から,分散学習の堅牢性について考察する。
論文 参考訳(メタデータ) (2023-12-01T04:04:03Z) - Bayesian Generational Population-Based Training [35.70338636901159]
Population-Based Training (PBT)は、いくつかの大規模な設定で素晴らしいパフォーマンスを実現している。
PBTスタイルの手法に2つの新しい革新を導入する。
これらのイノベーションが大きなパフォーマンス向上につながっていることを示しています。
論文 参考訳(メタデータ) (2022-07-19T16:57:38Z) - Training and Evaluation of Deep Policies using Reinforcement Learning
and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。
強化学習と潜在変数生成モデルの組み合わせを利用する。
最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文 参考訳(メタデータ) (2022-04-18T22:02:32Z) - Decentralized Federated Learning Preserves Model and Data Privacy [77.454688257702]
我々は、訓練されたモデル間で知識を共有することができる、完全に分散化されたアプローチを提案する。
生徒は、合成された入力データを通じて教師の出力を訓練する。
その結果,教師が学習した未学習学生モデルが,教師と同等のF1スコアに達することがわかった。
論文 参考訳(メタデータ) (2021-02-01T14:38:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。