論文の概要: Sharing is Caring: Efficient LM Post-Training with Collective RL Experience Sharing
- arxiv url: http://arxiv.org/abs/2509.08721v1
- Date: Wed, 10 Sep 2025 16:14:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.492635
- Title: Sharing is Caring: Efficient LM Post-Training with Collective RL Experience Sharing
- Title(参考訳): 共有とケア - 集合的RL体験共有による効率的なLMポストトレーニング
- Authors: Jeffrey Amico, Gabriel Passamani Andrade, John Donaghy, Ben Fielding, Tristin Forbus, Harry Grieve, Semih Kara, Jari Kolehmainen, Yihua Lou, Christopher Nies, Edward Phillip Flores Nuño, Diogo Ortega, Shikhar Rastogi, Austin Virts, Matthew J. Wright,
- Abstract要約: 強化学習(RL)を用いた後学習言語モデル(LM)は、微調整を監督せずに推論能力を向上させることができる。
完全分散かつ非同期なRLポストトレーニングアルゴリズムであるSwarm sAmpling Policy Optimization (SAPO)を提案する。
制御実験では,SAPOが最大94%の累積報酬ゲインを達成した。
- 参考スコア(独自算出の注目度): 1.5280055693761307
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Post-training language models (LMs) with reinforcement learning (RL) can enhance their complex reasoning capabilities without supervised fine-tuning, as demonstrated by DeepSeek-R1-Zero. However, effectively utilizing RL for LMs requires significant parallelization to scale-up inference, which introduces non-trivial technical challenges (e.g. latency, memory, and reliability) alongside ever-growing financial costs. We present Swarm sAmpling Policy Optimization (SAPO), a fully decentralized and asynchronous RL post-training algorithm. SAPO is designed for decentralized networks of heterogenous compute nodes, where each node manages its own policy model(s) while "sharing" rollouts with others in the network; no explicit assumptions about latency, model homogeneity, or hardware are required and nodes can operate in silo if desired. As a result, the algorithm avoids common bottlenecks in scaling RL post-training while also allowing (and even encouraging) new possibilities. By sampling rollouts "shared" across the network, it enables "Aha moments" to propagate, thereby bootstrapping the learning process. In this paper we show SAPO achieved cumulative reward gains of up to 94% in controlled experiments. We also share insights from tests on a network with thousands of nodes contributed by Gensyn community members running the algorithm on diverse hardware and models during an open-source demo.
- Abstract(参考訳): 強化学習(RL)を備えた後学習言語モデル(LM)は、DeepSeek-R1-Zeroが示すように、微調整を監督せずに複雑な推論能力を向上することができる。
しかし、LMにRLを効果的に活用するには、スケールアップ推論に相当な並列化が必要であり、成長を続ける財政コストとともに、非自明な技術的課題(例えば、レイテンシ、メモリ、信頼性)をもたらす。
完全分散かつ非同期なRLポストトレーニングアルゴリズムであるSwarm sAmpling Policy Optimization (SAPO)を提案する。
SAPOは異種計算ノードの分散ネットワーク用に設計されており、各ノードが独自のポリシーモデルを管理し、ネットワーク内の他のノードとのロールアウトを"共有"する。
結果として、アルゴリズムはRLポストトレーニングのスケーリングにおける一般的なボトルネックを回避すると同時に、新たな可能性も(さらに奨励する)ことができる。
ネットワーク全体で"共有"されたロールアウトをサンプリングすることで、"Aha moments"が伝播し、学習プロセスがブートストラップされる。
本稿では,SAPOが制御実験で最大94%の累積報酬を得たことを示す。
我々はまた、オープンソースのデモ中に、さまざまなハードウェアやモデル上でアルゴリズムを実行するGensynコミュニティメンバがコントリビュートした数千のノードで、ネットワーク上でのテストからの洞察を共有しています。
関連論文リスト
- Online Training and Pruning of Deep Reinforcement Learning Networks [0.0]
強化学習(RL)アルゴリズムのディープニューラルネットワーク(NN)のスケーリングは、特徴抽出ネットワークを使用する場合のパフォーマンスを向上させることが示されている。
先進RL法において,同時学習とプルーニングを併用する手法を提案する。
論文 参考訳(メタデータ) (2025-07-16T07:17:41Z) - RL for Reasoning by Adaptively Revealing Rationales [36.50924054394857]
監督された微調整(SFT)は密度の高い地下構造ラベルに依存しており、シーケンスの長さが大きくなるにつれてコストが増大する。
AdaBack(アダプティブ・バックトラック)は,学習中の目標出力の部分的なプレフィックスのみを明らかにする,サンプルごとのカリキュラム学習アルゴリズムである。
部分解に対する適応的なカリキュラムは、そうでなければ難解な問題を確実に解決することを示します。
論文 参考訳(メタデータ) (2025-06-22T17:46:14Z) - StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation [55.75008325187133]
強化学習(RL)は,大規模言語モデル(LLM)の学習後のコアとなる。
StreamRLは、最初の原則から分離して、2種類のパフォーマンスボトルネックに対処するように設計されている。
実験により、StreamRLは既存の最先端システムと比較してスループットを最大2.66倍改善することが示された。
論文 参考訳(メタデータ) (2025-04-22T14:19:06Z) - Efficient Parallel Split Learning over Resource-constrained Wireless
Edge Networks [44.37047471448793]
本稿では,エッジコンピューティングパラダイムと並列分割学習(PSL)の統合を提唱する。
そこで本研究では,モデル学習を高速化するために,効率的な並列分割学習(EPSL)という革新的なPSLフレームワークを提案する。
提案するEPSLフレームワークは,目標精度を達成するために必要なトレーニング遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2023-03-26T16:09:48Z) - Federated Deep Reinforcement Learning for the Distributed Control of
NextG Wireless Networks [16.12495409295754]
次世代(NextG)ネットワークは、拡張現実(AR)やコネクテッド・自律走行車といった、インターネットの触覚を必要とするアプリケーションをサポートすることが期待されている。
データ駆動アプローチは、現在の運用条件に適応するネットワークの能力を改善することができる。
深部RL(DRL)は複雑な環境においても良好な性能を発揮することが示されている。
論文 参考訳(メタデータ) (2021-12-07T03:13:20Z) - A Heuristically Assisted Deep Reinforcement Learning Approach for
Network Slice Placement [0.7885276250519428]
本稿では,Deep Reinforcement Learning(DRL)に基づくハイブリッド配置ソリューションと,Power of Two Choices原則に基づく専用最適化を提案する。
提案したHuristically-Assisted DRL (HA-DRL) は,他の最先端手法と比較して学習プロセスの高速化と資源利用の促進を可能にする。
論文 参考訳(メタデータ) (2021-05-14T10:04:17Z) - Unsupervised Learning for Asynchronous Resource Allocation in Ad-hoc
Wireless Networks [122.42812336946756]
集約グラフニューラルネットワーク(Agg-GNN)に基づく教師なし学習手法を設計する。
アクティベーションパターンを各ノードの特徴としてモデル化し,ポリシーに基づくリソース割り当て手法を訓練することにより,非同期性を捉える。
論文 参考訳(メタデータ) (2020-11-05T03:38:36Z) - Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。
本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文 参考訳(メタデータ) (2020-10-16T18:48:49Z) - A Low Complexity Decentralized Neural Net with Centralized Equivalence
using Layer-wise Learning [49.15799302636519]
我々は、分散処理ノード(労働者)で最近提案された大規模ニューラルネットワークをトレーニングするために、低複雑性分散学習アルゴリズムを設計する。
我々の設定では、トレーニングデータは作業者間で分散されるが、プライバシやセキュリティ上の懸念からトレーニングプロセスでは共有されない。
本研究では,データが一箇所で利用可能であるかのように,等価な学習性能が得られることを示す。
論文 参考訳(メタデータ) (2020-09-29T13:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。