論文の概要: Relax: An Asynchronous Reinforcement Learning Engine for Omni-Modal Post-Training at Scale
- arxiv url: http://arxiv.org/abs/2604.11554v2
- Date: Tue, 14 Apr 2026 09:26:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 14:01:13.510283
- Title: Relax: An Asynchronous Reinforcement Learning Engine for Omni-Modal Post-Training at Scale
- Title(参考訳): Relax: 大規模なOmni-Modalポストトレーニングのための非同期強化学習エンジン
- Authors: Liujie Zhang, Benzhe Ning, Rui Yang, Xiaoyan Yu, Jiaxing Li, Lumeng Wu, Jia Liu, Minghao Li, Weihang Chen, Weiqi Hu, Lei Zhang,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、大規模言語モデルにおける推論、自己回帰、ツール使用能力の解放に有効であることが証明されている。
オープンソースのRLトレーニングエンジンである textbfRelax を紹介します。
- 参考スコア(独自算出の注目度): 23.085412733650372
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) post-training has proven effective at unlocking reasoning, self-reflection, and tool-use capabilities in large language models. As models extend to omni-modal inputs and agentic multi-turn workflows, RL training systems face three interdependent challenges: heterogeneous data flows, operational robustness at scale, and the staleness -- throughput tradeoff. We present \textbf{Relax} (Reinforcement Engine Leveraging Agentic X-modality), an open-source RL training engine that addresses these challenges through three co-designed architectural layers. First, an \emph{omni-native architecture} builds multimodal support into the full stack -- from data preprocessing and modality-aware parallelism to inference generation -- rather than retrofitting it onto a text-centric pipeline. Second, each RL role runs as an independent, fault-isolated service that can be scaled, recovered, and upgraded without global coordination. Third, service-level decoupling enables asynchronous training via the TransferQueue data bus, where a single staleness parameter smoothly interpolates among on-policy, near-on-policy, and fully asynchronous execution. Relax achieves a 1.20$\times$ end-to-end speedup over veRL on Qwen3-4B on-policy training. Its fully async mode delivers a 1.76$\times$ speedup over colocate on Qwen3-4B and a 2.00$\times$ speedup on Qwen3-Omni-30B, while all modes converge to the same reward level. Relax supports R3 (Rollout Routing Replay)~\cite{ma2025r3} for MoE models with only 1.9\% overhead, compared to 32\% degradation in veRL under the same configuration. It further demonstrates stable omni-modal RL convergence on Qwen3-Omni across image, text, and audio, sustaining over 2{,}000 steps on video without degradation. Relax is available at https://github.com/rednote-ai/Relax.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、大規模言語モデルにおける推論、自己回帰、ツール使用能力の解放に有効であることが証明されている。
モデルがオムニモーダル入力やエージェントマルチターンワークフローにまで拡張されるにつれ、RLトレーニングシステムは、異種データフロー、スケールでの運用上の堅牢性、安定性 --スループットのトレードオフという、3つの相互依存的な課題に直面している。
これはオープンソースのRLトレーニングエンジンで、3つの共同設計したアーキテクチャレイヤを通じてこれらの課題に対処します。
まず、‘emph{omni-native architecture}は、テキスト中心のパイプラインに再適合するのではなく、データ前処理やモダリティを意識した並列処理から推論生成に至るまで、フルスタックにマルチモーダルサポートを構築する。
第二に、各RLロールは独立して分離されたサービスとして動作し、グローバルな調整なしにスケール、リカバリ、アップグレードが可能である。
第3に、サービスレベルの分離により、TransferQueueデータバスによる非同期トレーニングが可能になる。
RelaxはQwen3-4BでveRLよりも1.20$\times$エンド・ツー・エンドのスピードアップを達成した。
完全非同期モードはQwen3-4Bのコロケーションよりも1.76$\times$のスピードアップとQwen3-Omni-30Bの2.00$\times$のスピードアップを提供する。
Relax は MoE モデルの R3 (Rollout Routing Replay)~\cite{ma2025r3} をサポートする。
さらに、画像、テキスト、オーディオ間でQwen3-Omni上の安定なOmni-modal RL収束を示し、劣化することなく2{,}000ステップ以上ビデオに持続する。
Relaxはhttps://github.com/rednote-ai/Relax.comで入手できる。
関連論文リスト
- SortedRL: Accelerating RL Training for LLMs through Online Length-Aware Scheduling [54.276306194000405]
SortedRLを提案する。SortedRLは、強化学習をスケールするためのオンライン長対応スケジューリング戦略である。
SortedRLは、出力長に基づいてロールアウトサンプルをリオーダーし、短いサンプルが早期更新のためにグループを形成することを優先順位付けする。
LLaMA-3.1-8BとQwen-2.5-32Bを論理パズルを含む様々なタスクで実験した結果、SortedRLはRLトレーニングバブル比を50%以上削減することが示された。
論文 参考訳(メタデータ) (2026-03-24T16:48:31Z) - RollArt: Scaling Agentic RL Training via Disaggregated Infrastructure [49.88201789074532]
エージェント強化学習(RL)は、大規模言語モデル(LLM)が自律的な意思決定と長期計画を行うことを可能にする。
分散インフラストラクチャ上でマルチタスクエージェントRLのスループットを最大化する分散システムであるRollArcを提案する。
論文 参考訳(メタデータ) (2025-12-27T11:14:23Z) - $π_\texttt{RL}$: Online RL Fine-tuning for Flow-based Vision-Language-Action Models [76.66547858171452]
$pi_textRL$は、並列シミュレーションでフローベースのVision-Language-Action(VLA)モデルをトレーニングするためのオープンソースのフレームワークである。
$pi_textRL$は、数ショットのSFTモデルに$pi_0.5$を57.6%から97.6%へ、それぞれ77.1%から98.3%へ引き上げる。
ManiSkillでは、320の並列環境で$pi_textRL$をトレーニングし、$pi_textRL$を41.6%から85.7%、$pi_0.5に改善します。
論文 参考訳(メタデータ) (2025-10-29T18:37:39Z) - Laminar: A Scalable Asynchronous RL Post-Training Framework [20.127034898123508]
RL軌道生成における長い尾の歪みは、重いGPU不使用を引き起こす。
現在のRLシステムはアクターとロールアウト間のグローバルな重量同期に依存しており、厳密なモデル更新スケジュールを生成する。
完全に分離されたアーキテクチャ上に構築されたスケーラブルで堅牢なRLポストトレーニングシステムであるLaminarを提案する。
論文 参考訳(メタデータ) (2025-10-14T15:29:14Z) - Part II: ROLL Flash -- Accelerating RLVR and Agentic Training with Asynchrony [78.70328630805041]
ROLL Flashは、ROLLを拡張し、非同期RLポストトレーニングをネイティブにサポートするシステムである。
ROLL Flashは同期RLポストトレーニングよりもリソース利用とスケーラビリティを著しく向上させることを示す。
論文 参考訳(メタデータ) (2025-10-13T12:41:27Z) - AgentRL: Scaling Agentic Reinforcement Learning with a Multi-Turn, Multi-Task Framework [76.96794548655292]
大規模言語モデル(LLM)は、オンラインインタラクションを通じて学習できる汎用エージェントの構築への関心が高まっている。
マルチターンでLLMエージェントをトレーニングするために強化学習(RL)を適用することで、スケーラブルなインフラストラクチャと安定したトレーニングアルゴリズムが欠如しているため、マルチタスク設定は依然として困難である。
本稿では、スケーラブルなマルチターンマルチタスクエージェントRLトレーニングのためのAgentRLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-05T13:40:01Z) - Echo: Decoupling Inference and Training for Large-Scale RL Alignment on Heterogeneous Swarms [4.127488674019288]
大規模言語モデルのポストトレーニングは、同じGPUクラスタ上でトラジェクトリサンプリングとポリシ最適化を併用する。
ヘテロジニアスな"推論"と"トレーニング"スワムにまたがって、これらの2つのフェーズをきれいに分離するRLシステムであるEchoを紹介します。
論文 参考訳(メタデータ) (2025-08-07T13:37:04Z) - AReaL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning [23.24949857136035]
強化学習(RL)は、大規模言語モデル(LLM)の訓練において支配的なパラダイムとなっている。
本稿では,完全非同期RLシステムであるAReaLについて述べる。
論文 参考訳(メタデータ) (2025-05-30T07:18:25Z) - StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation [55.75008325187133]
強化学習(RL)は,大規模言語モデル(LLM)の学習後のコアとなる。
StreamRLは、最初の原則から分離して、2種類のパフォーマンスボトルネックに対処するように設計されている。
実験により、StreamRLは既存の最先端システムと比較してスループットを最大2.66倍改善することが示された。
論文 参考訳(メタデータ) (2025-04-22T14:19:06Z) - Efficient Parallel Reinforcement Learning Framework using the Reactor
Model [2.190190313041532]
強化学習(RL)フレームワークは、RLワークロードを複数の計算リソースにマッピングするために不可欠である。
Rayのような既存のフレームワークは、このオーケストレーションを効率的に管理していない。
我々は,アクターの集合が固定的な通信パターンを持つように強制するリアクターモデルを実装するソリューションを提案している。
論文 参考訳(メタデータ) (2023-12-07T21:19:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。