論文の概要: AstraFlow: Dataflow-Oriented Reinforcement Learning for Agentic LLMs
- arxiv url: http://arxiv.org/abs/2605.15565v1
- Date: Fri, 15 May 2026 03:13:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.157498
- Title: AstraFlow: Dataflow-Oriented Reinforcement Learning for Agentic LLMs
- Title(参考訳): AstraFlow: エージェントLLMのためのデータフロー指向強化学習
- Authors: Haizhong Zheng, Yizhuo Di, Jiahui Wang, Shuowei Jin, Xueshen Liu, Yongji Wu, Z. Morley Mao, Ion Stoica, Jiawei Zhao, Beidi Chen,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、大規模言語モデルの推論、コーディング、ツール使用能力の向上にますます利用されている。
エージェントRLは違法に高価である。
本稿では,従来のトレーナー中心制御を原則的コンポーネント抽象化に置き換えるデータフロー指向RLシステムであるAstraFlowを提案する。
- 参考スコア(独自算出の注目度): 57.86040075371121
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reinforcement learning (RL) is increasingly used to improve the reasoning, coding, and tool-use capabilities of large language models, but agentic RL remains prohibitively expensive. Scaling RL to agentic LLMs requires supporting complex workloads, including multi-policy collaborative training, while efficiently using elastic, heterogeneous, and cross-region compute resources. Existing LLM RL systems support some of these capabilities, but each new extension often requires dedicated system engineering. This burden arises from trainer-centered control architectures and the lack of principled abstractions for RL system components. To address these limitations, we propose AstraFlow, a dataflow-oriented RL system that replaces conventional trainer-centered control with principled component abstractions. In AstraFlow, rollout services, dataflow management, and training are decoupled into autonomous components, enabling the system to natively support complex multi-policy agentic RL workloads and efficiently exploit diverse compute resources. We evaluate AstraFlow across math, code, search, and AgentBench workloads, showing that the same system supports multi-policy training, elastic scaling, heterogeneous cross-region execution, and composable data algorithms without system-level code changes. In multi-policy collaborative training, AstraFlow achieves comparable or better accuracy than existing RL systems while speeding up training time by 2.7x.
- Abstract(参考訳): 強化学習 (Reinforcement Learning, RL) は、大規模言語モデルの推論、コーディング、ツール使用能力の向上にますます利用されているが、エージェント的RLは違法に高価である。
RLをエージェントLLMにスケーリングするには、エラスティック、ヘテロジニアス、クロスリージョンの計算リソースを効率的に使用しながら、マルチポリティクスのコラボレーティブトレーニングを含む複雑なワークロードをサポートする必要がある。
既存のLLM RLシステムはこれらの機能の一部をサポートしているが、それぞれの拡張には専用のシステムエンジニアリングが必要であることが多い。
この負担は、トレーナー中心の制御アーキテクチャと、RLシステムコンポーネントの原則化された抽象化の欠如から生じる。
これらの制約に対処するため,従来のトレーナー中心制御を原則的コンポーネント抽象化に置き換えたデータフロー指向RLシステムであるAstraFlowを提案する。
AstraFlowでは、ロールアウトサービス、データフロー管理、トレーニングを自律的なコンポーネントに分離することで、システムは複雑な多目的エージェントRLワークロードをネイティブにサポートし、多様な計算リソースを効率的に活用することができる。
我々はAstraFlowを数学、コード、検索、AgentBenchのワークロードで評価し、同じシステムがマルチポリシートレーニング、弾力性のあるスケーリング、異種クロスリージョン実行、システムレベルのコード変更なしに構成可能なデータアルゴリズムをサポートすることを示した。
マルチポリティクスのコラボレーティブトレーニングでは、AstraFlowは既存のRLシステムと同等かそれ以上の精度を達成し、トレーニング時間を2.7倍に高速化する。
関連論文リスト
- ARL-Tangram: Unleash the Resource Efficiency in Agentic Reinforcement Learning [15.912431502064678]
ARL-Tangramは、きめ細かい外部リソース共有と弾力性を実現する統一されたリソース管理システムである。
ARL-Tangramは平均ACTを最大4.3$times$で改善し、RLトレーニングのステップ期間を1.5$times$で高速化し、外部リソースを最大71.2$%$で節約する。
論文 参考訳(メタデータ) (2026-03-13T14:25:20Z) - RollArt: Scaling Agentic RL Training via Disaggregated Infrastructure [49.88201789074532]
エージェント強化学習(RL)は、大規模言語モデル(LLM)が自律的な意思決定と長期計画を行うことを可能にする。
分散インフラストラクチャ上でマルチタスクエージェントRLのスループットを最大化する分散システムであるRollArcを提案する。
論文 参考訳(メタデータ) (2025-12-27T11:14:23Z) - RLBoost: Harvesting Preemptible Resources for Cost-Efficient Reinforcement Learning on LLMs [48.94639777633359]
RLBoostは、プリエンプティブルGPUリソースを抽出するコスト効率のよいRLトレーニングのための体系的なソリューションである。
RLBoostはトレーニングのスループットを1.51x-1.97x向上し、オンデマンドGPUリソースのみを使用する場合に比べてコスト効率は28%-49%向上した。
論文 参考訳(メタデータ) (2025-10-22T04:19:37Z) - AgentRL: Scaling Agentic Reinforcement Learning with a Multi-Turn, Multi-Task Framework [76.96794548655292]
大規模言語モデル(LLM)は、オンラインインタラクションを通じて学習できる汎用エージェントの構築への関心が高まっている。
マルチターンでLLMエージェントをトレーニングするために強化学習(RL)を適用することで、スケーラブルなインフラストラクチャと安定したトレーニングアルゴリズムが欠如しているため、マルチタスク設定は依然として困難である。
本稿では、スケーラブルなマルチターンマルチタスクエージェントRLトレーニングのためのAgentRLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-05T13:40:01Z) - AgentFly: Extensible and Scalable Reinforcement Learning for LM Agents [25.735754822676277]
言語モデル(LM)エージェントは、自律的にタスクを完了させる能力において、大きな注目を集めている。
強化学習(RL)は、推論や事実性など、LMの能力を高めるために研究されている。
AgentFlyは、多様なRLアルゴリズムでLMエージェントを強化するために設計されたスケーラブルでエージェント-RLフレームワークである。
論文 参考訳(メタデータ) (2025-07-20T10:22:36Z) - StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation [55.75008325187133]
強化学習(RL)は,大規模言語モデル(LLM)の学習後のコアとなる。
StreamRLは、最初の原則から分離して、2種類のパフォーマンスボトルネックに対処するように設計されている。
実験により、StreamRLは既存の最先端システムと比較してスループットを最大2.66倍改善することが示された。
論文 参考訳(メタデータ) (2025-04-22T14:19:06Z) - Transfer of Reinforcement Learning-Based Controllers from Model- to
Hardware-in-the-Loop [1.8218298349840023]
強化学習は、自律的な訓練エージェントが複雑な制御タスクを実行する大きな可能性を秘めている。
組み込みシステム機能開発においてRLを効果的に利用するには、生成されたエージェントが現実世界のアプリケーションを扱う必要がある。
本研究は,Transfer Learning(TL)とX-in-the-Loop(XiL)シミュレーションを組み合わせることで,RLエージェントのトレーニングプロセスの高速化に重点を置いている。
論文 参考訳(メタデータ) (2023-10-25T09:13:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。