論文の概要: Heddle: A Distributed Orchestration System for Agentic RL Rollout
- arxiv url: http://arxiv.org/abs/2603.28101v1
- Date: Mon, 30 Mar 2026 07:01:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.268616
- Title: Heddle: A Distributed Orchestration System for Agentic RL Rollout
- Title(参考訳): Heddle: エージェントRLロールアウトのための分散オーケストレーションシステム
- Authors: Zili Zhang, Yinmin Zhong, Chengxu Yang, Chao Jin, Bingyang Wu, Xinming Wei, Yuliang Liu, Xin Jin,
- Abstract要約: Heddleはエージェントロールアウトの実行を最適化するトラジェクトリ中心のシステムである。
Heddleは、長時間のボトルネックを効果的に中和し、最大2.5$times$高いエンドツーエンドのロールアウトスループットを実現します。
- 参考スコア(独自算出の注目度): 26.439654927366163
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Agentic Reinforcement Learning (RL) enables LLMs to solve complex tasks by alternating between a data-collection rollout phase and a policy training phase. During rollout, the agent generates trajectories, i.e., multi-step interactions between LLMs and external tools. Yet, frequent tool calls induce long-tailed trajectory generation that bottlenecks rollouts. This stems from step-centric designs that ignore trajectory context, triggering three system problems for long-tail trajectory generation: queueing delays, interference overhead, and inflated per-token time. We propose Heddle, a trajectory-centric system to optimize the when, where, and how of agentic rollout execution. Heddle integrates three core mechanisms: trajectory-level scheduling using runtime prediction and progressive priority to minimize cumulative queueing; trajectory-aware placement via presorted dynamic programming and opportunistic migration during idle tool call intervals to minimize interference; and trajectory-adaptive resource manager that dynamically tunes model parallelism to accelerate the per-token time of long-tail trajectories while maintaining high throughput for short trajectories. Evaluations across diverse agentic RL workloads demonstrate that Heddle effectively neutralizes the long-tail bottleneck, achieving up to 2.5$\times$ higher end-to-end rollout throughput compared to state-of-the-art baselines.
- Abstract(参考訳): エージェント強化学習(RL)は,データ収集ロールアウトフェーズとポリシトレーニングフェーズを交互に組み合わせることで,LCMが複雑なタスクを解くことを可能にする。
ロールアウト中、エージェントは、LSMと外部ツール間の多段階の相互作用であるトラジェクトリを生成する。
しかし、頻繁なツールコールはロールアウトをボトルネックにする長い尾の軌道生成を引き起こす。
これは、トラジェクトリコンテキストを無視したステップ中心の設計に由来し、長いテールのトラジェクトリ生成に3つのシステム問題を引き起こす。
我々は,エージェントロールアウト実行のタイミング,場所,方法を最適化する軌道中心システムであるHeddleを提案する。
Heddleは3つのコアメカニズムを統合している: 実行時予測と累積キューの最小化のためのプログレッシブ優先度を用いたトラジェクティブレベルのスケジューリング、Idleツール呼び出し間隔の間隔を最小化するため、プリソートされた動的プログラミングによるトラジェクトリ対応の配置、短いトラジェクトリに対して高いスループットを維持しながら、長いテールトラジェクトリのトーケントタイムを加速するためにモデル並列性を動的にチューニングするトラジェクトリ適応リソースマネージャ。
さまざまなエージェントRLワークロードに対する評価は、Heddleがロングテールボトルネックを効果的に中和し、最先端のベースラインに比べて2.5$\times$高いエンドツーエンドのロールアウトスループットを実現していることを示している。
関連論文リスト
- SortedRL: Accelerating RL Training for LLMs through Online Length-Aware Scheduling [54.276306194000405]
SortedRLを提案する。SortedRLは、強化学習をスケールするためのオンライン長対応スケジューリング戦略である。
SortedRLは、出力長に基づいてロールアウトサンプルをリオーダーし、短いサンプルが早期更新のためにグループを形成することを優先順位付けする。
LLaMA-3.1-8BとQwen-2.5-32Bを論理パズルを含む様々なタスクで実験した結果、SortedRLはRLトレーニングバブル比を50%以上削減することが示された。
論文 参考訳(メタデータ) (2026-03-24T16:48:31Z) - MAGE: Multi-scale Autoregressive Generation for Offline Reinforcement Learning [42.779100789823055]
マルチスケール自動回帰GEnerationに基づくオフラインRL法であるMAGEを提案する。
MAGEは条件付きマルチスケールオートエンコーダを組み込んで階層的軌道表現を学習する。
実験の結果,MAGEはマルチスケールの軌道モデリングと条件付き誘導をうまく統合できることがわかった。
論文 参考訳(メタデータ) (2026-02-27T07:56:33Z) - Alignment in Time: Peak-Aware Orchestration for Long-Horizon Agentic Systems [2.5424331328233207]
APEMO(Affect-aware Peak-End Modulation for Orchestration)をランタイムスケジューリング層として導入する。
APEMOは行動プロキシを通じて軌道不安定を検知し、ピークモーメントや終了といった重要な部分での修復を目標とする。
その結果,時間的制御問題としてアライメントを再構築し,長軸エージェントシステムの開発にレジリエントな工学的経路を提供する。
論文 参考訳(メタデータ) (2026-02-20T00:16:07Z) - DLLM Agent: See Farther, Run Faster [94.74432470237817]
拡散大言語モデル(DLLM)は、自己回帰(AR)デコーディングの代替として、魅力的な効率とモデリング特性を持つ。
我々は、DLLMとARのバックボーンを同一のエージェントワークフロー内でインスタンス化することで、制御された環境でこれを研究する。
DLLMエージェントはARエージェントよりも平均30%以上速く、場合によっては8倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2026-02-07T09:01:18Z) - Seer: Online Context Learning for Fast Synchronous LLM Reinforcement Learning [6.742598086990326]
強化学習(RL)は、現代の大規模言語モデル(LLM)の進展に欠かせないものとなっているが、既存の同期RLシステムは、重大なパフォーマンスボトルネックに直面している。
従来見過ごされていた出力長と生成パターンの類似性を利用して,同じプロンプトを共有することで,これらの課題に対処する新しいオンラインコンテキスト学習システムであるSeerを提案する。
Seer氏は、動的ロードバランシングのための分割ロールアウト、コンテキスト対応スケジューリング、適応的なグループ化された投機的デコーディングの3つの主要なテクニックを紹介している。
論文 参考訳(メタデータ) (2025-11-18T16:12:21Z) - Beat the long tail: Distribution-Aware Speculative Decoding for RL Training [75.75462952580796]
モデル出力を変更することなくRLロールアウトを高速化する分散Aware Speculativeデコーディングフレームワークを提案する。
数学とコード推論タスクの実験は、DASが同一のトレーニング曲線を保ちながらロールアウト時間を最大50%短縮することを示している。
論文 参考訳(メタデータ) (2025-11-17T19:02:12Z) - EARL: Efficient Agentic Reinforcement Learning Systems for Large Language Models [10.372430331898608]
強化学習(RL)は,大規模言語モデル(LLM)のポストトレーニングにおいて重要な要素となっている。
本稿では,効率的なエージェントRLのためのスケーラブルなシステムEARLを提案する。
論文 参考訳(メタデータ) (2025-10-07T13:52:51Z) - ActiveVLN: Towards Active Exploration via Multi-Turn RL in Vision-and-Language Navigation [57.399685080574756]
既存のMLLMベースのVLNメソッドは模倣学習(IL)に依存しており、ポストトレーニングにDAggerを使用することが多い。
マルチターンRLによるアクティブな探索を可能にするVLNフレームワークであるActiveVLNを提案する。
実験の結果,ActiveVLN は DAgger ベースと RL ベースのポストトレーニング手法と比較して,IL ベースラインよりも最大の性能向上を実現していることがわかった。
論文 参考訳(メタデータ) (2025-09-16T03:31:46Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。