論文の概要: AREAL-DTA: Dynamic Tree Attention for Efficient Reinforcement Learning of Large Language Models
- arxiv url: http://arxiv.org/abs/2602.00482v1
- Date: Sat, 31 Jan 2026 03:05:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.213876
- Title: AREAL-DTA: Dynamic Tree Attention for Efficient Reinforcement Learning of Large Language Models
- Title(参考訳): AREAL-DTA:大規模言語モデルの効率的な強化学習のための動的木アテンション
- Authors: Jiarui Zhang, Yuchen Yang, Ran Yan, Zhiyu Mei, Liyuan Zhang, Daifeng Li, Wei Fu, Jiaxuan Gao, Shusheng Xu, Yi Wu, Binhang Yuan,
- Abstract要約: 強化学習(RL)トレーニングにおいて,プレフィックス共有を効率的に活用するために,AREAL-DTAを導入する。
AREAL-DTAは、deep-first-search(DFS)ベースの実行戦略を採用し、前方および後方の両方でロールアウトツリーを動的に横切る。
AREAL-DTAは最大831Times$2$-benchのトレーニングスループットを実現している。
- 参考スコア(独自算出の注目度): 30.413941705590933
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) based post-training for large language models (LLMs) is computationally expensive, as it generates many rollout sequences that could frequently share long token prefixes. Existing RL frameworks usually process these sequences independently, repeatedly recomputing identical prefixes during forward and backward passes during policy model training, leading to substantial inefficiencies in computation and memory usage. Although prefix sharing naturally induces a tree structure over rollouts, prior tree-attention-based solutions rely on fully materialized attention masks and scale poorly in RL settings. In this paper, we introduce AREAL-DTA to efficiently exploit prefix sharing in RL training. AREAL-DTA employs a depth-first-search (DFS)-based execution strategy that dynamically traverses the rollout prefix tree during both forward and backward computation, materializing only a single root-to-leaf path at a time. To further improve scalability, AREAL-DTA incorporates a load-balanced distributed batching mechanism that dynamically constructs and processes prefix trees across multiple GPUs. Across the popular RL post-training workload, AREAL-DTA achieves up to $8.31\times$ in $τ^2$-bench higher training throughput.
- Abstract(参考訳): 大規模言語モデル(LLM)のための強化学習(RL)ベースのポストトレーニングは、長いトークンプレフィックスを頻繁に共有できるロールアウトシーケンスを生成するため、計算コストがかかる。
既存のRLフレームワークは通常、これらのシーケンスを独立に処理し、ポリシーモデルトレーニング中に同じプレフィックスを前後に繰り返し再計算する。
プレフィックス共有はロールアウトよりもツリー構造を自然に引き起こすが、以前のツリーアテンションベースのソリューションは、完全に実体化されたアテンションマスクに依存し、RL設定ではスケールが不十分である。
本稿では,RLトレーニングにおけるプレフィックス共有を効率的に活用するためのAREAL-DTAを提案する。
AREAL-DTAは、deep-first-search(DFS)ベースの実行戦略を採用し、前後の計算でロールアウトプレフィックスツリーを動的に横切る。
スケーラビリティをさらに向上するため、AREAL-DTAには、複数のGPUでプレフィックスツリーを動的に構築、処理するロードバランスの分散バッチ機構が組み込まれている。
AREAL-DTAは、人気のあるRLポストトレーニングワークロード全体にわたって、最大8.31\times$ in $τ^2$-benchのトレーニングスループットを実現している。
関連論文リスト
- RollArt: Scaling Agentic RL Training via Disaggregated Infrastructure [49.88201789074532]
エージェント強化学習(RL)は、大規模言語モデル(LLM)が自律的な意思決定と長期計画を行うことを可能にする。
分散インフラストラクチャ上でマルチタスクエージェントRLのスループットを最大化する分散システムであるRollArcを提案する。
論文 参考訳(メタデータ) (2025-12-27T11:14:23Z) - TreeGRPO: Tree-Advantage GRPO for Online RL Post-Training of Diffusion Models [14.130608036489336]
強化学習(Reinforcement Learning, RL)のポストトレーニングは、生成モデルと人間の嗜好の整合に不可欠であるが、その禁止的な計算コストは、広く普及する上で大きな障壁である。
textbfTreeGRPOは,探索木としてdenoisingプロセスを再キャストすることで,トレーニング効率を劇的に向上させる新しいRLフレームワークである。
論文 参考訳(メタデータ) (2025-12-09T01:17:34Z) - Tree Training: Accelerating Agentic LLMs Training via Shared Prefix Reuse [21.642997639835396]
本研究では,各接頭辞を1回だけ計算し,前後の両方の分岐で中間結果を再利用するパラダイムであるツリートレーニングを提案する。
複数のオープンソースモデルの実験では、総トレーニング時間を3.9倍に削減し、より効率的なLLM SFTおよびRLトレーニングを可能にした。
論文 参考訳(メタデータ) (2025-11-01T05:56:49Z) - RLBoost: Harvesting Preemptible Resources for Cost-Efficient Reinforcement Learning on LLMs [48.94639777633359]
RLBoostは、プリエンプティブルGPUリソースを抽出するコスト効率のよいRLトレーニングのための体系的なソリューションである。
RLBoostはトレーニングのスループットを1.51x-1.97x向上し、オンデマンドGPUリソースのみを使用する場合に比べてコスト効率は28%-49%向上した。
論文 参考訳(メタデータ) (2025-10-22T04:19:37Z) - ActiveVLN: Towards Active Exploration via Multi-Turn RL in Vision-and-Language Navigation [57.399685080574756]
既存のMLLMベースのVLNメソッドは模倣学習(IL)に依存しており、ポストトレーニングにDAggerを使用することが多い。
マルチターンRLによるアクティブな探索を可能にするVLNフレームワークであるActiveVLNを提案する。
実験の結果,ActiveVLN は DAgger ベースと RL ベースのポストトレーニング手法と比較して,IL ベースラインよりも最大の性能向上を実現していることがわかった。
論文 参考訳(メタデータ) (2025-09-16T03:31:46Z) - AReaL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning [23.24949857136035]
強化学習(RL)は、大規模言語モデル(LLM)の訓練において支配的なパラダイムとなっている。
本稿では,完全非同期RLシステムであるAReaLについて述べる。
論文 参考訳(メタデータ) (2025-05-30T07:18:25Z) - StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation [55.75008325187133]
強化学習(RL)は,大規模言語モデル(LLM)の学習後のコアとなる。
StreamRLは、最初の原則から分離して、2種類のパフォーマンスボトルネックに対処するように設計されている。
実験により、StreamRLは既存の最先端システムと比較してスループットを最大2.66倍改善することが示された。
論文 参考訳(メタデータ) (2025-04-22T14:19:06Z) - Trajectory Balance with Asynchrony: Decoupling Exploration and Learning for Fast, Scalable LLM Post-Training [71.16258800411696]
強化学習(Reinforcement Learning, RL)は、大規模言語モデル(LLM)のポストトレーニングにおいて重要な要素である。
ポストトレーニングに使われている既存のオンラインアルゴリズムは、経験的リプレイバッファの使用と本質的に相容れない。
本稿では,TBA(Trajectory Balance with Asynchrony)によるバッファの再生を効率よく行うことを提案する。
論文 参考訳(メタデータ) (2025-03-24T17:51:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。