論文の概要: Tree Training: Accelerating Agentic LLMs Training via Shared Prefix Reuse
- arxiv url: http://arxiv.org/abs/2511.00413v1
- Date: Sat, 01 Nov 2025 05:56:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.762322
- Title: Tree Training: Accelerating Agentic LLMs Training via Shared Prefix Reuse
- Title(参考訳): ツリートレーニング:共有プレフィックスリユースによるエージェントLDMの高速化
- Authors: Shaojie Wang, Jinghui Wang, Yinghan Cui, Xuxing Chen, Chao Wang, Liang Huang, Xiaojiang Zhang, Junyi Peng, Li Wan, Haotian Zhang, Bin Chen,
- Abstract要約: 本研究では,各接頭辞を1回だけ計算し,前後の両方の分岐で中間結果を再利用するパラダイムであるツリートレーニングを提案する。
複数のオープンソースモデルの実験では、総トレーニング時間を3.9倍に削減し、より効率的なLLM SFTおよびRLトレーニングを可能にした。
- 参考スコア(独自算出の注目度): 21.642997639835396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In agentic LLM scenarios, an agent's interaction process during a single rollout often exhibits branching behaviors. Due to memory retrieval and concurrent tool executions at certain decision points, the token trajectory of one task evolves into a tree-like structure rather than a linear sequence. However, current training pipelines decompose such tree-structured trajectories into separate linear segments, treating each branch as an independent sequence. As a result, shared prefixes across these branches are repeatedly recomputed during both forward and backward passes. To address this inefficiency, we propose Tree Training, a paradigm that computes each shared prefix only once and reuses its intermediate results across related branches during both forward and backward passes, substantially improving computation efficiency in large-scale agentic training. This is achieved via (i) Tree Packing, which efficiently reuses shared computations across trajectories, and (ii) Gradient Restoration, which ensures correct gradient propagation across reused prefixes. Experiments on multiple open-source models demonstrate up to 3.9x reduction in total training time, enabling more efficient agentic LLM SFT and RL training.
- Abstract(参考訳): エージェントLDMのシナリオでは、単一のロールアウト中のエージェントのインタラクションプロセスは、しばしば分岐挙動を示す。
メモリの検索とコンカレントツールの実行により、あるタスクのトークンの軌跡は線形シーケンスではなくツリーのような構造へと進化する。
しかし、現在の訓練パイプラインは、これらの木構造軌道を別々の線形セグメントに分解し、各分岐を独立したシーケンスとして扱う。
その結果、これらの分岐をまたいだ共有接頭辞は、前方と後方の両方で繰り返し再計算される。
この非効率性に対処するため,大規模エージェントトレーニングにおける計算効率を大幅に向上させ,各共有プレフィックスを1回だけ計算し,その中間結果を前後の両方の分岐で再利用するパラダイムであるTree Trainingを提案する。
これは、経由する。
一 トラジェクトリ間で共有計算を効率的に再利用するツリーパッキング
(ii)再利用プレフィックス間の適切な勾配伝播を保証するグラディエント復元。
複数のオープンソースモデルの実験では、総トレーニング時間を3.9倍に削減し、より効率的なLLM SFTおよびRLトレーニングを可能にした。
関連論文リスト
- RS-ORT: A Reduced-Space Branch-and-Bound Algorithm for Optimal Regression Trees [2.612627266839037]
MIP(Mixed-integer Programming)は最適な決定木を学習するための強力なフレームワークとして登場した。
連続的な特徴を内在的にバイナライズすることは、グローバルな最適性を犠牲にし、しばしば不必要に深い木を産み出す。
最適回帰木学習を2段階最適化問題として再放送し、RS-ORT(Reduceed-Space Optimal Regression Trees)を提案する。
RS-ORTは木構造変数のみに枝分かれする特殊分岐結合(BB)アルゴリズムである。
論文 参考訳(メタデータ) (2025-10-27T22:17:09Z) - TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling [65.46347858249295]
TreePOは自己誘導型ロールアウトアルゴリズムで、シーケンス生成を木構造検索プロセスとして見る。
TreePOは基本的に、探索の多様性を保存または強化しながら、更新毎の計算負担を削減します。
論文 参考訳(メタデータ) (2025-08-24T16:52:37Z) - TreeLoRA: Efficient Continual Learning via Layer-Wise LoRAs Guided by a Hierarchical Gradient-Similarity Tree [52.44403214958304]
本稿では階層的な勾配の類似性を利用して階層型アダプタを構築する新しい手法であるTreeLoRAを紹介する。
タスク類似度推定の計算負担を軽減するために,より低い信頼度境界に基づくアルゴリズムを開発するために,バンド手法を用いる。
視覚変換器 (ViTs) と大規模言語モデル (LLMs) の両方を用いた実験により, 提案手法の有効性と有効性を示す。
論文 参考訳(メタデータ) (2025-06-12T05:25:35Z) - MALT: Improving Reasoning with Multi-Agent LLM Training [67.76186488361685]
MALT(Multi-Agent LLM Training)は、推論プロセスを生成、検証、改善ステップに分割する、新しいポストトレーニング戦略である。
MATH、GSM8K、CSQAでは、MALTは、それぞれ15.66%、7.42%、9.40%の相対的な改善で同じベースラインLLMを上回っている。
論文 参考訳(メタデータ) (2024-12-02T19:30:36Z) - Optimizing Large Model Training through Overlapped Activation Recomputation [24.28543166026873]
我々は、トレーニングパイプラインにおける通信と重複する再計算によってオーバーヘッドを削減する新しい再計算フレームワークであるLynxを紹介する。
1.3B-23Bパラメータを持つGPTモデルによる包括的評価の結果,Lynxは既存の再計算手法よりも1.37倍高い性能を示した。
論文 参考訳(メタデータ) (2024-06-13T02:31:36Z) - TreeDQN: Learning to minimize Branch-and-Bound tree [78.52895577861327]
Branch-and-Boundは、Mixed Linear Programsという形で最適化タスクを解決するための便利なアプローチである。
解法の効率は、分割する変数を選択するのに使用される分岐に依存する。
分岐を効率的に学習できる強化学習法を提案する。
論文 参考訳(メタデータ) (2023-06-09T14:01:26Z) - Reinforcement Learning for Branch-and-Bound Optimisation using
Retrospective Trajectories [72.15369769265398]
機械学習は分岐のための有望なパラダイムとして登場した。
分岐のための単純かつ効果的なRLアプローチであるレトロ分岐を提案する。
我々は現在最先端のRL分岐アルゴリズムを3~5倍に上回り、500の制約と1000の変数を持つMILP上での最高のILメソッドの性能の20%以内である。
論文 参考訳(メタデータ) (2022-05-28T06:08:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。