論文の概要: TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling
- arxiv url: http://arxiv.org/abs/2508.17445v1
- Date: Sun, 24 Aug 2025 16:52:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.528718
- Title: TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling
- Title(参考訳): TreePO: ヒューリスティックツリーベースモデリングによる政策最適化のギャップと効率と推論効率の橋渡し
- Authors: Yizhi Li, Qingshui Gu, Zhoufutu Wen, Ziniu Li, Tianshun Xing, Shuyue Guo, Tianyu Zheng, Xin Zhou, Xingwei Qu, Wangchunshu Zhou, Zheng Zhang, Wei Shen, Qian Liu, Chenghua Lin, Jian Yang, Ge Zhang, Wenhao Huang,
- Abstract要約: TreePOは自己誘導型ロールアウトアルゴリズムで、シーケンス生成を木構造検索プロセスとして見る。
TreePOは基本的に、探索の多様性を保存または強化しながら、更新毎の計算負担を削減します。
- 参考スコア(独自算出の注目度): 65.46347858249295
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advancements in aligning large language models via reinforcement learning have achieved remarkable gains in solving complex reasoning problems, but at the cost of expensive on-policy rollouts and limited exploration of diverse reasoning paths. In this work, we introduce TreePO, involving a self-guided rollout algorithm that views sequence generation as a tree-structured searching process. Composed of dynamic tree sampling policy and fixed-length segment decoding, TreePO leverages local uncertainty to warrant additional branches. By amortizing computation across common prefixes and pruning low-value paths early, TreePO essentially reduces the per-update compute burden while preserving or enhancing exploration diversity. Key contributions include: (1) a segment-wise sampling algorithm that alleviates the KV cache burden through contiguous segments and spawns new branches along with an early-stop mechanism; (2) a tree-based segment-level advantage estimation that considers both global and local proximal policy optimization. and (3) analysis on the effectiveness of probability and quality-driven dynamic divergence and fallback strategy. We empirically validate the performance gain of TreePO on a set reasoning benchmarks and the efficiency saving of GPU hours from 22\% up to 43\% of the sampling design for the trained models, meanwhile showing up to 40\% reduction at trajectory-level and 35\% at token-level sampling compute for the existing models. While offering a free lunch of inference efficiency, TreePO reveals a practical path toward scaling RL-based post-training with fewer samples and less compute. Home page locates at https://m-a-p.ai/TreePO.
- Abstract(参考訳): 近年の強化学習による大規模言語モデルの整合性向上は,複雑な推論問題の解決において顕著な成果を上げている。
本研究では,木構造探索プロセスとしてシーケンス生成を考察する自己誘導型ロールアウトアルゴリズムについて紹介する。
動的ツリーサンプリングポリシーと固定長セグメントデコーディングで構成され、TreePOは局所不確実性を活用して追加ブランチを保証している。
一般的なプレフィックスを越えた計算のアモート化と、早期に低値パスのプルーニングによって、TreePOは基本的に、探索の多様性を維持したり、強化したりしながら、更新毎の計算負担を低減します。
主なコントリビューションは,(1)連続セグメントによるKVキャッシュ負荷を軽減するセグメントワイドサンプリングアルゴリズム,(2)グローバルポリシーと局所ポリシーの両最適化を考慮したツリーベースセグメントレベルの優位性推定である。
そして, 確率および品質駆動型動的分散とフォールバック戦略の有効性について分析した。
一方,既存のモデルのトークンレベルサンプリング計算では,トラジェクトリレベルで最大40%,トークンレベルのサンプリング計算では最大35パーセント,トレーニングモデルで最大40%の削減率を示した。
推論効率の無料ランチを提供する一方で、TreePOはRLベースのポストトレーニングを、少ないサンプルと少ない計算でスケールするための実践的な方法を明らかにしている。
ホームページはhttps://m-a-p.ai/TreePO.orgにある。
関連論文リスト
- Multi-Armed Bandits-Based Optimization of Decision Trees [0.0]
本稿では,マルチアーマッドバンド (MAB) に基づくプルーニング手法,強化学習 (RL) に基づく手法を提案する。
そこで我々はMABアルゴリズムを用いて各プルーニング動作からのフィードバックに基づいて最適な分岐ノードを見つける。
論文 参考訳(メタデータ) (2025-08-08T02:43:45Z) - TreeLoRA: Efficient Continual Learning via Layer-Wise LoRAs Guided by a Hierarchical Gradient-Similarity Tree [52.44403214958304]
本稿では階層的な勾配の類似性を利用して階層型アダプタを構築する新しい手法であるTreeLoRAを紹介する。
タスク類似度推定の計算負担を軽減するために,より低い信頼度境界に基づくアルゴリズムを開発するために,バンド手法を用いる。
視覚変換器 (ViTs) と大規模言語モデル (LLMs) の両方を用いた実験により, 提案手法の有効性と有効性を示す。
論文 参考訳(メタデータ) (2025-06-12T05:25:35Z) - TreeRPO: Tree Relative Policy Optimization [55.97385410074841]
nameは、ツリーサンプリングを用いて、様々な推論ステップで報酬の数学的期待を推定する新しい方法である。
GRPOの集団相対的な報酬訓練機構に基づいて、木サンプリング時に生成されたステップレベルグループに基づいて報酬を革新的に計算する。
論文 参考訳(メタデータ) (2025-06-05T15:56:38Z) - Decision Tree Induction Through LLMs via Semantically-Aware Evolution [53.0367886783772]
遺伝的プログラミング(GP)に基づく決定木誘導のための進化的最適化手法を提案する。
私たちの重要なイノベーションは、セマンティックな事前情報と、検索空間に関するドメイン固有の知識をアルゴリズムに統合することです。
これは、構造化された自然言語プロンプトを扱う新しい遺伝子操作子によって操作される。
論文 参考訳(メタデータ) (2025-03-18T12:52:03Z) - LiteSearch: Efficacious Tree Search for LLM [70.29796112457662]
本研究では,動的ノード選択とノードレベルの探索予算を備えた新しいガイド付き木探索アルゴリズムを提案する。
GSM8KおよびTabMWPデータセットを用いて行った実験により,本手法はベースライン法に比べて計算コストが大幅に低いことを示した。
論文 参考訳(メタデータ) (2024-06-29T05:14:04Z) - Des-q: a quantum algorithm to provably speedup retraining of decision trees [2.7262923206583136]
Des-qは、回帰および二分分類タスクのための決定木を構築し、再訓練するための新しい量子アルゴリズムである。
我々は,複数のデータセット上での最先端の古典的手法に対して,Des-qのシミュレーションバージョンをベンチマークする。
提案アルゴリズムは,最新の決定木に類似した性能を示しながら,周期木再学習を著しく高速化する。
論文 参考訳(メタデータ) (2023-09-18T17:56:08Z) - MurTree: Optimal Classification Trees via Dynamic Programming and Search [61.817059565926336]
動的プログラミングと探索に基づいて最適な分類木を学習するための新しいアルゴリズムを提案する。
当社のアプローチでは,最先端技術が必要とする時間のごく一部しか使用せず,数万のインスタンスでデータセットを処理することが可能です。
論文 参考訳(メタデータ) (2020-07-24T17:06:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。