論文の概要: TreeAdv: Tree-Structured Advantage Redistribution for Group-Based RL
- arxiv url: http://arxiv.org/abs/2601.03703v1
- Date: Wed, 07 Jan 2026 08:42:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.164433
- Title: TreeAdv: Tree-Structured Advantage Redistribution for Group-Based RL
- Title(参考訳): TreeAdv: グループベースRLのためのツリー構造化アドバンテージ再配布
- Authors: Lang Cao, Hui Ruan, Yongqian Li, Peng Chao, Wu Ning, Haonan Song, Renhong Chen, Yitong Li,
- Abstract要約: グループベースの目的を持った強化学習は、複雑な推論タスクで大きな言語モデルを整列するための共通のフレームワークである。
標準GRPOは各ロールアウト軌跡を独立フラットシーケンスとして扱い、全てのトークンに対して単一のシーケンスレベルの利点を割り当てる。
TreeAdvを導入し、グループロールアウトのツリー構造を探索と有利な割り当ての両方に明示する。
- 参考スコア(独自算出の注目度): 7.149629501486536
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning with group-based objectives, such as Group Relative Policy Optimization (GRPO), is a common framework for aligning large language models on complex reasoning tasks. However, standard GRPO treats each rollout trajectory as an independent flat sequence and assigns a single sequence-level advantage to all tokens, which leads to sample inefficiency and a length bias toward verbose, redundant chains of thought without improving logical depth. We introduce TreeAdv (Tree-Structured Advantage Redistribution for Group-Based RL), which makes the tree structure of group rollouts explicit for both exploration and advantage assignment. Specifically, TreeAdv builds a group of trees (a forest) based on an entropy-driven sampling method where each tree branches at high-uncertainty decisions while sharing low-uncertainty tokens across rollouts. Then, TreeAdv aggregates token-level advantages for internal tree segments by redistributing the advantages of complete rollouts (all leaf nodes), and TreeAdv can easily apply to group-based objectives such as GRPO or GSPO. Across 10 math reasoning benchmarks, TreeAdv consistently outperforms GRPO and GSPO, while using substantially fewer generated tokens under identical supervision, data, and decoding budgets.
- Abstract(参考訳): グループ相対政策最適化(GRPO)のようなグループベースの目的を持つ強化学習は、複雑な推論タスクにおいて大きな言語モデルを整合させる共通のフレームワークである。
しかし、標準GRPOは各ロールアウト軌跡を独立したフラットシーケンスとして扱い、全てのトークンに単一シーケンスレベルの利点を割り当て、論理的な深さを改善することなく、冗長で冗長な思考の連鎖に対するサンプルの非効率性と長さバイアスをもたらす。
TreeAdv(Tree-Structured Advantage Redistribution for Group-Based RL)を導入し、グループロールアウトのツリー構造を探索と有利な割り当ての両方で明示する。
具体的には、TreeAdvは、エントロピー駆動のサンプリング手法に基づいて、各ツリーが高い不確実性決定で分岐し、ロールアウト全体で低不確実性トークンを共有しながら、ツリーのグループ(森林)を構築する。
そして、TreeAdvは完全なロールアウト(すべての葉ノード)の利点を再分配することで、内部ツリーセグメントのトークンレベルの利点を集約し、TreeAdvはGRPOやGSPOといったグループベースの目的に容易に適用できる。
10の数学推論ベンチマークで、TreeAdvはGRPOとGSPOを一貫して上回り、同じ監督、データ、デコード予算の下で生成されるトークンは極めて少ない。
関連論文リスト
- Tree Search for LLM Agent Reinforcement Learning [23.7084695563981]
Tree-based Group Relative Policy Optimization (Tree-GRPO) は、木探索に基づくグループ化エージェントRL法である。
共通のプレフィックスを共有することで、ツリー検索サンプリングは、達成可能なロールアウトの数を増やす。
木レベルでの相対的政策最適化の目的は、ステップレベルの直接選好学習と同等であることを示す。
論文 参考訳(メタデータ) (2025-09-25T14:37:09Z) - TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling [65.46347858249295]
TreePOは自己誘導型ロールアウトアルゴリズムで、シーケンス生成を木構造検索プロセスとして見る。
TreePOは基本的に、探索の多様性を保存または強化しながら、更新毎の計算負担を削減します。
論文 参考訳(メタデータ) (2025-08-24T16:52:37Z) - GPT-HTree: A Decision Tree Framework Integrating Hierarchical Clustering and Large Language Models for Explainable Classification [0.0]
GPT-HTreeは階層的クラスタリング、決定木、大規模言語モデル(LLM)を組み合わせたフレームワークである。
LLMは、人間可読なクラスタ記述を生成し、実用的な洞察で定量的分析をブリッジすることで、フレームワークを強化します。
論文 参考訳(メタデータ) (2025-01-23T15:18:22Z) - Learning a Decision Tree Algorithm with Transformers [75.96920867382859]
メタ学習によってトレーニングされたトランスフォーマーベースのモデルであるMetaTreeを導入し、強力な決定木を直接生成する。
我々は、多くのデータセットに欲求決定木とグローバルに最適化された決定木の両方を適合させ、MetaTreeを訓練して、強力な一般化性能を実現する木のみを生成する。
論文 参考訳(メタデータ) (2024-02-06T07:40:53Z) - RLET: A Reinforcement Learning Based Approach for Explainable QA with
Entailment Trees [47.745218107037786]
本稿では,強化学習に基づくEntailment Tree生成フレームワークであるRLETを提案する。
RLETは文の選択と推論生成モジュールによる単一ステップ推論を反復的に行う。
EntailmentBankデータセットの3つの設定の実験では、RLフレームワークを使用することの強みが示されている。
論文 参考訳(メタデータ) (2022-10-31T06:45:05Z) - Robustifying Algorithms of Learning Latent Trees with Vector Variables [92.18777020401484]
Recursive Grouping (RG) と Chow-Liu Recursive Grouping (CLRG) のサンプル複雑性について述べる。
RG,CLRG,Neighbor Joining (NJ) およびSpectral NJ (SNJ) をトラッピングした内積を用いて強化する。
我々は、潜在木の構造学習において、最初の既知のインスタンス依存の不合理性の結果を導出する。
論文 参考訳(メタデータ) (2021-06-02T01:37:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。