Fugu-MT 論文翻訳(概要): TreeAdv: Tree-Structured Advantage Redistribution for Group-Based RL

論文の概要: TreeAdv: Tree-Structured Advantage Redistribution for Group-Based RL

arxiv url: http://arxiv.org/abs/2601.03703v1
Date: Wed, 07 Jan 2026 08:42:14 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-08 18:12:46.164433
Title: TreeAdv: Tree-Structured Advantage Redistribution for Group-Based RL
Title（参考訳）: TreeAdv: グループベースRLのためのツリー構造化アドバンテージ再配布
Authors: Lang Cao, Hui Ruan, Yongqian Li, Peng Chao, Wu Ning, Haonan Song, Renhong Chen, Yitong Li,
Abstract要約: グループベースの目的を持った強化学習は、複雑な推論タスクで大きな言語モデルを整列するための共通のフレームワークである。標準GRPOは各ロールアウト軌跡を独立フラットシーケンスとして扱い、全てのトークンに対して単一のシーケンスレベルの利点を割り当てる。 TreeAdvを導入し、グループロールアウトのツリー構造を探索と有利な割り当ての両方に明示する。
参考スコア（独自算出の注目度）: 7.149629501486536
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement learning with group-based objectives, such as Group Relative Policy Optimization (GRPO), is a common framework for aligning large language models on complex reasoning tasks. However, standard GRPO treats each rollout trajectory as an independent flat sequence and assigns a single sequence-level advantage to all tokens, which leads to sample inefficiency and a length bias toward verbose, redundant chains of thought without improving logical depth. We introduce TreeAdv (Tree-Structured Advantage Redistribution for Group-Based RL), which makes the tree structure of group rollouts explicit for both exploration and advantage assignment. Specifically, TreeAdv builds a group of trees (a forest) based on an entropy-driven sampling method where each tree branches at high-uncertainty decisions while sharing low-uncertainty tokens across rollouts. Then, TreeAdv aggregates token-level advantages for internal tree segments by redistributing the advantages of complete rollouts (all leaf nodes), and TreeAdv can easily apply to group-based objectives such as GRPO or GSPO. Across 10 math reasoning benchmarks, TreeAdv consistently outperforms GRPO and GSPO, while using substantially fewer generated tokens under identical supervision, data, and decoding budgets.
Abstract（参考訳）: グループ相対政策最適化(GRPO)のようなグループベースの目的を持つ強化学習は、複雑な推論タスクにおいて大きな言語モデルを整合させる共通のフレームワークである。しかし、標準GRPOは各ロールアウト軌跡を独立したフラットシーケンスとして扱い、全てのトークンに単一シーケンスレベルの利点を割り当て、論理的な深さを改善することなく、冗長で冗長な思考の連鎖に対するサンプルの非効率性と長さバイアスをもたらす。 TreeAdv(Tree-Structured Advantage Redistribution for Group-Based RL)を導入し、グループロールアウトのツリー構造を探索と有利な割り当ての両方で明示する。具体的には、TreeAdvは、エントロピー駆動のサンプリング手法に基づいて、各ツリーが高い不確実性決定で分岐し、ロールアウト全体で低不確実性トークンを共有しながら、ツリーのグループ(森林)を構築する。そして、TreeAdvは完全なロールアウト(すべての葉ノード)の利点を再分配することで、内部ツリーセグメントのトークンレベルの利点を集約し、TreeAdvはGRPOやGSPOといったグループベースの目的に容易に適用できる。 10の数学推論ベンチマークで、TreeAdvはGRPOとGSPOを一貫して上回り、同じ監督、データ、デコード予算の下で生成されるトークンは極めて少ない。

関連論文リスト

TreePS-RAG: Tree-based Process Supervision for Reinforcement Learning in Agentic RAG [71.06073770344732]
エージェント検索強化生成(RAG)は、推論と情報検索の多段階的な相互作用として質問応答を定式化する。エージェントRAGのためのオンラインツリーベースRLフレームワークであるTreePS-RAGについて述べる。
論文参考訳（メタデータ） (2026-01-11T14:07:30Z)
Tree Search for LLM Agent Reinforcement Learning [23.7084695563981]
Tree-based Group Relative Policy Optimization (Tree-GRPO) は、木探索に基づくグループ化エージェントRL法である。共通のプレフィックスを共有することで、ツリー検索サンプリングは、達成可能なロールアウトの数を増やす。木レベルでの相対的政策最適化の目的は、ステップレベルの直接選好学習と同等であることを示す。
論文参考訳（メタデータ） (2025-09-25T14:37:09Z)
TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling [65.46347858249295]
TreePOは自己誘導型ロールアウトアルゴリズムで、シーケンス生成を木構造検索プロセスとして見る。 TreePOは基本的に、探索の多様性を保存または強化しながら、更新毎の計算負担を削減します。
論文参考訳（メタデータ） (2025-08-24T16:52:37Z)
GPT-HTree: A Decision Tree Framework Integrating Hierarchical Clustering and Large Language Models for Explainable Classification [0.0]
GPT-HTreeは階層的クラスタリング、決定木、大規模言語モデル(LLM)を組み合わせたフレームワークである。 LLMは、人間可読なクラスタ記述を生成し、実用的な洞察で定量的分析をブリッジすることで、フレームワークを強化します。
論文参考訳（メタデータ） (2025-01-23T15:18:22Z)
Learning a Decision Tree Algorithm with Transformers [75.96920867382859]
メタ学習によってトレーニングされたトランスフォーマーベースのモデルであるMetaTreeを導入し、強力な決定木を直接生成する。我々は、多くのデータセットに欲求決定木とグローバルに最適化された決定木の両方を適合させ、MetaTreeを訓練して、強力な一般化性能を実現する木のみを生成する。
論文参考訳（メタデータ） (2024-02-06T07:40:53Z)
Hierarchical clustering with dot products recovers hidden tree structure [53.68551192799585]
本稿では,階層構造の回復に着目した凝集クラスタリングアルゴリズムの新しい視点を提案する。クラスタを最大平均点積でマージし、例えば最小距離やクラスタ内分散でマージしないような、標準的なアルゴリズムの単純な変種を推奨する。このアルゴリズムにより得られた木は、汎用確率的グラフィカルモデルの下で、データ中の生成的階層構造をボナフェイド推定することを示した。
論文参考訳（メタデータ） (2023-05-24T11:05:12Z)
RLET: A Reinforcement Learning Based Approach for Explainable QA with Entailment Trees [47.745218107037786]
本稿では,強化学習に基づくEntailment Tree生成フレームワークであるRLETを提案する。 RLETは文の選択と推論生成モジュールによる単一ステップ推論を反復的に行う。 EntailmentBankデータセットの3つの設定の実験では、RLフレームワークを使用することの強みが示されている。
論文参考訳（メタデータ） (2022-10-31T06:45:05Z)
Robustifying Algorithms of Learning Latent Trees with Vector Variables [92.18777020401484]
Recursive Grouping (RG) と Chow-Liu Recursive Grouping (CLRG) のサンプル複雑性について述べる。 RG,CLRG,Neighbor Joining (NJ) およびSpectral NJ (SNJ) をトラッピングした内積を用いて強化する。我々は、潜在木の構造学習において、最初の既知のインスタンス依存の不合理性の結果を導出する。
論文参考訳（メタデータ） (2021-06-02T01:37:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。