論文の概要: Policy Gradient with Tree Expansion
- arxiv url: http://arxiv.org/abs/2301.13236v2
- Date: Sun, 25 May 2025 09:24:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:41.203862
- Title: Policy Gradient with Tree Expansion
- Title(参考訳): 木の拡大に伴う政策のグラディエント
- Authors: Gal Dalal, Assaf Hallak, Gugan Thoppe, Shie Mannor, Gal Chechik,
- Abstract要約: 政策勾配法は、大きなばらつきと高いサンプルの複雑さを持つことで有名である。
我々は、計画を採用するソフトマックスの一般化であるSoftTreeMaxを紹介します。
我々は、SoftTreeMaxが勾配のばらつきを3桁に減らすことを示す。
- 参考スコア(独自算出の注目度): 72.10002936187388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Policy gradient methods are notorious for having a large variance and high sample complexity. To mitigate this, we introduce SoftTreeMax -- a generalization of softmax that employs planning. In SoftTreeMax, we extend the traditional logits with the multi-step discounted cumulative reward, topped with the logits of future states. We analyze SoftTreeMax and explain how tree expansion helps to reduce its gradient variance. We prove that the variance depends on the chosen tree-expansion policy. Specifically, we show that the closer the induced transitions are to being state-independent, the stronger the variance decay. With approximate forward models, we prove that the resulting gradient bias diminishes with the approximation error while retaining the same variance reduction. Ours is the first result to bound the gradient bias for an approximate model. In a practical implementation of SoftTreeMax, we utilize a parallel GPU-based simulator for fast and efficient tree expansion. Using this implementation in Atari, we show that SoftTreeMax reduces the gradient variance by three orders of magnitude. This leads to better sample complexity and improved performance compared to distributed PPO.
- Abstract(参考訳): 政策勾配法は、大きなばらつきと高いサンプルの複雑さを持つことで有名である。
これを緩和するために、計画を採用するソフトマックスの一般化であるSoftTreeMaxを紹介します。
SoftTreeMaxでは、複数段階の累積報酬で従来のロジットを拡張し、将来の状態のロジットを上乗せします。
我々はSoftTreeMaxを分析し、木の拡大がその勾配のばらつきを低減するのにどう役立つかを説明する。
変異が選択された木拡大ポリシーに依存することを証明する。
具体的には、誘起遷移が近いほど状態に依存しないことが示され、分散崩壊が強くなる。
近似フォワードモデルでは, 近似誤差により勾配偏差が減少し, 同じ分散低減を維持していることを示す。
我々の結果は、近似モデルに対する勾配バイアスを束縛する最初の結果である。
SoftTreeMaxの実践的な実装では、高速かつ効率的な木拡張のために並列GPUベースのシミュレータを利用する。
Atariにおけるこの実装を用いて、SoftTreeMaxは勾配のばらつきを3桁に減らすことを示す。
これにより、分散PPOよりもサンプリングの複雑さが向上し、パフォーマンスが向上する。
関連論文リスト
- MAPTree: Beating "Optimal" Decision Trees with Bayesian Decision Trees [2.421336072915701]
本稿では,決定木誘導に対するベイズ的アプローチを提案する。
そこで我々は,MAPTreeとよばれるAND/OR探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-26T23:43:37Z) - Bridging Discrete and Backpropagation: Straight-Through and Beyond [62.46558842476455]
本稿では,離散潜在変数の生成に関わるパラメータの勾配を近似する新しい手法を提案する。
本稿では,Hunの手法とODEを解くための2次数値法を統合することで,2次精度を実現するReinMaxを提案する。
論文 参考訳(メタデータ) (2023-04-17T20:59:49Z) - SoftTreeMax: Policy Gradient with Tree Search [72.9513807133171]
我々は、ツリー検索をポリシー勾配に統合する最初のアプローチであるSoftTreeMaxを紹介します。
Atariでは、SoftTreeMaxが分散PPOと比較して、実行時のパフォーマンスを最大5倍向上させる。
論文 参考訳(メタデータ) (2022-09-28T09:55:47Z) - Social Interpretable Tree for Pedestrian Trajectory Prediction [75.81745697967608]
本稿では,このマルチモーダル予測課題に対処するため,SIT(Social Interpretable Tree)と呼ばれる木に基づく手法を提案する。
木の根から葉までの経路は、個々の将来の軌跡を表す。
ETH-UCYとStanford Droneのデータセットによる実験結果からは,手作り木にもかかわらず,我々の手法が最先端の手法の性能に適合または超えることを示した。
論文 参考訳(メタデータ) (2022-05-26T12:18:44Z) - Lassoed Tree Boosting [53.56229983630983]
有界断面変動のカドラー関数の大きな非パラメトリック空間において,早期に停止するn-1/4$ L2の収束速度を持つ勾配向上木アルゴリズムを証明した。
我々の収束証明は、ネストしたドンスカー類の経験的損失最小化子による早期停止に関する新しい一般定理に基づいている。
論文 参考訳(メタデータ) (2022-05-22T00:34:41Z) - Hierarchical Shrinkage: improving the accuracy and interpretability of
tree-based methods [10.289846887751079]
木構造を改変しないポストホックアルゴリズムである階層収縮(Hierarchical Shrinkage, HS)を導入する。
HSは、他の正規化技術と併用しても、決定木の予測性能を大幅に向上させる。
すべてのコードとモデルはGithubにある本格的なパッケージでリリースされている。
論文 参考訳(メタデータ) (2022-02-02T02:43:23Z) - A better method to enforce monotonic constraints in regression and
classification trees [0.0]
回帰木と分類木にモノトン制約を強制する2つの新しい方法を提案する。
1つは現在のLightGBMよりも良い結果をもたらし、同様の計算時間を持つ。
もう1つはより優れた結果をもたらすが、現在のLightGBMよりもずっと遅い。
論文 参考訳(メタデータ) (2020-11-02T14:04:21Z) - An Efficient Adversarial Attack for Tree Ensembles [91.05779257472675]
傾斜促進決定木(DT)や無作為林(RF)などの木に基づくアンサンブルに対する敵対的攻撃
提案手法は,従来のMILP (Mixed-integer linear programming) よりも数千倍高速であることを示す。
私たちのコードはhttps://chong-z/tree-ensemble- attackで利用可能です。
論文 参考訳(メタデータ) (2020-10-22T10:59:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。