論文の概要: SoftTreeMax: Policy Gradient with Tree Search
- arxiv url: http://arxiv.org/abs/2209.13966v1
- Date: Wed, 28 Sep 2022 09:55:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 17:39:36.691148
- Title: SoftTreeMax: Policy Gradient with Tree Search
- Title(参考訳): SoftTreeMax: ツリー検索によるポリシーのグラディエント
- Authors: Gal Dalal, Assaf Hallak, Shie Mannor, Gal Chechik
- Abstract要約: 我々は、ツリー検索をポリシー勾配に統合する最初のアプローチであるSoftTreeMaxを紹介します。
Atariでは、SoftTreeMaxが分散PPOと比較して、実行時のパフォーマンスを最大5倍向上させる。
- 参考スコア(独自算出の注目度): 72.9513807133171
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Policy-gradient methods are widely used for learning control policies. They
can be easily distributed to multiple workers and reach state-of-the-art
results in many domains. Unfortunately, they exhibit large variance and
subsequently suffer from high-sample complexity since they aggregate gradients
over entire trajectories. At the other extreme, planning methods, like tree
search, optimize the policy using single-step transitions that consider future
lookahead. These approaches have been mainly considered for value-based
algorithms. Planning-based algorithms require a forward model and are
computationally intensive at each step, but are more sample efficient. In this
work, we introduce SoftTreeMax, the first approach that integrates tree-search
into policy gradient. Traditionally, gradients are computed for single
state-action pairs. Instead, our tree-based policy structure leverages all
gradients at the tree leaves in each environment step. This allows us to reduce
the variance of gradients by three orders of magnitude and to benefit from
better sample complexity compared with standard policy gradient. On Atari,
SoftTreeMax demonstrates up to 5x better performance in faster run-time
compared with distributed PPO.
- Abstract(参考訳): 政策段階の手法は、制御ポリシーの学習に広く用いられている。
それらは複数のワーカーに簡単に配布でき、多くのドメインで最先端の結果に到達できる。
残念なことに、それらは大きなばらつきを示し、その後、軌道全体にわたって勾配を集約するため、高いサンプル複雑さに苦しむ。
一方、ツリー検索のような計画手法は、将来の展望を考慮した単一ステップの遷移を使ってポリシーを最適化する。
これらのアプローチは、主に値ベースのアルゴリズムのために検討されている。
計画ベースのアルゴリズムはフォワードモデルを必要とし、各ステップで計算集約的だが、よりサンプル効率が高い。
本研究では、木探索をポリシー勾配に統合する最初のアプローチであるSoftTreeMaxを紹介する。
伝統的に、勾配は単一の状態-作用対に対して計算される。
代わりに、木に基づくポリシー構造は、各環境ステップの木の葉におけるすべての勾配を利用しています。
これにより、勾配のばらつきを3桁に減らし、標準の政策勾配と比較してサンプルの複雑さを改善することができる。
Atariでは、SoftTreeMaxが分散PPOと比較して、実行時のパフォーマンスを最大5倍向上させる。
関連論文リスト
- Fast unsupervised ground metric learning with tree-Wasserstein distance [14.235762519615175]
教師なしの地上距離学習アプローチが導入されました
木にサンプルや特徴を埋め込むことでWSV法を強化し,木-ワッサーシュタイン距離(TWD)を計算することを提案する。
我々は、このアルゴリズムが最もよく知られた方法よりも完全なWSVアプローチの近似に収束し、$mathcalO(n3)$複雑さを持つことを理論的かつ経験的に実証する。
論文 参考訳(メタデータ) (2024-11-11T23:21:01Z) - SoftTreeMax: Exponential Variance Reduction in Policy Gradient via Tree
Search [68.66904039405871]
我々は,計画を考慮したソフトマックスの一般化であるSoftTreeMaxを紹介する。
この分散を緩和する上で,木の拡大政策が果たす役割を初めて示す。
我々の分化可能なツリーベースのポリシーは、従来の単一サンプルベースの勾配ではなく、各環境における木の葉のすべての勾配を利用する。
論文 参考訳(メタデータ) (2023-01-30T19:03:14Z) - Unbiased and Efficient Sampling of Dependency Trees [0.0]
ほとんどのツリーバンクは、すべての有効な依存ツリーがROOTノードから出てくる単一のエッジを持つ必要がある。
Zmigrodらは最近、単一ルート依存ツリーの分布から置き換えることなくサンプリングするアルゴリズムを提案している。
我々は、Wilson-RCを置換したサンプリングアルゴリズムが実際にバイアスを受けていることを示す。
論文 参考訳(メタデータ) (2022-05-25T09:57:28Z) - Hierarchical Shrinkage: improving the accuracy and interpretability of
tree-based methods [10.289846887751079]
木構造を改変しないポストホックアルゴリズムである階層収縮(Hierarchical Shrinkage, HS)を導入する。
HSは、他の正規化技術と併用しても、決定木の予測性能を大幅に向上させる。
すべてのコードとモデルはGithubにある本格的なパッケージでリリースされている。
論文 参考訳(メタデータ) (2022-02-02T02:43:23Z) - Planning and Learning with Adaptive Lookahead [74.39132848733847]
ポリシーイテレーション(PI)アルゴリズムは、欲求の一段階の改善と政策評価を交互に行う。
近年の文献では、複数段階のルックアヘッドポリシーの改善が、イテレーション毎の複雑さの増加を犠牲にして、よりコンバージェンス率の向上につながることが示されている。
本研究では,多段階の地平線を状態と推定値の関数として動的に適応する手法を初めて提案する。
論文 参考訳(メタデータ) (2022-01-28T20:26:55Z) - Dive into Decision Trees and Forests: A Theoretical Demonstration [0.0]
決定木は"divide-and-conquer"の戦略を使用して、入力機能とラベル間の依存性に関する複雑な問題を小さなものに分割します。
近年, 計算広告, 推薦システム, 情報検索などの性能が大幅に向上している。
論文 参考訳(メタデータ) (2021-01-20T16:47:59Z) - An Efficient Adversarial Attack for Tree Ensembles [91.05779257472675]
傾斜促進決定木(DT)や無作為林(RF)などの木に基づくアンサンブルに対する敵対的攻撃
提案手法は,従来のMILP (Mixed-integer linear programming) よりも数千倍高速であることを示す。
私たちのコードはhttps://chong-z/tree-ensemble- attackで利用可能です。
論文 参考訳(メタデータ) (2020-10-22T10:59:49Z) - MurTree: Optimal Classification Trees via Dynamic Programming and Search [61.817059565926336]
動的プログラミングと探索に基づいて最適な分類木を学習するための新しいアルゴリズムを提案する。
当社のアプローチでは,最先端技術が必要とする時間のごく一部しか使用せず,数万のインスタンスでデータセットを処理することが可能です。
論文 参考訳(メタデータ) (2020-07-24T17:06:55Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。