論文の概要: Generalized Nested Rollout Policy Adaptation with Limited Repetitions
- arxiv url: http://arxiv.org/abs/2401.10420v1
- Date: Thu, 18 Jan 2024 23:19:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 17:20:45.041865
- Title: Generalized Nested Rollout Policy Adaptation with Limited Repetitions
- Title(参考訳): 限定繰り返しによる一般化Nested Rollout Policy Adaptation
- Authors: Tristan Cazenave
- Abstract要約: Generalized Nested Rollout Policy Adaptation (GNRPA) はモンテカルロの探索アルゴリズムである。
我々は,選択の順序が同じであるような決定論的政策を回避することで,GNRPAの改善を提案する。
- 参考スコア(独自算出の注目度): 4.561007128508218
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generalized Nested Rollout Policy Adaptation (GNRPA) is a Monte Carlo search
algorithm for optimizing a sequence of choices. We propose to improve on GNRPA
by avoiding too deterministic policies that find again and again the same
sequence of choices. We do so by limiting the number of repetitions of the best
sequence found at a given level. Experiments show that it improves the
algorithm for three different combinatorial problems: Inverse RNA Folding, the
Traveling Salesman Problem with Time Windows and the Weak Schur problem.
- Abstract(参考訳): 一般化ネステッドロールアウトポリシー適応 (gnrpa) はモンテカルロ探索アルゴリズムであり、選択のシーケンスを最適化する。
我々は,選択の順序が同じであるような決定論的政策を避けることで,GNRPAの改善を提案する。
与えられたレベルにある最良のシーケンスの繰り返し回数を制限することで、そうします。
Inverse RNA Folding, Traveling Salesman Problem with Time Windows, and the Weak Schur problemの3つの異なる組み合わせ問題に対するアルゴリズムの改善が示されている。
関連論文リスト
- Improved Parallel Algorithm for Non-Monotone Submodular Maximization under Knapsack Constraint [0.0]
本研究は,knapsack制約下での非モジュラーサイズに対する効率的な並列アルゴリズムを提案する。
我々のアルゴリズムは, 既存の並列処理を 8+epsilon$ から 7+epsilon$ に改良し, 適応複雑性を$O(log n)$ にする。
論文 参考訳(メタデータ) (2024-09-06T17:17:52Z) - Combinatorial Stochastic-Greedy Bandit [79.1700188160944]
我々は,選択した$n$のアームセットのジョイント報酬以外の余分な情報が観測されない場合に,マルチアームのバンディット問題に対する新規グリーディ・バンディット(SGB)アルゴリズムを提案する。
SGBは最適化された拡張型コミットアプローチを採用しており、ベースアームの大きなセットを持つシナリオ用に特別に設計されている。
論文 参考訳(メタデータ) (2023-12-13T11:08:25Z) - HARRIS: Hybrid Ranking and Regression Forests for Algorithm Selection [75.84584400866254]
両アプローチの強みを両アプローチの弱さを緩和しつつ組み合わせ, 特殊林を利用した新しいアルゴリズムセレクタを提案する。
HARRISの決定は、ハイブリッドランキングと回帰損失関数に基づいて最適化された木を作成する森林モデルに基づいている。
論文 参考訳(メタデータ) (2022-10-31T14:06:11Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Limited depth bandit-based strategy for Monte Carlo planning in
continuous action spaces [4.1208902102156015]
本稿では,階層最適化(HOO)アルゴリズムの限界深度変種であるLD-HOOを提案する。
提案アルゴリズムは,より高速で,よりメモリ効率のよいオリジナルのHOOと同様の累積的後悔を示す。
次に,最適制御問題に対するLD-HOOに基づくモンテカルロ木探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-29T17:30:01Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Optimization Issues in KL-Constrained Approximate Policy Iteration [48.24321346619156]
多くの強化学習アルゴリズムは、近似ポリシー反復(API)のバージョンと見なすことができる。
標準APIはしばしば動作が悪いが、KL-divergenceによる各ポリシー更新を以前のポリシーに正規化することで学習が安定化できることが示されている。
TRPO、MPO、VMPOなどの一般的な実用的なアルゴリズムは、連続ポリシーのKL分割に関する制約によって正規化を置き換える。
論文 参考訳(メタデータ) (2021-02-11T19:35:33Z) - Stabilized Nested Rollout Policy Adaptation [7.715389335184684]
Nested Rollout Policy Adaptation(NRPA)は、モンテカルロのシングルプレイヤーゲームのための検索アルゴリズムです。
アルゴリズムの安定性を向上させるため,NRPAの修正を提案する。
論文 参考訳(メタデータ) (2021-01-10T15:05:14Z) - Generalized Nested Rollout Policy Adaptation [4.38602607138044]
Nested Rollout Policy Adaptation (NRPA) はモンテカルロのシングルプレイヤーゲーム検索アルゴリズムである。
本稿では、NRPAを温度とバイアスで一般化し、理論的にアルゴリズムを分析することを提案する。
論文 参考訳(メタデータ) (2020-03-22T23:12:18Z) - Optimistic Policy Optimization with Bandit Feedback [70.75568142146493]
我々は,事前の報奨を後悔する$tilde O(sqrtS2 A H4 K)を定め,楽観的な信頼領域ポリシー最適化(TRPO)アルゴリズムを提案する。
我々の知る限り、この2つの結果は、未知の遷移と帯域幅フィードバックを持つポリシー最適化アルゴリズムにおいて得られた最初のサブ線形後悔境界である。
論文 参考訳(メタデータ) (2020-02-19T15:41:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。