論文の概要: Generalized Early Stopping in Evolutionary Direct Policy Search
- arxiv url: http://arxiv.org/abs/2308.03574v1
- Date: Mon, 7 Aug 2023 13:25:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 13:33:07.922200
- Title: Generalized Early Stopping in Evolutionary Direct Policy Search
- Title(参考訳): 進化的直接政策探索における一般化早期停止
- Authors: Etor Arza, Leni K. Le Goff and Emma Hart
- Abstract要約: 直接ポリシー探索の早期停止手法が最大75%の時間を節約できることを示す。
提案手法は各段階における目的値のみを考察し,問題固有の知識を必要としない。
ゲーム,ロボティクス,古典的な制御領域から引き出された5つの直接的なポリシー探索環境において,導入した停止基準を検証した。
- 参考スコア(独自算出の注目度): 0.5801044612920815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lengthy evaluation times are common in many optimization problems such as
direct policy search tasks, especially when they involve conducting evaluations
in the physical world, e.g. in robotics applications. Often, when evaluating a
solution over a fixed time period, it becomes clear that the objective value
will not increase with additional computation time (for example, when a
two-wheeled robot continuously spins on the spot). In such cases, it makes
sense to stop the evaluation early to save computation time. However, most
approaches to stop the evaluation are problem-specific and need to be
specifically designed for the task at hand. Therefore, we propose an early
stopping method for direct policy search. The proposed method only looks at the
objective value at each time step and requires no problem-specific knowledge.
We test the introduced stopping criterion in five direct policy search
environments drawn from games, robotics, and classic control domains, and show
that it can save up to 75% of the computation time. We also compare it with
problem-specific stopping criteria and demonstrate that it performs comparably
while being more generally applicable.
- Abstract(参考訳): 長い評価時間は、直接ポリシー探索タスクのような多くの最適化問題、特にロボット工学の応用など、物理世界における評価の実行に関わる場合において一般的である。
多くの場合、一定期間にわたって解を評価すると、計算時間を増やすことで目的値が上昇しないことが明らかになる(例えば、2輪ロボットがその場で継続的に回転する場合)。
このような場合、計算時間を短縮するために評価を早期に停止することは理にかなっている。
しかしながら、評価を止めるためのほとんどのアプローチは問題に特化しており、目の前のタスクのために特別に設計する必要がある。
そこで本研究では,政策検索の早期停止手法を提案する。
提案手法は,各ステップの目的値のみを考察し,問題固有の知識を必要としない。
ゲーム,ロボティクス,古典的な制御領域から引き出された5つの直接的なポリシー探索環境における停止基準を検証し,最大75%の計算時間を節約できることを示す。
また,問題固有の停止基準と比較し,より汎用的に適用しながら,比較可能な性能を示す。
関連論文リスト
- Exploratory Optimal Stopping: A Singular Control Formulation [2.7309692684728613]
強化学習の観点から,連続時間と状態空間の最適停止問題について検討する。
乱数停止時間の累積残エントロピーをペナル化することにより、問題の正規化版を導入する。
実オプション問題の特定の場合には、正規化問題に対する半明示的な解を導出する。
論文 参考訳(メタデータ) (2024-08-18T02:31:55Z) - BayRnTune: Adaptive Bayesian Domain Randomization via Strategic
Fine-tuning [30.753772054098526]
ドメインランダム化(DR)は、ランダム化されたダイナミクスによるポリシーのトレーニングを必要とする。
BayRnTuneは、これまで学んだポリシーを微調整することによって、学習プロセスの大幅な高速化を目指している。
論文 参考訳(メタデータ) (2023-10-16T17:32:23Z) - Evaluating Machine Unlearning via Epistemic Uncertainty [78.27542864367821]
本研究では,不確実性に基づく機械学習アルゴリズムの評価を行う。
これは私たちの最良の知識の一般的な評価の最初の定義です。
論文 参考訳(メタデータ) (2022-08-23T09:37:31Z) - C-Planning: An Automatic Curriculum for Learning Goal-Reaching Tasks [133.40619754674066]
ゴール条件強化学習は、ナビゲーションや操作を含む幅広い領域のタスクを解決できる。
本研究では,学習時間における探索を用いて,中間状態を自動生成する遠隔目標獲得タスクを提案する。
E-stepはグラフ検索を用いて最適な経路点列を計画することに対応し、M-stepはそれらの経路点に到達するための目標条件付きポリシーを学習することを目的としている。
論文 参考訳(メタデータ) (2021-10-22T22:05:31Z) - Leveraging Experience in Lazy Search [37.75223642505171]
遅延グラフ探索アルゴリズムは、エッジ評価が計算ボトルネックとなる動き計画問題の解法において効率的である。
我々は,この問題を探索問題の状態に関するマルコフ決定過程 (MDP) として定式化する。
我々は,訓練中にMDPを解くことができる分子セレクタを計算可能であることを示す。
論文 参考訳(メタデータ) (2021-10-10T00:46:44Z) - Optimal To-Do List Gamification for Long Term Planning [0.6882042556551609]
Webやアプリサービスにメソッドを簡単にデプロイできるAPIをリリースしています。
我々は、最適なゲーミフィケーション手法の以前のバージョンを拡張し、すべての処理に十分な時間がない場合に、どのタスクをすべきで、実行すべきでないかを判断するためのサービスを追加します。
本研究では,様々なケーススタディにおいて,値イテレーションを用いて正確に計算したポイントと戦略の性能を比較して,インセンティブ付きTO-DOリストの精度を検証した。
その機能を実証するため、私たちはWebやアプリサービスにメソッドを簡単にデプロイできるAPIをリリースしました。
論文 参考訳(メタデータ) (2021-09-14T08:06:01Z) - Goal-Conditioned Reinforcement Learning with Imagined Subgoals [89.67840168694259]
我々は、複雑なタスクの学習を容易にするために、想像上のサブゴールをポリシー学習に組み込むことを提案する。
想像上のサブゴールは、政策と批判を同時に訓練する独立したハイレベルな政策によって予測される。
複雑なロボットナビゲーションと操作タスクに対する我々のアプローチを評価し、既存の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2021-07-01T15:30:59Z) - Policy Gradient for Continuing Tasks in Non-stationary Markov Decision
Processes [112.38662246621969]
強化学習は、マルコフ決定プロセスにおいて期待される累積報酬を最大化するポリシーを見つけることの問題を考える。
我々は、ポリシーを更新するために上昇方向として使用する値関数の偏りのないナビゲーション勾配を計算する。
ポリシー勾配型アルゴリズムの大きな欠点は、定常性の仮定が課せられない限り、それらがエピソジックなタスクに限定されていることである。
論文 参考訳(メタデータ) (2020-10-16T15:15:42Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - Time-varying Gaussian Process Bandit Optimization with Non-constant
Evaluation Time [93.6788993843846]
非定常評価時間を効果的に処理できる新しい時間変化ベイズ最適化アルゴリズムを提案する。
我々の限界は、評価時間列のパターンが問題の難易度に大きな影響を与えることを決定づける。
論文 参考訳(メタデータ) (2020-03-10T13:28:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。