論文の概要: Tight Performance Guarantees of Imitator Policies with Continuous
Actions
- arxiv url: http://arxiv.org/abs/2212.03922v1
- Date: Wed, 7 Dec 2022 19:32:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 15:59:32.970249
- Title: Tight Performance Guarantees of Imitator Policies with Continuous
Actions
- Title(参考訳): 連続行動を考慮したイミテータポリシの高次性能保証
- Authors: Davide Maran, Alberto Maria Metelli, Marcello Restelli
- Abstract要約: 連続行動の場合、模倣者ポリシーの性能に関する理論的保証を提供する。
ノイズインジェクション(ノイズインジェクション)は、ノイズカーネルの適用後の環境において、エキスパートアクションが実行される一般的な手法である。
- 参考スコア(独自算出の注目度): 45.3190496371625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Behavioral Cloning (BC) aims at learning a policy that mimics the behavior
demonstrated by an expert. The current theoretical understanding of BC is
limited to the case of finite actions. In this paper, we study BC with the goal
of providing theoretical guarantees on the performance of the imitator policy
in the case of continuous actions. We start by deriving a novel bound on the
performance gap based on Wasserstein distance, applicable for continuous-action
experts, holding under the assumption that the value function is Lipschitz
continuous. Since this latter condition is hardy fulfilled in practice, even
for Lipschitz Markov Decision Processes and policies, we propose a relaxed
setting, proving that value function is always Holder continuous. This result
is of independent interest and allows obtaining in BC a general bound for the
performance of the imitator policy. Finally, we analyze noise injection, a
common practice in which the expert action is executed in the environment after
the application of a noise kernel. We show that this practice allows deriving
stronger performance guarantees, at the price of a bias due to the noise
addition.
- Abstract(参考訳): 行動クローニング(bc)は、専門家が示す行動を模倣するポリシーを学ぶことを目的としている。
BC の現在の理論的理解は有限作用の場合に限定される。
本稿では,継続行動の場合の模倣者政策の性能に関する理論的保証を提供することを目的として,bcを考察する。
我々は、値関数がリプシッツ連続であるという仮定の下で、連続作用の専門家に適用可能なワッサーシュタイン距離に基づく性能ギャップに縛られる小説を導出することから始める。
この後者の条件は実際は困難であり、リプシッツマルコフ決定過程やポリシーに対しても、値関数が常にホルダー連続であることを証明する緩和された設定を提案する。
この結果は独立利害関係であり、bc では模倣者政策の実行に一般的な拘束力を得ることができる。
最後に、ノイズインジェクション(ノイズカーネルの適用後の環境において、エキスパートアクションが実行される一般的なプラクティス)を分析する。
この手法は,ノイズ付加によるバイアスを伴って,より強力な性能保証を導出することができることを示す。
関連論文リスト
- Solving Non-Rectangular Reward-Robust MDPs via Frequency Regularization [39.740287682191884]
ロバストマルコフ決定過程(RMDP)では、報酬と遷移ダイナミクスは与えられた不確実性集合にあると仮定される。
このいわゆる長方性条件は、単に計算上の問題によって動機付けられている。
政策段階の手法を導入し,その収束性を証明する。
論文 参考訳(メタデータ) (2023-09-03T07:34:26Z) - Wasserstein Actor-Critic: Directed Exploration via Optimism for
Continuous-Actions Control [41.7453231409493]
Wasserstein Actor-Critic (WAC) は、Wasserstein Q-Learning (WQL) citepwqlにインスパイアされたアクター批判アーキテクチャである。
WACは、Q値の推定値の上限を最適化してポリシー学習プロセスを導くことによって、原則的な方法で探索を実施する。
論文 参考訳(メタデータ) (2023-03-04T10:52:20Z) - Hallucinated Adversarial Control for Conservative Offline Policy
Evaluation [64.94009515033984]
本研究では,環境相互作用のオフラインデータセットが与えられた場合,政策のパフォーマンスを低く抑えることを目的とした,保守的非政治評価(COPE)の課題について検討する。
本稿では,遷移力学の不確実性を考慮した学習モデルに基づくHAMBOを紹介する。
結果のCOPE推定値が妥当な下界であることを証明し、正則性条件下では、真に期待された戻り値への収束を示す。
論文 参考訳(メタデータ) (2023-03-02T08:57:35Z) - Kernel Conditional Moment Constraints for Confounding Robust Inference [22.816690686310714]
本研究では,非保守的共同設立者を対象に,オフラインの文脈的盗賊の政策評価について検討した。
政策値のシャープな下限を提供する一般推定器を提案する。
論文 参考訳(メタデータ) (2023-02-26T16:44:13Z) - Anytime-valid off-policy inference for contextual bandits [34.721189269616175]
コンテキストバンディットアルゴリズムは、観測されたコンテキストを$X_t$からアクションにマッピングする。
データの収集に使われたロギングポリシーと異なる仮説的ポリシーの特性を推定することは、しばしば関心がある。
我々は、過去の作業で不要な条件を緩和するOPE推論のための包括的なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-19T17:57:53Z) - Robust and Adaptive Temporal-Difference Learning Using An Ensemble of
Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。
OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。
1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文 参考訳(メタデータ) (2021-12-01T23:15:09Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Learning Robust Feedback Policies from Demonstrations [9.34612743192798]
閉ループ性能と境界(逆)摂動に対する堅牢性に関する実証可能な保証を示すフィードバック制御ポリシーを学ぶための新しいフレームワークを提案し、分析する。
これらのポリシーは、タスクやコスト関数、システムダイナミクスに関する事前知識のない専門家によるデモンストレーションから学習される。
論文 参考訳(メタデータ) (2021-03-30T19:11:05Z) - Lipschitzness Is All You Need To Tame Off-policy Generative Adversarial
Imitation Learning [52.50288418639075]
本稿では,非政治的生成的対人模倣学習の事例について考察する。
学習した報酬関数を局所的なリプシッツ連続関数に強制することは、その手法がうまく動作するための正準非条件であることを示す。
論文 参考訳(メタデータ) (2020-06-28T20:55:31Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。