論文の概要: CLARE: Conservative Model-Based Reward Learning for Offline Inverse
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2302.04782v1
- Date: Thu, 9 Feb 2023 17:16:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-10 15:08:28.352654
- Title: CLARE: Conservative Model-Based Reward Learning for Offline Inverse
Reinforcement Learning
- Title(参考訳): clare:オフライン逆強化学習のためのモデルベース報酬学習
- Authors: Sheng Yue, Guanbo Wang, Wei Shao, Zhaofeng Zhang, Sen Lin, Ju Ren,
Junshan Zhang
- Abstract要約: この研究は、オフライン逆強化学習(IRL)における大きな課題に取り組むことを目的としている。
我々は「保守主義」を学習報酬関数に統合することでオフラインIRLを効率的に解くアルゴリズム(CLARE)を考案した。
我々の理論的分析は、学習した方針と専門家の政策の間のリターンギャップに上限を与える。
- 参考スコア(独自算出の注目度): 26.05184273238923
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work aims to tackle a major challenge in offline Inverse Reinforcement
Learning (IRL), namely the reward extrapolation error, where the learned reward
function may fail to explain the task correctly and misguide the agent in
unseen environments due to the intrinsic covariate shift. Leveraging both
expert data and lower-quality diverse data, we devise a principled algorithm
(namely CLARE) that solves offline IRL efficiently via integrating
"conservatism" into a learned reward function and utilizing an estimated
dynamics model. Our theoretical analysis provides an upper bound on the return
gap between the learned policy and the expert policy, based on which we
characterize the impact of covariate shift by examining subtle two-tier
tradeoffs between the exploitation (on both expert and diverse data) and
exploration (on the estimated dynamics model). We show that CLARE can provably
alleviate the reward extrapolation error by striking the right
exploitation-exploration balance therein. Extensive experiments corroborate the
significant performance gains of CLARE over existing state-of-the-art
algorithms on MuJoCo continuous control tasks (especially with a small offline
dataset), and the learned reward is highly instructive for further learning.
- Abstract(参考訳): 本研究は,オフライン逆強化学習(irl)において,学習報酬関数がタスクを正しく説明できない場合や,内在的な共変量シフトによりエージェントを認識不能な環境で誤動作させる場合の報酬外挿誤差(reward extrapolation error)という大きな課題に取り組むことを目的とした。
専門家データと低品質の多様なデータの両方を活用することで、学習された報酬関数に「保守性」を統合し、推定された力学モデルを利用してオフラインIRLを効率的に解決するアルゴリズム(CLARE)を考案する。
私たちの理論的分析は、学習した政策と専門家の政策の間のリターンギャップの上限を提供し、そこでは、エクスプロイジョン(専門家データと多様なデータの両方)と探索(推定ダイナミクスモデル)の間の微妙な2層トレードオフを調べることによって、共変量シフトの影響を特徴付ける。
CLAREは、適切なエクスプロレーション-探索バランスを打つことで、報酬外挿誤差を確実に軽減できることを示す。
広範な実験は、ムジョコの連続制御タスク(特に小さなオフラインデータセット)における既存の最先端アルゴリズムよりもクレアの大幅なパフォーマンス向上を裏付けるものであり、学習した報酬はさらなる学習のために非常に指導的である。
関連論文リスト
- Non-Adversarial Inverse Reinforcement Learning via Successor Feature Matching [23.600285251963395]
逆強化学習(IRL)では、エージェントは環境との相互作用を通じて専門家のデモンストレーションを再現しようとする。
伝統的にIRLは、敵が報酬モデルを探し出し、学習者が繰り返しRL手順で報酬を最適化する対戦ゲームとして扱われる。
直接ポリシー最適化によるIRLに対する新しいアプローチを提案し、リターンの線形因数分解を後継特徴の内積および報酬ベクトルとして活用する。
論文 参考訳(メタデータ) (2024-11-11T14:05:50Z) - Pessimistic Causal Reinforcement Learning with Mediators for Confounded Offline Data [17.991833729722288]
我々は新しいポリシー学習アルゴリズム PESsimistic CAusal Learning (PESCAL) を提案する。
我々のキーとなる観察は、システム力学における作用の効果を媒介する補助変数を組み込むことで、Q-関数の代わりに媒介物分布関数の下位境界を学習することは十分であるということである。
提案するアルゴリズムの理論的保証とシミュレーションによる有効性の実証、および主要な配車プラットフォームからのオフラインデータセットを利用した実世界の実験を提供する。
論文 参考訳(メタデータ) (2024-03-18T14:51:19Z) - A Simple Solution for Offline Imitation from Observations and Examples
with Possibly Incomplete Trajectories [122.11358440078581]
オフラインの模倣は、任意のインタラクションがコストがかかり、専門家のアクションが利用できない現実世界のシナリオで有用である。
本研究では,タスク固有の専門的状態とタスクに依存しない非専門的状態-アクションペアのみを利用できるMPPを解決するために,観察から学習するトラジェクトリ・アウェア・ラーニング(TAILO)を提案する。
論文 参考訳(メタデータ) (2023-11-02T15:41:09Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Internally Rewarded Reinforcement Learning [22.01249652558878]
政策学習の報奨信号が内部報酬モデルによって生成される強化学習のクラスについて検討する。
提案した報奨関数は,報奨音の影響を低減し,トレーニング過程を一定に安定化させることができることを示す。
論文 参考訳(メタデータ) (2023-02-01T06:25:46Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - On Covariate Shift of Latent Confounders in Imitation and Reinforcement
Learning [69.48387059607387]
模擬・強化学習において,未観測の共同設立者と専門家データを併用することの問題点を考察する。
我々は、外部報酬を伴わずに、確立した専門家データから学ぶことの限界を分析する。
我々は,支援医療とレコメンデーションシステムシミュレーションの課題に挑戦する上で,我々の主張を実証的に検証する。
論文 参考訳(メタデータ) (2021-10-13T07:31:31Z) - f-IRL: Inverse Reinforcement Learning via State Marginal Matching [13.100127636586317]
本稿では,エキスパート状態密度に適合する報酬関数(およびそれに対応するポリシー)を学習する手法を提案する。
本稿では, 勾配勾配勾配から定常報酬関数を復元するアルゴリズムf-IRLを提案する。
提案手法は, サンプル効率と専門トラジェクトリの要求数の観点から, 対向的模倣学習法より優れる。
論文 参考訳(メタデータ) (2020-11-09T19:37:48Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z) - Off-Policy Adversarial Inverse Reinforcement Learning [0.0]
Adversarial Imitation Learning (AIL)は、強化学習(RL)におけるアルゴリズムのクラスである。
本稿では, サンプル効率が良く, 模倣性能も良好であるOff-policy-AIRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-03T16:51:40Z) - DisCor: Corrective Feedback in Reinforcement Learning via Distribution
Correction [96.90215318875859]
ブートストラップに基づくQ-ラーニングアルゴリズムは必ずしも修正フィードバックの恩恵を受けないことを示す。
本稿では,この最適分布に対する近似を計算し,トレーニングに使用する遷移の重み付けに使用する新しいアルゴリズムであるDisCorを提案する。
論文 参考訳(メタデータ) (2020-03-16T16:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。