論文の概要: Is Inverse Reinforcement Learning Harder than Standard Reinforcement
Learning?
- arxiv url: http://arxiv.org/abs/2312.00054v1
- Date: Wed, 29 Nov 2023 00:09:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 17:23:49.235296
- Title: Is Inverse Reinforcement Learning Harder than Standard Reinforcement
Learning?
- Title(参考訳): 逆強化学習は標準強化学習よりも難しいか?
- Authors: Lei Zhao, Mengdi Wang, Yu Bai
- Abstract要約: 逆強化学習(逆強化学習、英: Inverse Reinforcement Learning、英: Inverse Reinforcement Learning、英: Inverse Reinforcement Learning)は、インテリジェントシステム開発において重要な役割を担う。
本報告では, オフラインおよびオンライン環境におけるIRLの有効利用について, サンプルを用いて検討した。
アプリケーションとして、学習した報酬関数が適切な保証で他のターゲットMDPに転送可能であることを示す。
- 参考スコア(独自算出の注目度): 55.36819597141271
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inverse Reinforcement Learning (IRL) -- the problem of learning reward
functions from demonstrations of an \emph{expert policy} -- plays a critical
role in developing intelligent systems, such as those that understand and
imitate human behavior. While widely used in applications, theoretical
understandings of IRL admit unique challenges and remain less developed
compared with standard RL theory. For example, it remains open how to do IRL
efficiently in standard \emph{offline} settings with pre-collected data, where
states are obtained from a \emph{behavior policy} (which could be the expert
policy itself), and actions are sampled from the expert policy.
This paper provides the first line of results for efficient IRL in vanilla
offline and online settings using polynomial samples and runtime. We first
design a new IRL algorithm for the offline setting, Reward Learning with
Pessimism (RLP), and show that it achieves polynomial sample complexity in
terms of the size of the MDP, a concentrability coefficient between the
behavior policy and the expert policy, and the desired accuracy. Building on
RLP, we further design an algorithm Reward Learning with Exploration (RLE),
which operates in a natural online setting where the learner can both actively
explore the environment and query the expert policy, and obtain a stronger
notion of IRL guarantee from polynomial samples. We establish sample complexity
lower bounds for both settings showing that RLP and RLE are nearly optimal.
Finally, as an application, we show that the learned reward functions can
\emph{transfer} to another target MDP with suitable guarantees when the target
MDP satisfies certain similarity assumptions with the original (source) MDP.
- Abstract(参考訳): 逆強化学習(irl) -- \emph{expert policy}のデモンストレーションから報酬関数を学習する問題 -- は、人間の行動を理解し模倣するなど、インテリジェントなシステムを開発する上で重要な役割を果たす。
応用において広く用いられているが、IRLの理論的理解は固有の課題を認め、標準のRL理論に比べて発展が遅れている。
例えば、標準的な 'emph{offline} 設定でIRLを効率的に行う方法については、事前に収集したデータで、状態は \emph{behavior policy} (これは専門家ポリシーそのものかもしれない)から取得され、アクションは専門家ポリシーからサンプリングされる。
本稿では,バニラのオフラインおよびオンライン設定において,多項式サンプルと実行時を用いた効率的なIRL結果の最初の行を提供する。
まず,オフライン設定のための新しいirlアルゴリズムを設計,ペシミズムによる報酬学習(rlp)を行い,mdpの大きさ,行動方針とエキスパートポリシーとの集中性係数,所望の精度で多項式サンプルの複雑性を達成することを示す。
RLP上に構築したReward Learning with Exploration(RLE)アルゴリズムは,学習者が積極的に環境を探索し,専門家のポリシーを問うことができる自然なオンライン環境で動作し,多項式サンプルからIRL保証というより強力な概念を得る。
rlpとrleがほぼ最適であることを示す両方の設定において、サンプル複雑性の下限を確立する。
最後に、応用として、学習した報酬関数が、元の(ソース)MDPと特定の類似性仮定を満たす場合、適切な保証で、他のターゲットMDPに \emph{transfer} を適用可能であることを示す。
関連論文リスト
- Non-Adversarial Inverse Reinforcement Learning via Successor Feature Matching [23.600285251963395]
逆強化学習(IRL)では、エージェントは環境との相互作用を通じて専門家のデモンストレーションを再現しようとする。
伝統的にIRLは、敵が報酬モデルを探し出し、学習者が繰り返しRL手順で報酬を最適化する対戦ゲームとして扱われる。
直接ポリシー最適化によるIRLに対する新しいアプローチを提案し、リターンの線形因数分解を後継特徴の内積および報酬ベクトルとして活用する。
論文 参考訳(メタデータ) (2024-11-11T14:05:50Z) - Statistical Guarantees for Lifelong Reinforcement Learning using PAC-Bayesian Theory [37.02104729448692]
EPICは生涯強化学習のための新しいアルゴリズムである。
テキストワールドポリシーと呼ばれる共有ポリシの配布を学習し、新しいタスクへの迅速な適応を可能にする。
様々な環境における実験により、EPICは寿命の長いRLにおいて既存の手法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2024-11-01T07:01:28Z) - Fine-Tuning Language Models with Reward Learning on Policy [68.70065254564642]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせる効果的なアプローチとして現れている。
その人気にもかかわらず、(固定された)報酬モデルが不正確な流通に悩まされることがある。
本稿では、政策サンプルを用いて報酬モデルを洗練し、流通を継続する、教師なしのフレームワークであるポリシーに関する報酬学習(RLP)を提案する。
論文 参考訳(メタデータ) (2024-03-28T10:02:10Z) - The Virtues of Pessimism in Inverse Reinforcement Learning [38.98656220917943]
逆強化学習(Inverse Reinforcement Learning)は、専門家によるデモンストレーションから複雑な振る舞いを学ぶための強力なフレームワークである。
内ループRLにおける専門家のデモンストレーションを活用することにより、探査負担を軽減することが望ましい。
我々は、IRLにおけるRLの高速化のための代替アプローチとして、Emphpessimism、すなわち、オフラインのRLアルゴリズムを用いてインスタンス化された専門家のデータ分布に近づき続けることを考える。
論文 参考訳(メタデータ) (2024-02-04T21:22:29Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文 参考訳(メタデータ) (2021-11-03T08:02:48Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z) - Is Pessimism Provably Efficient for Offline RL? [104.00628430454479]
優先度を収集したデータセットに基づいて最適なポリシーを学ぶことを目的としたオフライン強化学習(RL)について検討する。
ペナルティ関数として不確かさ量化器を組み込んだ値反復アルゴリズム(pevi)の悲観的変種を提案する。
論文 参考訳(メタデータ) (2020-12-30T09:06:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。