論文の概要: Inverse Reinforcement Learning without Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2303.14623v2
- Date: Tue, 6 Jun 2023 06:02:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 20:15:04.392699
- Title: Inverse Reinforcement Learning without Reinforcement Learning
- Title(参考訳): 強化学習を伴わない逆強化学習
- Authors: Gokul Swamy, Sanjiban Choudhury, J. Andrew Bagnell, Zhiwei Steven Wu
- Abstract要約: 逆強化学習(IRL)は、専門家によるデモンストレーションを合理化する報酬関数の学習を目的としている。
従来のIRL法では、サブルーチンとしてハード強化学習問題を繰り返し解決する必要がある。
我々は、RLの難解な問題を繰り返し解くために、模倣学習の容易な問題を減らした。
- 参考スコア(独自算出の注目度): 39.4969161422156
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Inverse Reinforcement Learning (IRL) is a powerful set of techniques for
imitation learning that aims to learn a reward function that rationalizes
expert demonstrations. Unfortunately, traditional IRL methods suffer from a
computational weakness: they require repeatedly solving a hard reinforcement
learning (RL) problem as a subroutine. This is counter-intuitive from the
viewpoint of reductions: we have reduced the easier problem of imitation
learning to repeatedly solving the harder problem of RL. Another thread of work
has proved that access to the side-information of the distribution of states
where a strong policy spends time can dramatically reduce the sample and
computational complexities of solving an RL problem. In this work, we
demonstrate for the first time a more informed imitation learning reduction
where we utilize the state distribution of the expert to alleviate the global
exploration component of the RL subroutine, providing an exponential speedup in
theory. In practice, we find that we are able to significantly speed up the
prior art on continuous control tasks.
- Abstract(参考訳): 逆強化学習(Inverse Reinforcement Learning、IRL)は、専門家によるデモンストレーションを合理化する報酬関数の学習を目的とした、模倣学習のための強力なテクニックセットである。
残念なことに、従来のIRL法は計算の弱点に悩まされており、サブルーチンとしてハード強化学習(RL)問題を繰り返し解決する必要がある。
これは還元の観点から直観に反する:我々は、模倣学習の簡単な問題をrlのより難しい問題を反復的に解くまで削減した。
別の研究のスレッドは、強いポリシーが時間を費やす状態の分布のサイド情報へのアクセスは、RL問題を解く際のサンプルと計算の複雑さを劇的に減らすことを証明している。
本研究では,RLサブルーチンのグローバル探索成分を緩和し,理論上の指数的高速化を実現するために,専門家の状態分布を利用する,より情報に富んだ模倣学習の削減を初めて示す。
実際、継続的制御タスクの先行技術を大幅にスピードアップすることができることが分かりました。
関連論文リスト
- Reinforcement Learning with Intrinsically Motivated Feedback Graph for Lost-sales Inventory Control [12.832009040635462]
強化学習(Reinforcement Learning, RL)は, インベントリコントロール(IC)領域において, 優れた性能と汎用性があることが証明されている。
オンライン体験は、現実世界のアプリケーションで入手するのに費用がかかる。
オンライン体験は、ICの典型的な失業現象による真の需要を反映していない可能性がある。
論文 参考訳(メタデータ) (2024-06-26T13:52:47Z) - Hybrid Inverse Reinforcement Learning [34.793570631021005]
逆強化学習による模倣学習は 両刃剣である。
我々は、不要な探索を抑えるために、ハイブリッドRL(オンラインデータとエキスパートデータの混合に関するトレーニング)の使用を提案する。
モデルフリーとモデルベースハイブリッド逆RLアルゴリズムの両方を導出し、強力なポリシー性能を保証する。
論文 参考訳(メタデータ) (2024-02-13T23:29:09Z) - The Virtues of Pessimism in Inverse Reinforcement Learning [38.98656220917943]
逆強化学習(Inverse Reinforcement Learning)は、専門家によるデモンストレーションから複雑な振る舞いを学ぶための強力なフレームワークである。
内ループRLにおける専門家のデモンストレーションを活用することにより、探査負担を軽減することが望ましい。
我々は、IRLにおけるRLの高速化のための代替アプローチとして、Emphpessimism、すなわち、オフラインのRLアルゴリズムを用いてインスタンス化された専門家のデータ分布に近づき続けることを考える。
論文 参考訳(メタデータ) (2024-02-04T21:22:29Z) - Toward Computationally Efficient Inverse Reinforcement Learning via
Reward Shaping [42.09724642733125]
この研究は、各RLサブプロブレムの計算負担を軽減するために、ポテンシャルベースの報酬形成の利用を動機付けている。
本研究は概念実証として機能し,計算効率の高いIRLに向けた今後の発展を期待する。
論文 参考訳(メタデータ) (2023-12-15T17:50:18Z) - RvS: What is Essential for Offline RL via Supervised Learning? [77.91045677562802]
近年の研究では、時間差(TD)のない教師あり学習だけでオフラインRLに極めて効果的であることが示されている。
あらゆる環境スイートにおいて、2層フィードフォワードによる可能性の最大化は競争力がある。
彼らはまた、ランダムデータに対して比較的弱い既存のRvS法の限界を探索する。
論文 参考訳(メタデータ) (2021-12-20T18:55:16Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - Exploratory State Representation Learning [63.942632088208505]
本稿では,XSRL(eXploratory State Representation Learning)と呼ばれる新しい手法を提案する。
一方、コンパクトな状態表現と、その表現から不可解な情報を除去するために使用される状態遷移推定器を共同で学習する。
一方、逆モデルを継続的に訓練し、このモデルの予測誤差に$k$-stepの学習促進ボーナスを加え、発見ポリシーの目的を形成する。
論文 参考訳(メタデータ) (2021-09-28T10:11:07Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - On the Theory of Reinforcement Learning with Once-per-Episode Feedback [120.5537226120512]
本稿では,エピソード終盤に一度だけフィードバックを受ける強化学習の理論を紹介する。
これは、学習者が毎回フィードバックを受け取るという従来の要件よりも、現実世界のアプリケーションの代表的です。
論文 参考訳(メタデータ) (2021-05-29T19:48:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。