論文の概要: A Generalised Inverse Reinforcement Learning Framework
- arxiv url: http://arxiv.org/abs/2105.11812v1
- Date: Tue, 25 May 2021 10:30:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-26 14:01:34.456560
- Title: A Generalised Inverse Reinforcement Learning Framework
- Title(参考訳): 一般化した逆強化学習枠組み
- Authors: Firas Jarboui, Vianney Perchet
- Abstract要約: 逆強化学習(英: inverse Reinforcement Learning、IRL)とは、観測された軌跡に基づいて、あるMDPベースの未知のコスト関数を推定することである。
我々は、(最大エントロピー)IRL問題の修正をもたらす将来の状態により多くの重みを与える代替の訓練損失を導入する。
私たちが考案したアルゴリズムは、複数のOpenAIジム環境において、既製のものよりも優れたパフォーマンス(および類似のトラクタビリティ)を示しました。
- 参考スコア(独自算出の注目度): 24.316047317028147
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The gloabal objective of inverse Reinforcement Learning (IRL) is to estimate
the unknown cost function of some MDP base on observed trajectories generated
by (approximate) optimal policies. The classical approach consists in tuning
this cost function so that associated optimal trajectories (that minimise the
cumulative discounted cost, i.e. the classical RL loss) are 'similar' to the
observed ones. Prior contributions focused on penalising degenerate solutions
and improving algorithmic scalability. Quite orthogonally to them, we question
the pertinence of characterising optimality with respect to the cumulative
discounted cost as it induces an implicit bias against policies with longer
mixing times. State of the art value based RL algorithms circumvent this issue
by solving for the fixed point of the Bellman optimality operator, a stronger
criterion that is not well defined for the inverse problem. To alleviate this
bias in IRL, we introduce an alternative training loss that puts more weights
on future states which yields a reformulation of the (maximum entropy) IRL
problem. The algorithms we devised exhibit enhanced performances (and similar
tractability) than off-the-shelf ones in multiple OpenAI gym environments.
- Abstract(参考訳): 逆強化学習(IRL)のグラビアの目的は、(近似)最適政策によって生成された観測軌道に基づいて、一部のMDPベースの未知のコスト関数を推定することである。
古典的なアプローチはこのコスト関数を調整することで、関連する最適軌道(累積ディスカウントコストを最小化する)を最適化する。
古典的なRL損失は観測値と'類似'である。
以前のコントリビューションは、縮退したソリューションのペナシエーションとアルゴリズムのスケーラビリティの改善に重点を置いていた。
それらに対して極めて直交的に、累積割引コストに関して最適性を特徴づける傾向が、より長い混合時間を持つ政策に対して暗黙の偏見をもたらすことを疑問視する。
アート値に基づくRLアルゴリズムの状態は、逆問題に対して十分に定義されていない強い基準であるベルマン最適性演算子の固定点を解くことでこの問題を回避する。
IRLにおけるこのバイアスを軽減するために、IRL問題(最大エントロピー)の修正をもたらす将来の状態により多くの重みを与える代替のトレーニング損失を導入する。
私たちが考案したアルゴリズムは、複数のopenai体育館環境において、既製のものよりも性能が向上(および類似性)している。
関連論文リスト
- Zeroth-Order Policy Gradient for Reinforcement Learning from Human
Feedback without Reward Inference [17.76565371753346]
本稿では,報酬推論を伴わない2つのRLHFアルゴリズムを提案する。
鍵となる考え方は、人間の嗜好と異なる局所値関数を推定し、ゼロ階勾配近似器でポリシー勾配を近似することである。
以上の結果から,報酬推論なしで一般RLHF問題の解法が確立できることが示唆された。
論文 参考訳(メタデータ) (2024-09-25T22:20:11Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Delayed Geometric Discounts: An Alternative Criterion for Reinforcement
Learning [1.52292571922932]
強化学習(RL)は、最適行動を学ぶ理論的背景を提案する。
実際には、RLアルゴリズムはこの最適性を評価するために幾何割引に依存する。
本稿では,遅延対象関数の族による割引問題定式化を一般化することにより,これらの問題に対処する。
論文 参考訳(メタデータ) (2022-09-26T07:49:38Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z) - Anti-Concentrated Confidence Bonuses for Scalable Exploration [57.91943847134011]
固有の報酬は、探検と探検のトレードオフを扱う上で中心的な役割を果たす。
楕円ボーナスを効率的に近似するためのエンファンティ集中型信頼境界を導入する。
我々は,Atariベンチマーク上での現代固有の報酬と競合する,深層強化学習のための実用的な変種を開発する。
論文 参考訳(メタデータ) (2021-10-21T15:25:15Z) - Beyond variance reduction: Understanding the true impact of baselines on
policy optimization [24.09670734037029]
学習力学は損失関数の曲率と勾配推定の雑音によって制御されることを示す。
我々は,少なくとも包帯問題では,曲率や雑音が学習力学を説明するのに十分でないことを示す理論的結果を示す。
論文 参考訳(メタデータ) (2020-08-31T17:52:09Z) - Towards Tractable Optimism in Model-Based Reinforcement Learning [37.51073590932658]
成功させるためには、楽観的なRLアルゴリズムは真の値関数(最適化)を過大に見積もる必要があるが、不正確な(推定誤差)ほどではない。
我々は,これらのスケーラブルな楽観的モデルベースアルゴリズムを,トラクタブルノイズ拡張MDPの解法として再解釈する。
この誤差が低減された場合、楽観的なモデルベースRLアルゴリズムは、連続制御問題における最先端性能と一致することを示す。
論文 参考訳(メタデータ) (2020-06-21T20:53:19Z) - Optimistic Policy Optimization with Bandit Feedback [70.75568142146493]
我々は,事前の報奨を後悔する$tilde O(sqrtS2 A H4 K)を定め,楽観的な信頼領域ポリシー最適化(TRPO)アルゴリズムを提案する。
我々の知る限り、この2つの結果は、未知の遷移と帯域幅フィードバックを持つポリシー最適化アルゴリズムにおいて得られた最初のサブ線形後悔境界である。
論文 参考訳(メタデータ) (2020-02-19T15:41:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。