論文の概要: Walking the Values in Bayesian Inverse Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2407.10971v1
- Date: Mon, 15 Jul 2024 17:59:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 13:51:02.222956
- Title: Walking the Values in Bayesian Inverse Reinforcement Learning
- Title(参考訳): ベイズ逆強化学習における価値のウォーキング
- Authors: Ondrej Bajgar, Alessandro Abate, Konstantinos Gatsis, Michael A. Osborne,
- Abstract要約: ベイズIRLの鍵となる課題は、可能な報酬の仮説空間と可能性の間の計算的ギャップを埋めることである。
本稿では,この知見に基づく新しいマルコフ連鎖モンテカルロ法であるValueWalkを提案する。
- 参考スコア(独自算出の注目度): 66.68997022043075
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The goal of Bayesian inverse reinforcement learning (IRL) is recovering a posterior distribution over reward functions using a set of demonstrations from an expert optimizing for a reward unknown to the learner. The resulting posterior over rewards can then be used to synthesize an apprentice policy that performs well on the same or a similar task. A key challenge in Bayesian IRL is bridging the computational gap between the hypothesis space of possible rewards and the likelihood, often defined in terms of Q values: vanilla Bayesian IRL needs to solve the costly forward planning problem - going from rewards to the Q values - at every step of the algorithm, which may need to be done thousands of times. We propose to solve this by a simple change: instead of focusing on primarily sampling in the space of rewards, we can focus on primarily working in the space of Q-values, since the computation required to go from Q-values to reward is radically cheaper. Furthermore, this reversion of the computation makes it easy to compute the gradient allowing efficient sampling using Hamiltonian Monte Carlo. We propose ValueWalk - a new Markov chain Monte Carlo method based on this insight - and illustrate its advantages on several tasks.
- Abstract(参考訳): ベイズ逆強化学習(IRL)の目標は、学習者に未知の報酬を最適化する専門家による一連のデモンストレーションを用いて、報酬関数上の後部分布を復元することである。
結果として得られる報酬は、同じまたは同様のタスクでうまく機能する見習いの政策を合成するために使われる。
バニラ・ベイズ的IRLは、報酬からQ値へというコストのかかる計画問題を、何千回も行う必要があるアルゴリズムのすべてのステップで解決する必要がある。
報酬の空間でのサンプリングに焦点をあてるのではなく、Q値から報酬への計算が劇的に安価になるため、主にQ値の空間での作業に焦点を合わせることができる。
さらに、この計算の逆転により、ハミルトンモンテカルロを用いた効率的なサンプリングを可能にする勾配の計算が容易になる。
本稿では,この知見に基づく新しいマルコフ連鎖モンテカルロ法であるValueWalkを提案する。
関連論文リスト
- R3HF: Reward Redistribution for Enhancing Reinforcement Learning from Human Feedback [25.27230140274847]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせるためのパラダイムを提供する。
本稿では,より微細なトークンレベルの報酬配分を容易にするR3HFという新たな報酬分配手法を提案する。
論文 参考訳(メタデータ) (2024-11-13T02:45:21Z) - Bayesian Inverse Reinforcement Learning for Non-Markovian Rewards [7.2933135237680595]
逆強化学習(IRL)は、専門家の行動から報酬関数を推定する問題である。
報酬関数は非マルコフ的であり、報酬機械(RM)のような現在の状態以上のものに依存する。
本稿では,専門家の行動からRMを直接推定するためのベイズIRLフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-20T04:41:54Z) - Q-Probe: A Lightweight Approach to Reward Maximization for Language Models [16.801981347658625]
本稿では,タスク固有報酬関数を最大化するために,事前学習言語モデルを適用するQ-probingという手法を提案する。
高いレベルでは、Q-probingは、微調整のようなより重いアプローチと、少ないショットプロンプトのようなより軽いアプローチの間に位置する。
論文 参考訳(メタデータ) (2024-02-22T16:43:16Z) - Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。
私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。
経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-01T17:10:35Z) - STARC: A General Framework For Quantifying Differences Between Reward
Functions [55.33869271912095]
我々は、STARCメトリックと呼ばれるすべての報酬関数の空間上の擬計量のクラスを提供する。
以上の結果から,STARCは最悪の後悔に対して上界と下界の両方を誘導することがわかった。
また、以前の研究によって提案された報酬指標に関するいくつかの問題も特定します。
論文 参考訳(メタデータ) (2023-09-26T20:31:19Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Learning Long-Term Reward Redistribution via Randomized Return
Decomposition [18.47810850195995]
軌跡フィードバックを用いたエピソード強化学習の問題点について考察する。
これは、エージェントが各軌道の終端で1つの報酬信号しか取得できないような、報酬信号の極端な遅延を指す。
本稿では,代償再分配アルゴリズムであるランダムリターン分解(RRD)を提案する。
論文 参考訳(メタデータ) (2021-11-26T13:23:36Z) - Anti-Concentrated Confidence Bonuses for Scalable Exploration [57.91943847134011]
固有の報酬は、探検と探検のトレードオフを扱う上で中心的な役割を果たす。
楕円ボーナスを効率的に近似するためのエンファンティ集中型信頼境界を導入する。
我々は,Atariベンチマーク上での現代固有の報酬と競合する,深層強化学習のための実用的な変種を開発する。
論文 参考訳(メタデータ) (2021-10-21T15:25:15Z) - Replacing Rewards with Examples: Example-Based Policy Search via
Recursive Classification [133.20816939521941]
標準的なマルコフ決定プロセス形式では、ユーザーは報酬関数を書き留めてタスクを指定する。
多くのシナリオでは、ユーザーはタスクを単語や数字で記述できないが、タスクが解決された場合の世界がどのように見えるかを簡単に示すことができる。
この観察に動機づけられた制御アルゴリズムは、成功した結果状態の例だけを考慮すれば、成功する結果につながる確率の高い状態を訪問することを目的としている。
論文 参考訳(メタデータ) (2021-03-23T16:19:55Z) - Efficient Exploration of Reward Functions in Inverse Reinforcement
Learning via Bayesian Optimization [43.51553742077343]
逆強化学習(IRL)は、価値アライメントやデモからのロボット学習など、さまざまなタスクに関係している。
本稿では,ベイズ最適化IRL(BO-IRL)と呼ばれるIRLフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-17T10:17:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。