Fugu-MT 論文翻訳(概要): Safe Imitation Learning via Fast Bayesian Reward Inference from Preferences

論文の概要: Safe Imitation Learning via Fast Bayesian Reward Inference from Preferences

arxiv url: http://arxiv.org/abs/2002.09089v4
Date: Thu, 17 Dec 2020 21:48:13 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-30 00:33:58.786790
Title: Safe Imitation Learning via Fast Bayesian Reward Inference from Preferences
Title（参考訳）: 選好からの高速ベイズ逆流推論による安全な模倣学習
Authors: Daniel S. Brown, Russell Coleman, Ravi Srinivasan, Scott Niekum
Abstract要約: 本研究では,高次元模倣学習問題にスケールする効率のよいベイズ報酬学習アルゴリズムを提案する。ベイジアンREXは、ゲームスコアにアクセスせずにデモからアタリゲームを学べる。ベイジアンREXはまた、最先端の手法と競合する、あるいは優れた模倣学習性能をもたらす。
参考スコア（独自算出の注目度）: 32.246602379810426
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Bayesian reward learning from demonstrations enables rigorous safety and uncertainty analysis when performing imitation learning. However, Bayesian reward learning methods are typically computationally intractable for complex control problems. We propose Bayesian Reward Extrapolation (Bayesian REX), a highly efficient Bayesian reward learning algorithm that scales to high-dimensional imitation learning problems by pre-training a low-dimensional feature encoding via self-supervised tasks and then leveraging preferences over demonstrations to perform fast Bayesian inference. Bayesian REX can learn to play Atari games from demonstrations, without access to the game score and can generate 100,000 samples from the posterior over reward functions in only 5 minutes on a personal laptop. Bayesian REX also results in imitation learning performance that is competitive with or better than state-of-the-art methods that only learn point estimates of the reward function. Finally, Bayesian REX enables efficient high-confidence policy evaluation without having access to samples of the reward function. These high-confidence performance bounds can be used to rank the performance and risk of a variety of evaluation policies and provide a way to detect reward hacking behaviors.
Abstract（参考訳）: デモンストレーションによるベイズ報酬学習は、模倣学習を行う際の厳密な安全性と不確実性分析を可能にする。しかし、ベイジアン報酬学習法は一般に複雑な制御問題に対して計算的に難解である。ベイジアン・リワード補間法(Bayesian Reward Extrapolation, Bayesian REX)を提案する。ベイジアン・リワード学習アルゴリズムは, 自己教師付きタスクによる低次元特徴符号化を事前学習し, 実演よりも好みを生かして高速なベイジアン推定を行う。 Bayesian REXはデモからAtariゲームを学ぶことができ、ゲームスコアにアクセスすることなく、パーソナルラップトップでわずか5分で後部報酬関数から10万のサンプルを生成することができる。ベイジアンREXはまた、報酬関数の点推定のみを学習する最先端の手法と競合するか、それ以上の模倣学習性能をもたらす。最後に、ベイジアンREXは報酬関数のサンプルにアクセスすることなく、効率的な高信頼度ポリシー評価を可能にする。これらの信頼性の高いパフォーマンス境界は、さまざまな評価ポリシーのパフォーマンスとリスクをランク付けし、報酬ハッキング行動を検出する手段を提供するために使用できる。

関連論文リスト

Residual Reward Models for Preference-based Reinforcement Learning [11.797520525358564]
優先度に基づく強化学習(PbRL)は、報酬信号の特定が難しい環境で、高性能なポリシーを学習する方法を提供する。 PbRLは報酬モデルでのトレーニングを必要とするため、収束速度が遅い。本稿では,Residual Reward Model (RRM) を用いた事前知識の有効活用手法を提案する。
論文参考訳（メタデータ） (2025-07-01T09:43:57Z)
Learning to Reason without External Rewards [100.27210579418562]
RLVR(Reinforcement Learning with Verifiable Rewards)による複雑な推論のための大規模言語モデル(LLM)の訓練は、費用がかかるドメイン固有の監督に依存して効果的であるが制限されている。内部フィードバックからの強化学習(Reinforcement Learning from Internal Feedback, RLIF)は、LLMが外部の報酬やラベル付きデータなしで本質的な信号から学習できるフレームワークである。本稿では,モデル自身の信頼度を利用したRLIF手法であるIntuitorについて,その唯一の報奨信号として自己確実性(self-certainty)を提案する。
論文参考訳（メタデータ） (2025-05-26T07:01:06Z)
Non-Adversarial Inverse Reinforcement Learning via Successor Feature Matching [23.600285251963395]
逆強化学習(IRL)では、エージェントは環境との相互作用を通じて専門家のデモンストレーションを再現しようとする。伝統的にIRLは、敵が報酬モデルを探し出し、学習者が繰り返しRL手順で報酬を最適化する対戦ゲームとして扱われる。直接ポリシー最適化によるIRLに対する新しいアプローチを提案し、リターンの線形因数分解を後継特徴の内積および報酬ベクトルとして活用する。
論文参考訳（メタデータ） (2024-11-11T14:05:50Z)
Walking the Values in Bayesian Inverse Reinforcement Learning [66.68997022043075]
ベイズIRLの鍵となる課題は、可能な報酬の仮説空間と可能性の間の計算的ギャップを埋めることである。本稿では,この知見に基づく新しいマルコフ連鎖モンテカルロ法であるValueWalkを提案する。
論文参考訳（メタデータ） (2024-07-15T17:59:52Z)
DreamSmooth: Improving Model-based Reinforcement Learning via Reward Smoothing [60.21269454707625]
DreamSmoothは、与えられたタイミングでの正確な報酬ではなく、時間的に滑らかな報酬を予測することを学ぶ。本研究では,DreamSmoothが長時間のスパース・リワードタスクにおいて最先端のパフォーマンスを達成することを示す。
論文参考訳（メタデータ） (2023-11-02T17:57:38Z)
Kernel Density Bayesian Inverse Reinforcement Learning [5.699034783029326]
逆強化学習(IRL)法は、エージェントの報酬関数を専門家の行動の実証を用いて推定する。この研究は、ベイズIRLを様々な領域に適用できる原理的で理論的に基礎付けられた枠組みを導入している。
論文参考訳（メタデータ） (2023-03-13T03:00:03Z)
Basis for Intentions: Efficient Inverse Reinforcement Learning using Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文参考訳（メタデータ） (2022-08-09T17:29:49Z)
Reward Relabelling for combined Reinforcement and Imitation Learning on sparse-reward tasks [2.0305676256390934]
そこで本稿では, オンライン上で収集した実演とエピソードを, オフ・ポリティクス・アルゴリズムを用いて任意のスパース・リワード環境において活用する手法を提案する。本手法は、実演や成功エピソードに与えられる報酬ボーナスに基づいて、専門家の模倣と自己模倣を奨励する。実験では、ロボット工学の操作、特にシミュレーションにおける6自由度ロボットアームの3つのタスクに焦点を当てた。
論文参考訳（メタデータ） (2022-01-11T08:35:18Z)
Anti-Concentrated Confidence Bonuses for Scalable Exploration [57.91943847134011]
固有の報酬は、探検と探検のトレードオフを扱う上で中心的な役割を果たす。楕円ボーナスを効率的に近似するためのエンファンティ集中型信頼境界を導入する。我々は,Atariベンチマーク上での現代固有の報酬と競合する,深層強化学習のための実用的な変種を開発する。
論文参考訳（メタデータ） (2021-10-21T15:25:15Z)
Replacing Rewards with Examples: Example-Based Policy Search via Recursive Classification [133.20816939521941]
標準的なマルコフ決定プロセス形式では、ユーザーは報酬関数を書き留めてタスクを指定する。多くのシナリオでは、ユーザーはタスクを単語や数字で記述できないが、タスクが解決された場合の世界がどのように見えるかを簡単に示すことができる。この観察に動機づけられた制御アルゴリズムは、成功した結果状態の例だけを考慮すれば、成功する結果につながる確率の高い状態を訪問することを目的としている。
論文参考訳（メタデータ） (2021-03-23T16:19:55Z)
Provably Efficient Reward-Agnostic Navigation with Linear Value Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文参考訳（メタデータ） (2020-08-18T04:34:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。