論文の概要: Benchmarks and Algorithms for Offline Preference-Based Reward Learning
- arxiv url: http://arxiv.org/abs/2301.01392v1
- Date: Tue, 3 Jan 2023 23:52:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 15:14:37.571406
- Title: Benchmarks and Algorithms for Offline Preference-Based Reward Learning
- Title(参考訳): オフライン選好に基づく報酬学習のためのベンチマークとアルゴリズム
- Authors: Daniel Shin, Anca D. Dragan, Daniel S. Brown
- Abstract要約: 本稿では、オフラインデータセットを用いて、プールベースのアクティブラーニングによる嗜好クエリを作成するアプローチを提案する。
提案手法では,報酬学習や政策最適化のステップに対して,実際の物理ロールアウトや正確なシミュレータを必要としない。
- 参考スコア(独自算出の注目度): 41.676208473752425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning a reward function from human preferences is challenging as it
typically requires having a high-fidelity simulator or using expensive and
potentially unsafe actual physical rollouts in the environment. However, in
many tasks the agent might have access to offline data from related tasks in
the same target environment. While offline data is increasingly being used to
aid policy optimization via offline RL, our observation is that it can be a
surprisingly rich source of information for preference learning as well. We
propose an approach that uses an offline dataset to craft preference queries
via pool-based active learning, learns a distribution over reward functions,
and optimizes a corresponding policy via offline RL. Crucially, our proposed
approach does not require actual physical rollouts or an accurate simulator for
either the reward learning or policy optimization steps. To test our approach,
we first evaluate existing offline RL benchmarks for their suitability for
offline reward learning. Surprisingly, for many offline RL domains, we find
that simply using a trivial reward function results good policy performance,
making these domains ill-suited for evaluating learned rewards. To address
this, we identify a subset of existing offline RL benchmarks that are well
suited for offline reward learning and also propose new offline apprenticeship
learning benchmarks which allow for more open-ended behaviors. When evaluated
on this curated set of domains, our empirical results suggest that combining
offline RL with learned human preferences can enable an agent to learn to
perform novel tasks that were not explicitly shown in the offline data.
- Abstract(参考訳): 人間の好みから報酬関数を学ぶことは、通常、高忠実度シミュレーターが必要か、高価な、潜在的に安全でない実際の物理的ロールアウトを使用する必要があるため、難しい。
しかし、多くのタスクでは、エージェントは同じターゲット環境で関連するタスクからオフラインデータにアクセスすることができる。
オフラインデータは、オフラインのRLを通じてポリシーの最適化を支援するためにますます使われていますが、私たちの観察では、プライオリティ学習のための驚くほど豊富な情報ソースになり得るということです。
本稿では,オフラインデータセットを用いてプールベースのアクティブラーニングによる選好クエリを作成し,報奨関数上の分布を学習し,オフラインrlを介して対応するポリシーを最適化する手法を提案する。
重要な点として,提案手法では,報酬学習や政策最適化のステップにおいて,実際の物理ロールアウトや正確なシミュレータを必要としないことが挙げられる。
提案手法をテストするため,既存のオフラインRLベンチマークをオフライン報酬学習に適したものに評価した。
驚くべきことに、多くのオフラインRLドメインでは、簡単な報酬関数を使用することでポリシーのパフォーマンスが向上し、これらのドメインは学習した報酬を評価するのに不適であることがわかった。
これに対処するために,オフライン報酬学習に適した既存のオフラインrlベンチマークのサブセットを特定し,よりオープンな動作を可能にするオフライン見習い学習ベンチマークを提案する。
この実験結果から,オフラインRLと学習された人間の嗜好を組み合わせることで,オフラインデータに明示的に表示されていない新しいタスクをエージェントが学習できるようになることが示唆された。
関連論文リスト
- Preference Elicitation for Offline Reinforcement Learning [59.136381500967744]
オフラインの嗜好に基づく強化学習アルゴリズムであるSim-OPRLを提案する。
本アルゴリズムは,配当外データに対する悲観的アプローチと,最適方針に関する情報的嗜好を得るための楽観的アプローチを用いる。
論文 参考訳(メタデータ) (2024-06-26T15:59:13Z) - Is Value Learning Really the Main Bottleneck in Offline RL? [70.54708989409409]
ポリシー抽出アルゴリズムの選択はオフラインRLの性能とスケーラビリティに大きく影響することを示す。
本稿では,2つの簡易なテスト時ポリシー改善手法を提案し,これらの手法が性能向上につながることを示す。
論文 参考訳(メタデータ) (2024-06-13T17:07:49Z) - Adaptive Policy Learning for Offline-to-Online Reinforcement Learning [27.80266207283246]
我々は、エージェントがオフラインデータセットから最初に学習され、オンラインにトレーニングされたオフライン-オンライン設定について検討する。
オフラインおよびオンラインデータを効果的に活用するためのAdaptive Policy Learningというフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-14T08:13:21Z) - Efficient Online Reinforcement Learning with Offline Data [78.92501185886569]
オンライン学習時にオフラインデータを活用するために、既存のオフライン手法を単純に適用できることを示します。
私たちはこれらの設計選択を広範囲に改善し、パフォーマンスに最も影響を与える重要な要因を示します。
これらのシンプルなレコメンデーションの正しい適用によって、既存のアプローチよりも$mathbf2.5times$の改善が得られます。
論文 参考訳(メタデータ) (2023-02-06T17:30:22Z) - Offline Preference-Based Apprenticeship Learning [11.21888613165599]
我々は、オフラインデータセットを使用して、自律システムが人間から学び、適応し、協力しようとするときに直面する2つの課題に対処する方法について研究する。
まず、オフラインデータセットを使用して、プールベースのアクティブな嗜好学習を通じて、人間の報酬関数を効率的に推測する。
第2に、この学習報酬関数から、推定された人間の意図に基づいてポリシーを最適化するオフライン強化学習を行う。
論文 参考訳(メタデータ) (2021-07-20T04:15:52Z) - Offline Meta-Reinforcement Learning with Online Self-Supervision [66.42016534065276]
適応ポリシをメタトレーニングするための報酬付きオフラインデータを用いたハイブリッドオフラインメタRLアルゴリズムを提案する。
提案手法では,オフラインデータを用いて報酬関数の分布を学習し,さらにオンラインデータに対する自己監督型報酬ラベルにサンプリングする。
追加データと自己生成報酬を用いることで、エージェントの一般化能力が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2021-07-08T17:01:32Z) - Representation Matters: Offline Pretraining for Sequential Decision
Making [27.74988221252854]
本稿では,オフラインデータを逐次意思決定に組み込む手法について考察する。
教師なし学習目標を用いた事前学習は,政策学習アルゴリズムの性能を劇的に向上させることができる。
論文 参考訳(メタデータ) (2021-02-11T02:38:12Z) - OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement
Learning [107.6943868812716]
エージェントは大量のオフライン体験データにアクセスでき、オンライン環境へのアクセスは極めて限られている。
我々の主な洞察は、様々な行動からなるオフラインデータを提示すると、このデータを活用する効果的な方法は、反復的かつ時間的に拡張された原始的行動の連続的な空間を抽出することである。
オフラインポリシ最適化のメリットに加えて,このようなオフラインプリミティブ学習の実施も,数発の模倣学習の改善に有効であることを示す。
論文 参考訳(メタデータ) (2020-10-26T14:31:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。