論文の概要: A Generalized Acquisition Function for Preference-based Reward Learning
- arxiv url: http://arxiv.org/abs/2403.06003v1
- Date: Sat, 9 Mar 2024 20:32:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 11:25:58.834606
- Title: A Generalized Acquisition Function for Preference-based Reward Learning
- Title(参考訳): 選好に基づく報酬学習のための一般化獲得関数
- Authors: Evan Ellis, Gaurav R. Ghosal, Stuart J. Russell, Anca Dragan, Erdem
B{\i}y{\i}k
- Abstract要約: 優先度に基づく報酬学習は、ロボットや自律システムに対して、人間がタスクを実行したいと望む方法を教えるための一般的なテクニックである。
従来の研究では、報酬関数パラメータに関する情報獲得を最大化するために、嗜好クエリを積極的に合成することで、データ効率が向上することが示されている。
本研究では, 報酬関数を行動同値クラスまで学習するためには, 行動上の同一ランク付け, 選択上の分布, その他の関連する2つの報酬の類似性の定義などの最適化が可能であることを示す。
- 参考スコア(独自算出の注目度): 12.158619866176487
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Preference-based reward learning is a popular technique for teaching robots
and autonomous systems how a human user wants them to perform a task. Previous
works have shown that actively synthesizing preference queries to maximize
information gain about the reward function parameters improves data efficiency.
The information gain criterion focuses on precisely identifying all parameters
of the reward function. This can potentially be wasteful as many parameters may
result in the same reward, and many rewards may result in the same behavior in
the downstream tasks. Instead, we show that it is possible to optimize for
learning the reward function up to a behavioral equivalence class, such as
inducing the same ranking over behaviors, distribution over choices, or other
related definitions of what makes two rewards similar. We introduce a tractable
framework that can capture such definitions of similarity. Our experiments in a
synthetic environment, an assistive robotics environment with domain transfer,
and a natural language processing problem with real datasets demonstrate the
superior performance of our querying method over the state-of-the-art
information gain method.
- Abstract(参考訳): 選好に基づく報酬学習は、ロボットや自律システムに対して、人間がタスクを実行する方法を教える一般的なテクニックである。
これまでの研究では、報酬関数パラメータに関する情報獲得を最大化するために、優先クエリを積極的に合成することで、データ効率が向上することが示されている。
情報ゲイン基準は、報酬関数の全てのパラメータを正確に識別することに焦点を当てる。
これは、多くのパラメータが同じ報酬をもたらす可能性があるため、潜在的に無駄になり、多くの報酬が下流タスクで同じ振る舞いをもたらす可能性がある。
その代わりに、行動上の同じランク付け、選択上の分布、その他の関連する2つの報酬の類似性の定義など、行動同値クラスまで、報酬関数を学習するための最適化が可能であることを示す。
類似性の定義を捉えることのできる、抽出可能なフレームワークを導入する。
本研究は,合成環境,ドメイン転送を伴うロボット支援環境,実データを用いた自然言語処理問題において,最先端情報獲得手法よりもクエリ手法が優れていることを示す。
関連論文リスト
- Adaptive Language-Guided Abstraction from Contrastive Explanations [53.48583372522492]
報酬を計算するためにこれらの特徴をどのように使うべきかを決定する前に、環境のどの特徴が関係しているかを決定する必要がある。
連立特徴と報奨学習のためのエンドツーエンドの手法は、しばしば、刺激的な状態特徴に敏感な脆い報酬関数をもたらす。
本稿では,言語モデルを用いて人間に意味のある特徴を反復的に識別するALGAEという手法について述べる。
論文 参考訳(メタデータ) (2024-09-12T16:51:58Z) - A Pattern Language for Machine Learning Tasks [0.0]
我々は客観的関数を学習者の行動に関する制約と見なしている。
動作の中核となるタスクと実装の詳細を分離できる形式的なグラフィカル言語を開発する。
概念実証として、「マニピュレータ」と呼ぶ生成モデルに分類器を変換できる新しいタスクを設計する。
論文 参考訳(メタデータ) (2024-07-02T16:50:27Z) - Pragmatic Feature Preferences: Learning Reward-Relevant Preferences from Human Input [17.131441665935128]
より正確な報酬モデルを学ぶのに有用な例が好まれる理由について,より詳細なデータを抽出する方法を検討する。
本研究は, 実用的特徴嗜好を取り入れることが, より効率的なユーザ適応型報酬学習に有望なアプローチであることが示唆された。
論文 参考訳(メタデータ) (2024-05-23T16:36:16Z) - REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Invariance in Policy Optimisation and Partial Identifiability in Reward
Learning [67.4640841144101]
一般の報奨学習データソースに与えられる報酬関数の部分的識別性を特徴付ける。
また、政策最適化など、下流業務におけるこの部分的識別可能性の影響も分析する。
論文 参考訳(メタデータ) (2022-03-14T20:19:15Z) - Dynamics-Aware Comparison of Learned Reward Functions [21.159457412742356]
報酬関数を学習する能力は、現実世界にインテリジェントエージェントを配置する上で重要な役割を果たす。
リワード関数は通常、最適化されたポリシーの振舞いを考慮することで比較されるが、このアプローチは報酬関数の欠陥を最適化に使用するポリシー探索アルゴリズムのそれと混同する。
そこで我々はDARD(Dynamics-Aware Reward Distance)を提案する。
論文 参考訳(メタデータ) (2022-01-25T03:48:00Z) - Replacing Rewards with Examples: Example-Based Policy Search via
Recursive Classification [133.20816939521941]
標準的なマルコフ決定プロセス形式では、ユーザーは報酬関数を書き留めてタスクを指定する。
多くのシナリオでは、ユーザーはタスクを単語や数字で記述できないが、タスクが解決された場合の世界がどのように見えるかを簡単に示すことができる。
この観察に動機づけられた制御アルゴリズムは、成功した結果状態の例だけを考慮すれば、成功する結果につながる確率の高い状態を訪問することを目的としている。
論文 参考訳(メタデータ) (2021-03-23T16:19:55Z) - Learning Reward Functions from Diverse Sources of Human Feedback:
Optimally Integrating Demonstrations and Preferences [14.683631546064932]
本稿では,複数の情報ソースを統合するためのフレームワークを提案する。
特に,まずユーザデモを利用して報酬関数の信念を初期化するアルゴリズムを提案する。
提案手法は, 理論的に最適であるユーザフレンドリな嗜好クエリを生成するという, 人間のデータ提供能力に寄与する。
論文 参考訳(メタデータ) (2020-06-24T22:45:27Z) - Active Preference-Based Gaussian Process Regression for Reward Learning [42.697198807877925]
一般的なアプローチの1つは、収集された専門家によるデモンストレーションから報酬関数を学ぶことである。
選好に基づく学習手法を提案し、その代替として、人間のフィードバックは軌跡間の比較の形でのみ存在する。
当社のアプローチは、嗜好に基づく学習フレームワークにおいて、柔軟性とデータ非効率の両問題に対処することを可能にする。
論文 参考訳(メタデータ) (2020-05-06T03:29:27Z) - How Useful is Self-Supervised Pretraining for Visual Tasks? [133.1984299177874]
我々は、総合的な合成データセットと下流タスクにまたがる様々な自己教師付きアルゴリズムを評価する。
我々の実験は、利用可能なラベルの数が増えるにつれて、セルフスーパービジョンの有用性がどう変化するかについての洞察を提供する。
論文 参考訳(メタデータ) (2020-03-31T16:03:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。