論文の概要: Learning Reward Functions from Diverse Sources of Human Feedback:
Optimally Integrating Demonstrations and Preferences
- arxiv url: http://arxiv.org/abs/2006.14091v2
- Date: Wed, 4 Aug 2021 07:57:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 09:52:03.529056
- Title: Learning Reward Functions from Diverse Sources of Human Feedback:
Optimally Integrating Demonstrations and Preferences
- Title(参考訳): 多様なフィードバック源からの報酬関数の学習--デモと好みを最適に統合する
- Authors: Erdem B{\i}y{\i}k, Dylan P. Losey, Malayandi Palan, Nicholas C.
Landolfi, Gleb Shevchuk, Dorsa Sadigh
- Abstract要約: 本稿では,複数の情報ソースを統合するためのフレームワークを提案する。
特に,まずユーザデモを利用して報酬関数の信念を初期化するアルゴリズムを提案する。
提案手法は, 理論的に最適であるユーザフレンドリな嗜好クエリを生成するという, 人間のデータ提供能力に寄与する。
- 参考スコア(独自算出の注目度): 14.683631546064932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward functions are a common way to specify the objective of a robot. As
designing reward functions can be extremely challenging, a more promising
approach is to directly learn reward functions from human teachers.
Importantly, data from human teachers can be collected either passively or
actively in a variety of forms: passive data sources include demonstrations,
(e.g., kinesthetic guidance), whereas preferences (e.g., comparative rankings)
are actively elicited. Prior research has independently applied reward learning
to these different data sources. However, there exist many domains where
multiple sources are complementary and expressive. Motivated by this general
problem, we present a framework to integrate multiple sources of information,
which are either passively or actively collected from human users. In
particular, we present an algorithm that first utilizes user demonstrations to
initialize a belief about the reward function, and then actively probes the
user with preference queries to zero-in on their true reward. This algorithm
not only enables us combine multiple data sources, but it also informs the
robot when it should leverage each type of information. Further, our approach
accounts for the human's ability to provide data: yielding user-friendly
preference queries which are also theoretically optimal. Our extensive
simulated experiments and user studies on a Fetch mobile manipulator
demonstrate the superiority and the usability of our integrated framework.
- Abstract(参考訳): リワード関数は、ロボットの目的を特定する一般的な方法である。
報酬関数の設計は非常に難しいため、より有望なアプローチは、報酬関数を直接人間の教師から学ぶことである。
受動的データソースには、デモ(例えば、審美的ガイダンス)が含まれるが、選好(例えば、比較ランク)は、積極的に誘致される。
先行研究は、これらの異なるデータソースに対して、独立して報酬学習を適用した。
しかし、複数のソースが相補的かつ表現豊かである多くのドメインが存在する。
この一般的な問題に触発され,人間のユーザから受動的に,あるいは積極的に収集される複数の情報ソースを統合する枠組みを提案する。
特に、まず、ユーザのデモンストレーションを利用して報奨機能に関する信念を初期化し、その後、ユーザの真の報酬をゼロインに優先クエリで積極的に調査するアルゴリズムを提案する。
このアルゴリズムは、複数のデータソースを組み合わせられるだけでなく、各種類の情報を活用する際にもロボットに通知する。
さらに,提案手法は,理論的に最適であるユーザフレンドリな嗜好クエリを生成するという,人間のデータ提供能力にも寄与する。
Fetchモバイルマニピュレータに関する広範なシミュレーション実験とユーザスタディにより,統合フレームワークの優位性とユーザビリティが示された。
関連論文リスト
- Adaptive Language-Guided Abstraction from Contrastive Explanations [53.48583372522492]
報酬を計算するためにこれらの特徴をどのように使うべきかを決定する前に、環境のどの特徴が関係しているかを決定する必要がある。
連立特徴と報奨学習のためのエンドツーエンドの手法は、しばしば、刺激的な状態特徴に敏感な脆い報酬関数をもたらす。
本稿では,言語モデルを用いて人間に意味のある特徴を反復的に識別するALGAEという手法について述べる。
論文 参考訳(メタデータ) (2024-09-12T16:51:58Z) - Personalizing Reinforcement Learning from Human Feedback with Variational Preference Learning [12.742158403867002]
ヒューマンフィードバックからの強化学習は、基礎モデルを人間の価値観や好みに合わせるための強力なパラダイムである。
現在のRLHF技術は、多様な集団における個人の嗜好の自然に生じる相違を説明できない。
マルチモーダルなRLHF手法のクラスを開発し,多元的アライメントの必要性に対処する。
論文 参考訳(メタデータ) (2024-08-19T15:18:30Z) - A Generalized Acquisition Function for Preference-based Reward Learning [12.158619866176487]
優先度に基づく報酬学習は、ロボットや自律システムに対して、人間がタスクを実行したいと望む方法を教えるための一般的なテクニックである。
従来の研究では、報酬関数パラメータに関する情報獲得を最大化するために、嗜好クエリを積極的に合成することで、データ効率が向上することが示されている。
本研究では, 報酬関数を行動同値クラスまで学習するためには, 行動上の同一ランク付け, 選択上の分布, その他の関連する2つの報酬の類似性の定義などの最適化が可能であることを示す。
論文 参考訳(メタデータ) (2024-03-09T20:32:17Z) - Reinforcement Learning from Passive Data via Latent Intentions [86.4969514480008]
我々は、下流RLを加速する機能を学ぶために、受動的データが引き続き使用できることを示す。
我々のアプローチは、意図をモデル化することで受動的データから学習する。
実験では、クロス・エボディメント・ビデオデータやYouTubeビデオなど、さまざまな形式の受動的データから学習できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:59:05Z) - Learning Preferences for Interactive Autonomy [1.90365714903665]
この論文は、他のより信頼性の高いデータモダリティを用いて、人間のユーザーから報酬関数を学習する試みである。
まず、まず、ペアワイズ比較、ベスト・オブ・マンティ選択、ランキング、スケールされた比較など、さまざまな形態の比較フィードバックを提案し、ロボットがこれらの形態の人間のフィードバックを使って報酬関数を推測する方法を説明する。
論文 参考訳(メタデータ) (2022-10-19T21:34:51Z) - Denoised MDPs: Learning World Models Better Than the World Itself [94.74665254213588]
本研究は,野生の情報を制御可能性と報酬との関係に基づく4つのタイプに分類し,制御性および報酬関連性の両方に有用な情報を定式化する。
DeepMind Control Suite と RoboDesk の変種に関する実験では、生の観測のみを用いた場合よりも、認知された世界モデルの優れた性能が示されている。
論文 参考訳(メタデータ) (2022-06-30T17:59:49Z) - Invariance in Policy Optimisation and Partial Identifiability in Reward
Learning [67.4640841144101]
一般の報奨学習データソースに与えられる報酬関数の部分的識別性を特徴付ける。
また、政策最適化など、下流業務におけるこの部分的識別可能性の影響も分析する。
論文 参考訳(メタデータ) (2022-03-14T20:19:15Z) - Learning Multimodal Rewards from Rankings [7.266985088439535]
私たちは、単調な報酬を学ぶことを超えて、マルチモーダルな報酬関数を学ぶことに重点を置いています。
混合学習問題としてマルチモーダル報酬学習を定式化する。
我々はOpenAIのLunarLanderのマルチタスク版と本物のFetchロボットを用いて実験とユーザスタディを行う。
論文 参考訳(メタデータ) (2021-09-27T01:22:01Z) - Modeling Shared Responses in Neuroimaging Studies through MultiView ICA [94.31804763196116]
被験者の大規模なコホートを含むグループ研究は、脳機能組織に関する一般的な結論を引き出す上で重要である。
グループ研究のための新しい多視点独立成分分析モデルを提案し、各被験者のデータを共有独立音源と雑音の線形結合としてモデル化する。
まず、fMRIデータを用いて、被験者間の共通音源の同定における感度の向上を示す。
論文 参考訳(メタデータ) (2020-06-11T17:29:53Z) - Active Preference-Based Gaussian Process Regression for Reward Learning [42.697198807877925]
一般的なアプローチの1つは、収集された専門家によるデモンストレーションから報酬関数を学ぶことである。
選好に基づく学習手法を提案し、その代替として、人間のフィードバックは軌跡間の比較の形でのみ存在する。
当社のアプローチは、嗜好に基づく学習フレームワークにおいて、柔軟性とデータ非効率の両問題に対処することを可能にする。
論文 参考訳(メタデータ) (2020-05-06T03:29:27Z) - Multi-Center Federated Learning [62.57229809407692]
本稿では,フェデレート学習のための新しい多中心集約機構を提案する。
非IIDユーザデータから複数のグローバルモデルを学び、同時にユーザとセンタ間の最適なマッチングを導出する。
ベンチマークデータセットによる実験結果から,本手法はいくつかの一般的なフェデレーション学習法より優れていることが示された。
論文 参考訳(メタデータ) (2020-05-03T09:14:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。