論文の概要: Active Preference-Based Gaussian Process Regression for Reward Learning
- arxiv url: http://arxiv.org/abs/2005.02575v2
- Date: Wed, 3 Jun 2020 23:08:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 05:16:01.937700
- Title: Active Preference-Based Gaussian Process Regression for Reward Learning
- Title(参考訳): リワード学習のためのアクティブな選好に基づくガウス過程回帰
- Authors: Erdem B{\i}y{\i}k, Nicolas Huynh, Mykel J. Kochenderfer, Dorsa Sadigh
- Abstract要約: 一般的なアプローチの1つは、収集された専門家によるデモンストレーションから報酬関数を学ぶことである。
選好に基づく学習手法を提案し、その代替として、人間のフィードバックは軌跡間の比較の形でのみ存在する。
当社のアプローチは、嗜好に基づく学習フレームワークにおいて、柔軟性とデータ非効率の両問題に対処することを可能にする。
- 参考スコア(独自算出の注目度): 42.697198807877925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Designing reward functions is a challenging problem in AI and robotics.
Humans usually have a difficult time directly specifying all the desirable
behaviors that a robot needs to optimize. One common approach is to learn
reward functions from collected expert demonstrations. However, learning reward
functions from demonstrations introduces many challenges: some methods require
highly structured models, e.g. reward functions that are linear in some
predefined set of features, while others adopt less structured reward functions
that on the other hand require tremendous amount of data. In addition, humans
tend to have a difficult time providing demonstrations on robots with high
degrees of freedom, or even quantifying reward values for given demonstrations.
To address these challenges, we present a preference-based learning approach,
where as an alternative, the human feedback is only in the form of comparisons
between trajectories. Furthermore, we do not assume highly constrained
structures on the reward function. Instead, we model the reward function using
a Gaussian Process (GP) and propose a mathematical formulation to actively find
a GP using only human preferences. Our approach enables us to tackle both
inflexibility and data-inefficiency problems within a preference-based learning
framework. Our results in simulations and a user study suggest that our
approach can efficiently learn expressive reward functions for robotics tasks.
- Abstract(参考訳): 報酬関数の設計は、AIとロボット工学において難しい問題である。
人間は通常、ロボットが最適化する必要があるすべての望ましい行動を直接指定するのは難しい。
一般的なアプローチの1つは、専門家による実験から報酬関数を学ぶことである。
しかし、デモから報酬関数を学ぶには、多くの課題がある: いくつかのメソッドは、事前定義された機能セットで線形である報酬関数のような、高度に構造化されたモデルを必要とする。
加えて、人間は高い自由度を持つロボットにデモンストレーションを提供するのに苦労する傾向にあり、あるいは与えられたデモに対する報酬値の定量化さえある。
これらの課題に対処するために、私たちは好みに基づく学習アプローチを提案し、その代替として、人間のフィードバックは軌跡間の比較の形でのみ存在する。
さらに、報酬関数に非常に制約のある構造は想定しない。
代わりに,gaussian process (gp) を用いて報酬関数をモデル化し,人間の好みだけでgpを積極的に見つけるための数学的定式化を提案する。
このアプローチにより,選好ベースの学習フレームワークにおいて,柔軟性の問題とデータ非効率問題の両方に対処できる。
シミュレーションとユーザスタディの結果から,ロボットタスクの表現的報酬関数を効率的に学習できることが示唆された。
関連論文リスト
- Adaptive Language-Guided Abstraction from Contrastive Explanations [53.48583372522492]
報酬を計算するためにこれらの特徴をどのように使うべきかを決定する前に、環境のどの特徴が関係しているかを決定する必要がある。
連立特徴と報奨学習のためのエンドツーエンドの手法は、しばしば、刺激的な状態特徴に敏感な脆い報酬関数をもたらす。
本稿では,言語モデルを用いて人間に意味のある特徴を反復的に識別するALGAEという手法について述べる。
論文 参考訳(メタデータ) (2024-09-12T16:51:58Z) - Learning Reward for Robot Skills Using Large Language Models via Self-Alignment [11.639973274337274]
大規模言語モデル(LLM)には、報酬関数の学習を支援する可能性のある、貴重なタスク関連の知識が含まれている。
人間のいない場合に報酬をより効率的に学習する方法を提案する。
論文 参考訳(メタデータ) (2024-05-12T04:57:43Z) - Few-Shot Preference Learning for Human-in-the-Loop RL [13.773589150740898]
メタラーニングの成功に触発された我々は、先行タスクデータに対する嗜好モデルを事前訓練し、少数のクエリだけで新しいタスクに迅速に適応する。
メタワールドにおける操作ポリシーのトレーニングに必要なオンラインフィードバックの量を20$times$に削減し,実際のフランカ・パンダロボット上での手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-12-06T23:12:26Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - Learning Preferences for Interactive Autonomy [1.90365714903665]
この論文は、他のより信頼性の高いデータモダリティを用いて、人間のユーザーから報酬関数を学習する試みである。
まず、まず、ペアワイズ比較、ベスト・オブ・マンティ選択、ランキング、スケールされた比較など、さまざまな形態の比較フィードバックを提案し、ロボットがこれらの形態の人間のフィードバックを使って報酬関数を推測する方法を説明する。
論文 参考訳(メタデータ) (2022-10-19T21:34:51Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Generative Adversarial Reward Learning for Generalized Behavior Tendency
Inference [71.11416263370823]
ユーザの行動嗜好モデルのための生成的逆強化学習を提案する。
我々のモデルは,差別的アクター批判ネットワークとWasserstein GANに基づいて,ユーザの行動から報酬を自動的に学習することができる。
論文 参考訳(メタデータ) (2021-05-03T13:14:25Z) - Replacing Rewards with Examples: Example-Based Policy Search via
Recursive Classification [133.20816939521941]
標準的なマルコフ決定プロセス形式では、ユーザーは報酬関数を書き留めてタスクを指定する。
多くのシナリオでは、ユーザーはタスクを単語や数字で記述できないが、タスクが解決された場合の世界がどのように見えるかを簡単に示すことができる。
この観察に動機づけられた制御アルゴリズムは、成功した結果状態の例だけを考慮すれば、成功する結果につながる確率の高い状態を訪問することを目的としている。
論文 参考訳(メタデータ) (2021-03-23T16:19:55Z) - Learning Reward Functions from Diverse Sources of Human Feedback:
Optimally Integrating Demonstrations and Preferences [14.683631546064932]
本稿では,複数の情報ソースを統合するためのフレームワークを提案する。
特に,まずユーザデモを利用して報酬関数の信念を初期化するアルゴリズムを提案する。
提案手法は, 理論的に最適であるユーザフレンドリな嗜好クエリを生成するという, 人間のデータ提供能力に寄与する。
論文 参考訳(メタデータ) (2020-06-24T22:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。