論文の概要: Active Reward Learning from Online Preferences
- arxiv url: http://arxiv.org/abs/2302.13507v1
- Date: Mon, 27 Feb 2023 04:06:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 16:51:17.779649
- Title: Active Reward Learning from Online Preferences
- Title(参考訳): オンライン選好からのアクティブリワード学習
- Authors: Vivek Myers, Erdem B{\i}y{\i}k, Dorsa Sadigh
- Abstract要約: 既存の作業は、人間のフィードバックに基づいて、コストがかかるオフラインで再トレーニングする必要があることが多い。
オンライン方式でペアワイズ・アクション・プライオリティ・クエリを設計・提示することを提案する。
- 参考スコア(独自算出の注目度): 13.270422559309058
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robot policies need to adapt to human preferences and/or new environments.
Human experts may have the domain knowledge required to help robots achieve
this adaptation. However, existing works often require costly offline
re-training on human feedback, and those feedback usually need to be frequent
and too complex for the humans to reliably provide. To avoid placing undue
burden on human experts and allow quick adaptation in critical real-world
situations, we propose designing and sparingly presenting easy-to-answer
pairwise action preference queries in an online fashion. Our approach designs
queries and determines when to present them to maximize the expected value
derived from the queries' information. We demonstrate our approach with
experiments in simulation, human user studies, and real robot experiments. In
these settings, our approach outperforms baseline techniques while presenting
fewer queries to human experts. Experiment videos, code and appendices are
found at https://sites.google.com/view/onlineactivepreferences.
- Abstract(参考訳): ロボットポリシーは人間の好みや新しい環境に適応する必要がある。
人間の専門家は、ロボットがこの適応を達成するのを助けるために必要なドメイン知識を持っているかもしれない。
しかし、既存の作業では、人間のフィードバックをオフラインでトレーニングする必要があることが多く、そのフィードバックは頻繁に必要であり、人間が確実に提供するには複雑すぎる。
本研究では,人的専門家の負担を軽減し,重要な現実の状況に迅速に適応できるようにするため,オンライン方式でペアワイズな行動嗜好クエリを設計・提示することを提案する。
提案手法はクエリを設計し,クエリの情報から得られる期待値を最大化するタイミングを決定する。
シミュレーション,人間のユーザ研究,実際のロボット実験において,本手法を実証する。
これらの設定において,本手法は,人的専門家に少ないクエリを提示しながら,ベースライン技術よりも優れている。
実験ビデオ、コード、付録はhttps://sites.google.com/view/onlineactivepreferencesにある。
関連論文リスト
- Online Context Learning for Socially-compliant Navigation [49.609656402450746]
本文では,ロボットが新たな社会環境に適応できるようにするための,オンラインコンテキスト学習手法を紹介する。
コミュニティワイドシミュレータを用いた実験により,本手法は最先端のシミュレータよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-06-17T12:59:13Z) - Promptable Behaviors: Personalizing Multi-Objective Rewards from Human
Preferences [53.353022588751585]
本稿では,ロボットエージェントの多種多様な嗜好に対する効率的なパーソナライズを促進する新しいフレームワークであるPromptable Behaviorsを紹介する。
我々は、異なるタイプの相互作用を活用することによって、人間の嗜好を推測する3つの異なる方法を紹介した。
本稿では,ProcTHOR と Robothor のナビゲーションタスクをパーソナライズしたオブジェクトゴールナビゲーションおよびエスケープナビゲーションタスクにおいて,提案手法の評価を行う。
論文 参考訳(メタデータ) (2023-12-14T21:00:56Z) - Real-time Addressee Estimation: Deployment of a Deep-Learning Model on
the iCub Robot [52.277579221741746]
住所推定は、社会ロボットが人間とスムーズに対話するために必要なスキルである。
人間の知覚スキルにインスパイアされたディープラーニングモデルは、iCubロボットに設計、訓練、デプロイされる。
本研究では,人間-ロボットのリアルタイムインタラクションにおいて,そのような実装の手順とモデルの性能について述べる。
論文 参考訳(メタデータ) (2023-11-09T13:01:21Z) - Autonomous Robotic Reinforcement Learning with Asynchronous Human
Feedback [27.223725464754853]
GEARは、ロボットを現実世界の環境に配置し、中断することなく自律的に訓練することを可能にする。
システムはリモート、クラウドソース、非専門家からの非同期フィードバックのみを必要とする、Webインターフェースにロボットエクスペリエンスをストリームする。
論文 参考訳(メタデータ) (2023-10-31T16:43:56Z) - Provable Benefits of Policy Learning from Human Preferences in
Contextual Bandit Problems [82.92678837778358]
嗜好に基づく手法は、InstructGPTのような経験的応用でかなりの成功を収めている。
フィードバックモデリングにおける人間のバイアスと不確実性がこれらのアプローチの理論的保証にどのように影響するかを示す。
論文 参考訳(メタデータ) (2023-07-24T17:50:24Z) - BO-Muse: A human expert and AI teaming framework for accelerated
experimental design [58.61002520273518]
我々のアルゴリズムは、人間の専門家が実験プロセスでリードすることを可能にする。
我々のアルゴリズムは、AIや人間よりも高速に、サブ線形に収束することを示す。
論文 参考訳(メタデータ) (2023-03-03T02:56:05Z) - Few-Shot Preference Learning for Human-in-the-Loop RL [13.773589150740898]
メタラーニングの成功に触発された我々は、先行タスクデータに対する嗜好モデルを事前訓練し、少数のクエリだけで新しいタスクに迅速に適応する。
メタワールドにおける操作ポリシーのトレーニングに必要なオンラインフィードバックの量を20$times$に削減し,実際のフランカ・パンダロボット上での手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-12-06T23:12:26Z) - Humans are not Boltzmann Distributions: Challenges and Opportunities for
Modelling Human Feedback and Interaction in Reinforcement Learning [13.64577704565643]
これらのモデルは単純すぎるし、RLの研究者たちはアルゴリズムを設計し評価するために、より現実的な人間モデルを開発する必要がある、と我々は主張する。
本稿は、AIへのフィードバックの仕方や、より堅牢なループ内RLシステムの構築方法について、さまざまな分野からの研究を募集する。
論文 参考訳(メタデータ) (2022-06-27T13:58:51Z) - Autonomous Curiosity for Real-Time Training Onboard Robotic Agents [1.2437226707039446]
ロボットプラットフォーム上での物体検出アルゴリズムのオンライン,リアルタイム,人間-イン-ループトレーニングに関連する,好奇心の問題に対処する。
そこで我々は,人間にいつ真実を尋ねるか,いつ動くのかを判断する深層強化学習手法を提案する。
論文 参考訳(メタデータ) (2021-08-29T19:48:19Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Human-guided Robot Behavior Learning: A GAN-assisted Preference-based
Reinforcement Learning Approach [2.9764834057085716]
本稿では,新しいGAN支援人間嗜好に基づく強化学習手法を提案する。
GAN(Generative Adversarial Network)を使用して、人間の嗜好を積極的に学習し、選好を割り当てる際の人間の役割を置き換える。
本手法は, 性能犠牲を伴わずに, 約99.8%の人的時間を短縮することができる。
論文 参考訳(メタデータ) (2020-10-15T01:44:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。