論文の概要: Promptable Behaviors: Personalizing Multi-Objective Rewards from Human
Preferences
- arxiv url: http://arxiv.org/abs/2312.09337v1
- Date: Thu, 14 Dec 2023 21:00:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-18 18:01:09.666145
- Title: Promptable Behaviors: Personalizing Multi-Objective Rewards from Human
Preferences
- Title(参考訳): 迅速行動:人間の好みから多目的報酬をパーソナライズする
- Authors: Minyoung Hwang, Luca Weihs, Chanwoo Park, Kimin Lee, Aniruddha
Kembhavi, Kiana Ehsani
- Abstract要約: 本稿では,ロボットエージェントの多種多様な嗜好に対する効率的なパーソナライズを促進する新しいフレームワークであるPromptable Behaviorsを紹介する。
我々は、異なるタイプの相互作用を活用することによって、人間の嗜好を推測する3つの異なる方法を紹介した。
本稿では,ProcTHOR と Robothor のナビゲーションタスクをパーソナライズしたオブジェクトゴールナビゲーションおよびエスケープナビゲーションタスクにおいて,提案手法の評価を行う。
- 参考スコア(独自算出の注目度): 53.353022588751585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Customizing robotic behaviors to be aligned with diverse human preferences is
an underexplored challenge in the field of embodied AI. In this paper, we
present Promptable Behaviors, a novel framework that facilitates efficient
personalization of robotic agents to diverse human preferences in complex
environments. We use multi-objective reinforcement learning to train a single
policy adaptable to a broad spectrum of preferences. We introduce three
distinct methods to infer human preferences by leveraging different types of
interactions: (1) human demonstrations, (2) preference feedback on trajectory
comparisons, and (3) language instructions. We evaluate the proposed method in
personalized object-goal navigation and flee navigation tasks in ProcTHOR and
RoboTHOR, demonstrating the ability to prompt agent behaviors to satisfy human
preferences in various scenarios. Project page:
https://promptable-behaviors.github.io
- Abstract(参考訳): 多様な人間の好みに合わせてロボットの行動をカスタマイズすることは、具体化aiの分野において未熟な課題である。
本稿では,複雑な環境において,ロボットエージェントの効率的なパーソナライゼーションを促進する新しい枠組みであるprompable behaviorsを提案する。
我々は多目的強化学習を用いて、幅広い嗜好に適応可能な単一のポリシーを訓練する。
提案手法は,(1)人間実験,(2)軌道比較に対する選好フィードバック,(3)言語指示の3種類のインタラクションを用いて,人間の嗜好を推定する手法を提案する。
ProcTHOR と RoboTHOR のナビゲーションタスクのパーソナライズ化において提案手法を評価し,様々なシナリオにおいて人的嗜好を満たすためにエージェントの行動を促す能力を示す。
プロジェクトページ: https://promptable-behaviors.github.io
関連論文リスト
- PREDICT: Preference Reasoning by Evaluating Decomposed preferences Inferred from Candidate Trajectories [3.0102456679931944]
提案手法は,選好の精度と適応性を向上する手法である PreDICT を提案する。
我々は、グリッドワールド設定と新しいテキストドメイン環境の2つの異なる環境でPreDICTを評価する。
論文 参考訳(メタデータ) (2024-10-08T18:16:41Z) - NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration [57.15811390835294]
本稿では,目標指向ナビゲーションと目標非依存探索の両方を扱うために,単一の統合拡散政策をトレーニングする方法について述べる。
この統一された政策は、新しい環境における目標を視覚的に示す際に、全体的な性能が向上することを示す。
実世界の移動ロボットプラットフォーム上で実施した実験は,5つの代替手法と比較して,見えない環境における効果的なナビゲーションを示す。
論文 参考訳(メタデータ) (2023-10-11T21:07:14Z) - AlignDiff: Aligning Diverse Human Preferences via Behavior-Customisable
Diffusion Model [69.12623428463573]
AlignDiffは、人間の好みを定量化し、抽象性をカバーし、拡散計画をガイドする新しいフレームワークである。
ユーザがカスタマイズした動作と正確に一致し、効率的に切り替えることができます。
選好マッチング,スイッチング,カバーにおいて,他のベースラインに比べて優れた性能を示す。
論文 参考訳(メタデータ) (2023-10-03T13:53:08Z) - Everyone Deserves A Reward: Learning Customized Human Preferences [25.28261194665836]
リワードモデル(RM)は、対話品質を改善するために、大きな言語モデルと人間の好みを合わせるのに不可欠である。
そこで我々は3段階のRM学習手法を提案し,その効果を一般嗜好データセットとDSPセットの両方で実証的に検証した。
我々は、カスタマイズされたRMをトレーニングしながら、一般的な好みの能力をよりよく保存する方法をいくつか見出す。
論文 参考訳(メタデータ) (2023-09-06T16:03:59Z) - SACSoN: Scalable Autonomous Control for Social Navigation [62.59274275261392]
我々は、社会的に邪魔にならないナビゲーションのための政策の訓練方法を開発した。
この反事実的摂動を最小化することにより、共有空間における人間の自然な振る舞いを変えない方法でロボットに行動を促すことができる。
屋内移動ロボットが人間の傍観者と対話する大規模なデータセットを収集する。
論文 参考訳(メタデータ) (2023-06-02T19:07:52Z) - Preference Transformer: Modeling Human Preferences using Transformers
for RL [165.33887165572128]
Preference Transformerは、トランスフォーマーを使用して人間の好みをモデル化するニューラルネットワークである。
そこで,Preference Transformerは,従来のアプローチでは動作しないが,実際の人間の好みを使って様々な制御タスクを解くことができることを示す。
論文 参考訳(メタデータ) (2023-03-02T04:24:29Z) - iCub! Do you recognize what I am doing?: multimodal human action
recognition on multisensory-enabled iCub robot [0.0]
提案したマルチモーダルアンサンブル学習は、3つのカラーカメラと1つの深度センサの相補的特性を活用する。
提案したモデルは,マルチモーダル動作認識を必要とするiCubロボットに展開可能であることを示す。
論文 参考訳(メタデータ) (2022-12-17T12:40:54Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - Relative Behavioral Attributes: Filling the Gap between Symbolic Goal
Specification and Reward Learning from Human Preferences [19.70421486855437]
非専門家のユーザは、エージェントの振る舞いの短いクリップよりも好みを表現することで、複雑な目的を表現できる。
相対的行動属性(Relative Behavioral Attributes)は、正確な目標仕様と、選好ラベルから純粋に学習する報奨の中間として機能する。
本稿では,順序付けられた行動クリップから任意の行動属性をエンコードできる2つの異なるパラメトリック手法を提案する。
論文 参考訳(メタデータ) (2022-10-28T05:25:23Z) - Learning from Physical Human Feedback: An Object-Centric One-Shot
Adaptation Method [5.906020149230538]
Object Preference Adaptation (OPA) は,1) 多様な行動を生み出すための基本方針の事前学習,2) 人間のフィードバックによるオンライン更新の2つの重要な段階から構成される。
私たちの適応はオンラインで行われ、人間の介入(ワンショット)を1つだけ必要とします。
高価な人間のデモではなく、安価な合成データで訓練された弊社のポリシーは、物理的な7DOFロボット上の現実的なタスクに対する人間の摂動に正しく適応する。
論文 参考訳(メタデータ) (2022-03-09T18:52:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。