論文の概要: Learning from Physical Human Feedback: An Object-Centric One-Shot
Adaptation Method
- arxiv url: http://arxiv.org/abs/2203.04951v1
- Date: Wed, 9 Mar 2022 18:52:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-10 15:11:46.441821
- Title: Learning from Physical Human Feedback: An Object-Centric One-Shot
Adaptation Method
- Title(参考訳): 身体的フィードバックから学ぶ:オブジェクト中心のワンショット適応法
- Authors: Alvin Shek, Rui Chen and Changliu Liu
- Abstract要約: Object Preference Adaptation (OPA) は,1) 多様な行動を生み出すための基本方針の事前学習,2) 人間のフィードバックに応じてモデルの特定の重みのみをオンライン更新する2つの重要な段階から構成される。
私たちの適応はオンラインで行われ、人間の介入(ワンショット)を1つだけ必要とします。
高価な人間のデモではなく、安価な合成データで訓練され、私たちのポリシーは、我々のユーザー研究における挑戦的で現実的なタスクに対して、人間の摂動に印象的な適応を示します。
- 参考スコア(独自算出の注目度): 6.6377747766912645
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For robots to be effectively deployed in novel environments and tasks, they
must be able to understand the feedback expressed by humans during
intervention. This can either correct undesirable behavior or indicate
additional preferences. Existing methods either require repeated episodes of
interactions or assume prior known reward features, which is data-inefficient
and can hardly transfer to new tasks. We relax these assumptions by describing
human tasks in terms of object-centric sub-tasks and interpreting physical
interventions in relation to specific objects. Our method, Object Preference
Adaptation (OPA), is composed of two key stages: 1) pre-training a base policy
to produce a wide variety of behaviors, and 2) online-updating only certain
weights in the model according to human feedback. The key to our fast, yet
simple adaptation is that general interaction dynamics between agents and
objects are fixed, and only object-specific preferences are updated. Our
adaptation occurs online, requires only one human intervention (one-shot), and
produces new behaviors never seen during training. Trained on cheap synthetic
data instead of expensive human demonstrations, our policy demonstrates
impressive adaptation to human perturbations on challenging, realistic tasks in
our user study. Videos, code, and supplementary material provided.
- Abstract(参考訳): ロボットが新しい環境やタスクに効果的に展開するためには、介入中に人間が示すフィードバックを理解する必要がある。
これは望ましくない振る舞いを修正するか、追加の好みを示すことができる。
既存の手法では、繰り返し発生するインタラクションや、データ非効率で新しいタスクへの転送がほとんどできない既知の報酬機能を前提としています。
人間のタスクをオブジェクト中心のサブタスクで記述し、特定のオブジェクトに関連する物理的介入を解釈することで、これらの仮定を緩和する。
提案手法であるObject Preference Adaptation (OPA)は,2つの重要な段階から構成される。
1) 多様な行動を生み出すための基本方針を事前学習すること、及び
2)モデル内の特定の重みのみを人間のフィードバックに従ってオンラインアップする。
高速でシンプルな適応の鍵は、エージェントとオブジェクト間の一般的な相互作用のダイナミクスが固定され、オブジェクト固有の好みだけが更新されることです。
私たちの適応はオンラインで行われ、人間の介入(ワンショット)を1つだけ必要とします。
高価な人間のデモではなく、安価な合成データに基づいてトレーニングされたこのポリシーは、ユーザ研究における挑戦的で現実的なタスクに対する人間の摂動に印象的な適応を示している。
ビデオ、コード、補足資料。
関連論文リスト
- Promptable Behaviors: Personalizing Multi-Objective Rewards from Human
Preferences [53.353022588751585]
本稿では,ロボットエージェントの多種多様な嗜好に対する効率的なパーソナライズを促進する新しいフレームワークであるPromptable Behaviorsを紹介する。
我々は、異なるタイプの相互作用を活用することによって、人間の嗜好を推測する3つの異なる方法を紹介した。
本稿では,ProcTHOR と Robothor のナビゲーションタスクをパーソナライズしたオブジェクトゴールナビゲーションおよびエスケープナビゲーションタスクにおいて,提案手法の評価を行う。
論文 参考訳(メタデータ) (2023-12-14T21:00:56Z) - ThinkBot: Embodied Instruction Following with Thought Chain Reasoning [66.09880459084901]
EIF(Embodied Instruction following)は、複雑な環境下でオブジェクトを相互作用させることで、エージェントが人間の指示を完了させる。
我々は,人間の指導における思考連鎖を原因とした思考ボットを提案し,その不足した行動記述を復元する。
私たちのThinkBotは、成功率と実行効率の両面で、最先端のEIFメソッドよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2023-12-12T08:30:09Z) - Real-time Addressee Estimation: Deployment of a Deep-Learning Model on
the iCub Robot [52.277579221741746]
住所推定は、社会ロボットが人間とスムーズに対話するために必要なスキルである。
人間の知覚スキルにインスパイアされたディープラーニングモデルは、iCubロボットに設計、訓練、デプロイされる。
本研究では,人間-ロボットのリアルタイムインタラクションにおいて,そのような実装の手順とモデルの性能について述べる。
論文 参考訳(メタデータ) (2023-11-09T13:01:21Z) - Physically Plausible Full-Body Hand-Object Interaction Synthesis [32.83908152822006]
そこで本研究では,全体で手-物体間相互作用を合成するための物理に基づく手法を提案する。
既存のメソッドは、しばしば相互作用プロセスの分離されたセグメントにフォーカスし、成果物をもたらす可能性のあるデータ駆動技術に依存します。
論文 参考訳(メタデータ) (2023-09-14T17:55:18Z) - InterDiff: Generating 3D Human-Object Interactions with Physics-Informed
Diffusion [29.25063155767897]
本稿では,3次元物体相互作用(HOI)の予測に向けた新しい課題について述べる。
我々のタスクは、様々な形状の動的物体をモデリングし、全身の動きを捉え、物理的に有効な相互作用を確実にする必要があるため、はるかに困難である。
複数の人-物間相互作用データセットを用いた実験は,本手法の有効性を実証し,現実的で,鮮明で,かつ,極めて長期にわたる3D HOI予測を生成できることを示した。
論文 参考訳(メタデータ) (2023-08-31T17:59:08Z) - HODN: Disentangling Human-Object Feature for HOI Detection [51.48164941412871]
本稿では,Human and Object Disentangling Network (HODN) を提案し,Human-Object Interaction (HOI) の関係を明示的にモデル化する。
インタラクションに人間的特徴がより寄与していることを考慮し,インタラクションデコーダが人間中心の領域に焦点を当てていることを確認するためのヒューマンガイドリンク手法を提案する。
提案手法は,V-COCOとHICO-Det Linkingデータセットの競合性能を実現する。
論文 参考訳(メタデータ) (2023-08-20T04:12:50Z) - Task-Oriented Human-Object Interactions Generation with Implicit Neural
Representations [61.659439423703155]
TOHO: 命令型ニューラル表現を用いたタスク指向型ヒューマンオブジェクトインタラクション生成
本手法は時間座標のみでパラメータ化される連続運動を生成する。
この研究は、一般的なヒューマン・シーンの相互作用シミュレーションに向けて一歩前進する。
論文 参考訳(メタデータ) (2023-03-23T09:31:56Z) - Synthesizing Physical Character-Scene Interactions [64.26035523518846]
仮想キャラクタとその周辺環境間のこのような相互作用を合成する必要がある。
本稿では,逆模倣学習と強化学習を用いて物理シミュレーション文字を学習するシステムを提案する。
我々のアプローチは、物理学に基づくキャラクターモーション生成を広い適用性に一歩近づいた。
論文 参考訳(メタデータ) (2023-02-02T05:21:32Z) - Improving Personality Consistency in Conversation by Persona Extending [22.124187337032946]
本稿では,Persona Retrieval Model(PRM)とPosterior-Scored Transformer(PS-Transformer)の2つのサブコンポーネントからなる新しい検索・予測パラダイムを提案する。
提案モデルでは,自動測定と人的評価の両面で大幅に改善されている。
論文 参考訳(メタデータ) (2022-08-23T09:00:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。