論文の概要: Learning Preferences for Interactive Autonomy
- arxiv url: http://arxiv.org/abs/2210.10899v1
- Date: Wed, 19 Oct 2022 21:34:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 13:12:34.681906
- Title: Learning Preferences for Interactive Autonomy
- Title(参考訳): 対話型オートノミーのための学習選好
- Authors: Erdem B{\i}y{\i}k
- Abstract要約: この論文は、他のより信頼性の高いデータモダリティを用いて、人間のユーザーから報酬関数を学習する試みである。
まず、まず、ペアワイズ比較、ベスト・オブ・マンティ選択、ランキング、スケールされた比較など、さまざまな形態の比較フィードバックを提案し、ロボットがこれらの形態の人間のフィードバックを使って報酬関数を推測する方法を説明する。
- 参考スコア(独自算出の注目度): 1.90365714903665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When robots enter everyday human environments, they need to understand their
tasks and how they should perform those tasks. To encode these, reward
functions, which specify the objective of a robot, are employed. However,
designing reward functions can be extremely challenging for complex tasks and
environments. A promising approach is to learn reward functions from humans.
Recently, several robot learning works embrace this approach and leverage human
demonstrations to learn the reward functions. Known as inverse reinforcement
learning, this approach relies on a fundamental assumption: humans can provide
near-optimal demonstrations to the robot. Unfortunately, this is rarely the
case: human demonstrations to the robot are often suboptimal due to various
reasons, e.g., difficulty of teleoperation, robot having high degrees of
freedom, or humans' cognitive limitations.
This thesis is an attempt towards learning reward functions from human users
by using other, more reliable data modalities. Specifically, we study how
reward functions can be learned using comparative feedback, in which the human
user compares multiple robot trajectories instead of (or in addition to)
providing demonstrations. To this end, we first propose various forms of
comparative feedback, e.g., pairwise comparisons, best-of-many choices,
rankings, scaled comparisons; and describe how a robot can use these various
forms of human feedback to infer a reward function, which may be parametric or
non-parametric. Next, we propose active learning techniques to enable the robot
to ask for comparison feedback that optimizes for the expected information that
will be gained from that user feedback. Finally, we demonstrate the
applicability of our methods in a wide variety of domains, ranging from
autonomous driving simulations to home robotics, from standard reinforcement
learning benchmarks to lower-body exoskeletons.
- Abstract(参考訳): ロボットが日常の人間の環境に入るとき、彼らは自分のタスクとそれらのタスクをどのように実行するべきかを理解する必要がある。
これらを符号化するために、ロボットの目的を特定する報酬関数を用いる。
しかし、報酬関数の設計は複雑なタスクや環境にとって非常に難しい。
有望なアプローチは、人間から報酬関数を学ぶことである。
近年、いくつかのロボット学習がこのアプローチを採用し、人間の実演を活用して報酬関数を学習している。
逆強化学習(inverse reinforcement learning)として知られるこのアプローチは、人間がロボットにほぼ最適なデモを提供するという基本的な前提に基づいている。
ロボットに対する人間のデモンストレーションは、遠隔操作の困難、自由度の高いロボット、人間の認知的制限など、さまざまな理由により、しばしば最適ではない。
この論文は、他のより信頼性の高いデータモダリティを用いて、人間ユーザーから報酬機能を学ぶ試みである。
具体的には、人間ユーザがデモを行う代わりに、複数のロボットの軌跡を比較(またはそれに加えて)する、比較フィードバックを用いて報酬関数を学習する方法を検討する。
この目的のために、まず、対数比較、最善の選択、ランク付け、スケールされた比較など、様々な形態の比較フィードバックを提案し、ロボットがこれらの様々な形の人間フィードバックを使用して、パラメトリックまたは非パラメトリックな報酬関数を推定する方法を説明する。
次に,ユーザのフィードバックから得られる期待情報に対して最適化された比較フィードバックをロボットに求めるためのアクティブラーニング手法を提案する。
最後に, 運転シミュレーションからホームロボティクスまで, 標準強化学習ベンチマークから低体外骨格まで, 様々な分野において, 本手法の適用性を示す。
関連論文リスト
- HumanoidBench: Simulated Humanoid Benchmark for Whole-Body Locomotion and Manipulation [50.616995671367704]
そこで本研究では,人型ロボットが器用な手を備えた,高次元シミュレーション型ロボット学習ベンチマークHumanoidBenchを提案する。
その結果,現在最先端の強化学習アルゴリズムがほとんどのタスクに支障をきたすのに対して,階層的学習アプローチはロバストな低レベルポリシーに支えられた場合,優れた性能を達成できることがわかった。
論文 参考訳(メタデータ) (2024-03-15T17:45:44Z) - Affordances from Human Videos as a Versatile Representation for Robotics [31.248842798600606]
我々は、人間がどこでどのように対話するかを推定する視覚的余裕モデルを訓練する。
これらの行動割当の構造は、ロボットが多くの複雑なタスクを直接実行できるようにする。
私たちは、VRBと呼ばれる4つの現実世界環境、10以上のタスクと2つのロボットプラットフォームにおいて、私たちのアプローチの有効性を示します。
論文 参考訳(メタデータ) (2023-04-17T17:59:34Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - HERD: Continuous Human-to-Robot Evolution for Learning from Human
Demonstration [57.045140028275036]
本研究では,マイクロ進化的強化学習を用いて,操作スキルを人間からロボットに伝達可能であることを示す。
本稿では,ロボットの進化経路とポリシーを協調的に最適化する多次元進化経路探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-08T15:56:13Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - Model Predictive Control for Fluid Human-to-Robot Handovers [50.72520769938633]
人間の快適さを考慮に入れた計画運動は、人間ロボットのハンドオーバプロセスの一部ではない。
本稿では,効率的なモデル予測制御フレームワークを用いてスムーズな動きを生成することを提案する。
ユーザ数名の多様なオブジェクトに対して,人間とロボットのハンドオーバ実験を行う。
論文 参考訳(メタデータ) (2022-03-31T23:08:20Z) - Reasoning about Counterfactuals to Improve Human Inverse Reinforcement
Learning [5.072077366588174]
人間は自然に、観察可能な行動について推論することで、他のエージェントの信念や欲求を推測する。
我々は,ロボットの意思決定に対する学習者の現在の理解を,人間のIRLモデルに組み込むことを提案する。
また,人間が見えない環境下でのロボットの動作を予測しにくいことを推定するための新しい尺度を提案する。
論文 参考訳(メタデータ) (2022-03-03T17:06:37Z) - Learning Generalizable Robotic Reward Functions from "In-The-Wild" Human
Videos [59.58105314783289]
ドメインに依存しないビデオ識別器(DVD)は、2つのビデオが同じタスクを実行しているかどうかを判断するために識別器を訓練することによりマルチタスク報酬関数を学習する。
DVDは、人間のビデオの広いデータセットで少量のロボットデータから学習することで、一般化することができる。
DVDと視覚モデル予測制御を組み合わせることで、実際のWidowX200ロボットのロボット操作タスクを単一の人間のデモから未知の環境で解決できます。
論文 参考訳(メタデータ) (2021-03-31T05:25:05Z) - Feature Expansive Reward Learning: Rethinking Human Input [31.413656752926208]
そこで我々は,ロボットが教えている特徴が表現されていない状態からロボットを誘導する新しいタイプの人間入力を紹介した。
本稿では,その特徴を生の状態空間から学習し,報酬関数に組み込むアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-23T17:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。