論文の概要: Autonomous Assessment of Demonstration Sufficiency via Bayesian Inverse
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2211.15542v3
- Date: Tue, 2 Jan 2024 06:36:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 20:27:37.575668
- Title: Autonomous Assessment of Demonstration Sufficiency via Bayesian Inverse
Reinforcement Learning
- Title(参考訳): ベイズ逆強化学習による実演満足度の自動評価
- Authors: Tu Trinh, Haoyu Chen, Daniel S. Brown
- Abstract要約: 本稿では,逆強化学習とバリュー・アット・リスクに基づく新たな自己評価手法を提案する。
提案手法は,ユーザの望むパフォーマンスレベルにおいて,ロボットの動作を可能にする。
- 参考スコア(独自算出の注目度): 22.287031690633174
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We examine the problem of determining demonstration sufficiency: how can a
robot self-assess whether it has received enough demonstrations from an expert
to ensure a desired level of performance? To address this problem, we propose a
novel self-assessment approach based on Bayesian inverse reinforcement learning
and value-at-risk, enabling learning-from-demonstration ("LfD") robots to
compute high-confidence bounds on their performance and use these bounds to
determine when they have a sufficient number of demonstrations. We propose and
evaluate two definitions of sufficiency: (1) normalized expected value
difference, which measures regret with respect to the human's unobserved reward
function, and (2) percent improvement over a baseline policy. We demonstrate
how to formulate high-confidence bounds on both of these metrics. We evaluate
our approach in simulation for both discrete and continuous state-space domains
and illustrate the feasibility of developing a robotic system that can
accurately evaluate demonstration sufficiency. We also show that the robot can
utilize active learning in asking for demonstrations from specific states which
results in fewer demos needed for the robot to still maintain high confidence
in its policy. Finally, via a user study, we show that our approach
successfully enables robots to perform at users' desired performance levels,
without needing too many or perfectly optimal demonstrations.
- Abstract(参考訳): ロボットは、望まれるレベルのパフォーマンスを確保するために、専門家から十分なデモンストレーションを受けたかどうかを自己評価するにはどうすればよいのか?
この問題を解決するために,ベイズ逆強化学習とバリュー・アット・リスクに基づく新たな自己評価手法を提案する。
本研究では,(1)正規化された期待値差,(2)ヒトの未観測報酬関数に対する後悔度,(2)基本方針に対する改善率の2つの定義を提案し,評価する。
両指標の高信頼境界を定式化する方法を示す。
我々は、離散状態領域と連続状態領域の両方のシミュレーションにおけるアプローチを評価し、実演効率を正確に評価できるロボットシステムの開発の可能性を示す。
また,本ロボットは,特定の状態からのデモンストレーションを積極的に行うことで,ロボットのポリシーに対する信頼性を維持するために必要なデモを少なくすることができることを示す。
最後に,ユーザスタディを通じて,ロボットが要求される性能レベルにおいて,多すぎる,あるいは完璧に最適なデモンストレーションを必要とせず,ロボットがうまく動作できることを実証する。
関連論文リスト
- Affordance-Guided Reinforcement Learning via Visual Prompting [51.361977466993345]
本稿では、視覚言語モデル(VLM)によって形成される報酬について研究し、ロボット学習における報酬の密度を定義する。
自然言語記述によって指定された実世界の操作タスクにおいて、これらの報酬は自律的RLのサンプル効率を向上させる。
論文 参考訳(メタデータ) (2024-07-14T21:41:29Z) - AdaDemo: Data-Efficient Demonstration Expansion for Generalist Robotic Agent [75.91274222142079]
本研究では,汎用ロボットエージェントの学習を容易にするために,データ効率のよい方法で実演をスケールアップすることを目的とする。
AdaDemoは、デモデータセットを積極的に継続的に拡張することで、マルチタスクポリシー学習を改善するように設計されたフレームワークである。
論文 参考訳(メタデータ) (2024-04-11T01:59:29Z) - How Can Everyday Users Efficiently Teach Robots by Demonstrations? [3.6145826787059643]
本稿では,人間の教師に情報伝達の実証例を提案するための指標として,タスク関連情報エントロピーという不確実性の尺度を提案する。
その結果,教師のデモンストレーションからロボット学習効率が大幅に向上した。
論文 参考訳(メタデータ) (2023-10-19T18:21:39Z) - Skill Disentanglement for Imitation Learning from Suboptimal
Demonstrations [60.241144377865716]
我々は、小さなクリーンな実演セットと大きなノイズセットの両方で、準最適実演の模倣を考える。
本稿では,様々な品質のアクションプリミティブを異なるスキルに符号化し,サブデモレーションレベルの評価と模倣を行う手法を提案する。
論文 参考訳(メタデータ) (2023-06-13T17:24:37Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Leveraging Sequentiality in Reinforcement Learning from a Single
Demonstration [68.94506047556412]
本稿では,複雑なロボットタスクの制御ポリシーを1つの実演で学習するために,シーケンシャルなバイアスを活用することを提案する。
本研究は, ヒューマノイド移動やスタンドアップなど, 模擬課題のいくつかを, 前例のないサンプル効率で解くことができることを示す。
論文 参考訳(メタデータ) (2022-11-09T10:28:40Z) - Learning Agile Skills via Adversarial Imitation of Rough Partial
Demonstrations [19.257876507104868]
アジャイルスキルの習得は,ロボティクスにおける大きな課題のひとつだ。
本稿では,部分的かつ物理的に互換性のない実演から報酬関数を推定するための生成的逆数法を提案する。
我々は、Wasserstein GANの定式化と、粗い情報と部分的な情報を入力とするデモからの遷移によって、堅牢で実証行動の模倣が可能なポリシーを抽出できることを示した。
論文 参考訳(メタデータ) (2022-06-23T13:34:11Z) - Learning Feasibility to Imitate Demonstrators with Different Dynamics [23.239058855103067]
実演から学ぶことのゴールは、実演の動作を模倣してエージェント(模倣者)のポリシーを学ぶことである。
我々は、実演が模倣者によって実現可能である可能性を捉えた実現可能性指標を学習する。
シミュレーションされた4つの環境と実際のロボットを用いた実験により,本手法で学んだ方針が,従来よりも期待されたリターンを達成できることが判明した。
論文 参考訳(メタデータ) (2021-10-28T14:15:47Z) - Interactive Robot Training for Non-Markov Tasks [6.252236971703546]
本研究では,教師が提示した2つのデモからロボットを学習することのできる,ベイズ的対話型ロボット訓練フレームワークを提案する。
また、タスク実行を最も不確実な受け入れ可能性で識別するためのアクティブな学習手法を提案する。
我々は,ロボットにディナーテーブルをセットするように教えるユーザスタディを通じて,現実の環境でのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2020-03-04T18:19:05Z) - Scalable Multi-Task Imitation Learning with Autonomous Improvement [159.9406205002599]
我々は、自律的なデータ収集を通じて継続的に改善できる模倣学習システムを構築している。
我々は、ロボット自身の試行を、実際に試みたタスク以外のタスクのデモとして活用する。
従来の模倣学習のアプローチとは対照的に,本手法は,継続的改善のための疎い監視によるデータ収集を自律的に行うことができる。
論文 参考訳(メタデータ) (2020-02-25T18:56:42Z) - Heterogeneous Learning from Demonstration [0.0]
ベイズ推定に基づく異種実証から学習する枠組みを提案する。
実世界におけるStarCraft IIのゲームプレイデータセットに対する一組のアプローチを評価した。
論文 参考訳(メタデータ) (2020-01-27T03:08:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。