論文の概要: Autonomous Assessment of Demonstration Sufficiency via Bayesian Inverse
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2211.15542v1
- Date: Mon, 28 Nov 2022 16:48:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 19:52:25.948451
- Title: Autonomous Assessment of Demonstration Sufficiency via Bayesian Inverse
Reinforcement Learning
- Title(参考訳): ベイズ逆強化学習による実演満足度の自動評価
- Authors: Tu Trinh, Daniel S. Brown
- Abstract要約: AIエージェントは、望まれるレベルのパフォーマンスを保証するために、専門家から十分なデモンストレーションを受けたかどうかを、どのように自己評価できるのだろうか?
ベイジアン逆強化学習とバリュー・アット・リスクに基づく新しい自己評価手法を提案する。
我々は、シミュレーションにおける我々のアプローチを評価し、専門家のパフォーマンスに適合するか、あるいは所望の安全閾値内で基準ポリシーのパフォーマンスを上回ることができると高い信頼を持って、十分なトレーニングデータを受信したかどうかを正確に評価できるAIシステムを開発する可能性を示す。
- 参考スコア(独自算出の注目度): 14.404339094377319
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we examine the problem of determining demonstration sufficiency
for AI agents that learn from demonstrations: how can an AI agent self-assess
whether it has received enough demonstrations from an expert to ensure a
desired level of performance? To address this problem we propose a novel
self-assessment approach based on Bayesian inverse reinforcement learning and
value-at-risk to enable agents that learn from demonstrations to compute
high-confidence bounds on their performance and use these bounds to determine
when they have a sufficient number of demonstrations. We propose and evaluate
two definitions of sufficiency: (1) normalized expected value difference, which
measures regret with respect to the expert's unobserved reward function, and
(2) improvement over a baseline policy. We demonstrate how to formulate
high-confidence bounds on both of these metrics. We evaluate our approach in
simulation and demonstrate the feasibility of developing an AI system that can
accurately evaluate whether it has received sufficient training data to
guarantee, with high confidence, that it can match an expert's performance or
surpass the performance of a baseline policy within some desired safety
threshold.
- Abstract(参考訳): 本稿では,AIエージェントが実演から学習するAIエージェントのデモンストレーション効率を決定する上での問題点について考察する。
この問題を解決するために,ベイジアン逆強化学習とバリュー・アット・リスクに基づく新たな自己評価手法を提案する。
我々は,(1)正規化期待値差,(2)専門家の観察できない報酬関数に対する後悔度,(2)基準政策に対する改善,という2つの定義を提案し,評価する。
両指標の高信頼境界を定式化する方法を示す。
我々は、シミュレーションにおける我々のアプローチを評価し、専門家のパフォーマンスに適合するか、あるいは所望の安全閾値内で基準ポリシーのパフォーマンスを上回ることを保証し、十分なトレーニングデータを受信したかどうかを正確に評価できるAIシステムの開発の可能性を示す。
関連論文リスト
- AdaDemo: Data-Efficient Demonstration Expansion for Generalist Robotic Agent [75.91274222142079]
本研究では,汎用ロボットエージェントの学習を容易にするために,データ効率のよい方法で実演をスケールアップすることを目的とする。
AdaDemoは、デモデータセットを積極的に継続的に拡張することで、マルチタスクポリシー学習を改善するように設計されたフレームワークである。
論文 参考訳(メタデータ) (2024-04-11T01:59:29Z) - How Can Everyday Users Efficiently Teach Robots by Demonstrations? [3.6145826787059643]
本稿では,人間の教師に情報伝達の実証例を提案するための指標として,タスク関連情報エントロピーという不確実性の尺度を提案する。
その結果,教師のデモンストレーションからロボット学習効率が大幅に向上した。
論文 参考訳(メタデータ) (2023-10-19T18:21:39Z) - Skill Disentanglement for Imitation Learning from Suboptimal
Demonstrations [60.241144377865716]
我々は、小さなクリーンな実演セットと大きなノイズセットの両方で、準最適実演の模倣を考える。
本稿では,様々な品質のアクションプリミティブを異なるスキルに符号化し,サブデモレーションレベルの評価と模倣を行う手法を提案する。
論文 参考訳(メタデータ) (2023-06-13T17:24:37Z) - Distributional Instance Segmentation: Modeling Uncertainty and High
Confidence Predictions with Latent-MaskRCNN [77.0623472106488]
本稿では,潜在符号を用いた分散インスタンス分割モデルのクラスについて検討する。
ロボットピッキングへの応用として,高い精度を実現するための信頼性マスク手法を提案する。
本手法は,新たにリリースした曖昧なシーンのデータセットを含め,ロボットシステムにおける致命的なエラーを著しく低減できることを示す。
論文 参考訳(メタデータ) (2023-05-03T05:57:29Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Leveraging Sequentiality in Reinforcement Learning from a Single
Demonstration [68.94506047556412]
本稿では,複雑なロボットタスクの制御ポリシーを1つの実演で学習するために,シーケンシャルなバイアスを活用することを提案する。
本研究は, ヒューマノイド移動やスタンドアップなど, 模擬課題のいくつかを, 前例のないサンプル効率で解くことができることを示す。
論文 参考訳(メタデータ) (2022-11-09T10:28:40Z) - Learning Agile Skills via Adversarial Imitation of Rough Partial
Demonstrations [19.257876507104868]
アジャイルスキルの習得は,ロボティクスにおける大きな課題のひとつだ。
本稿では,部分的かつ物理的に互換性のない実演から報酬関数を推定するための生成的逆数法を提案する。
我々は、Wasserstein GANの定式化と、粗い情報と部分的な情報を入力とするデモからの遷移によって、堅牢で実証行動の模倣が可能なポリシーを抽出できることを示した。
論文 参考訳(メタデータ) (2022-06-23T13:34:11Z) - Learning Feasibility to Imitate Demonstrators with Different Dynamics [23.239058855103067]
実演から学ぶことのゴールは、実演の動作を模倣してエージェント(模倣者)のポリシーを学ぶことである。
我々は、実演が模倣者によって実現可能である可能性を捉えた実現可能性指標を学習する。
シミュレーションされた4つの環境と実際のロボットを用いた実験により,本手法で学んだ方針が,従来よりも期待されたリターンを達成できることが判明した。
論文 参考訳(メタデータ) (2021-10-28T14:15:47Z) - Interactive Robot Training for Non-Markov Tasks [6.252236971703546]
本研究では,教師が提示した2つのデモからロボットを学習することのできる,ベイズ的対話型ロボット訓練フレームワークを提案する。
また、タスク実行を最も不確実な受け入れ可能性で識別するためのアクティブな学習手法を提案する。
我々は,ロボットにディナーテーブルをセットするように教えるユーザスタディを通じて,現実の環境でのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2020-03-04T18:19:05Z) - Scalable Multi-Task Imitation Learning with Autonomous Improvement [159.9406205002599]
我々は、自律的なデータ収集を通じて継続的に改善できる模倣学習システムを構築している。
我々は、ロボット自身の試行を、実際に試みたタスク以外のタスクのデモとして活用する。
従来の模倣学習のアプローチとは対照的に,本手法は,継続的改善のための疎い監視によるデータ収集を自律的に行うことができる。
論文 参考訳(メタデータ) (2020-02-25T18:56:42Z) - Heterogeneous Learning from Demonstration [0.0]
ベイズ推定に基づく異種実証から学習する枠組みを提案する。
実世界におけるStarCraft IIのゲームプレイデータセットに対する一組のアプローチを評価した。
論文 参考訳(メタデータ) (2020-01-27T03:08:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。