論文の概要: PARTNR: Pick and place Ambiguity Resolving by Trustworthy iNteractive
leaRning
- arxiv url: http://arxiv.org/abs/2211.08304v1
- Date: Tue, 15 Nov 2022 17:07:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 13:04:47.675141
- Title: PARTNR: Pick and place Ambiguity Resolving by Trustworthy iNteractive
leaRning
- Title(参考訳): PartNR:信頼に値するiNteractive leaRningによる曖昧な解決
- Authors: Jelle Luijkx, Zlatan Ajanovic, Laura Ferranti, Jens Kober
- Abstract要約: 本稿では,選択と配置のポーズにおける複数のモーダルを解析することにより,訓練されたポリシーのあいまいさを検出できるPartinNRアルゴリズムを提案する。
PartNRは、追加のユーザデモが必要なかどうかを判断する適応型、感度ベースのゲーティング機能を採用している。
テーブルトップのピック・アンド・プレイス・タスクにおけるPartinNRの性能を実演する。
- 参考スコア(独自算出の注目度): 5.046831208137847
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Several recent works show impressive results in mapping language-based human
commands and image scene observations to direct robot executable policies
(e.g., pick and place poses). However, these approaches do not consider the
uncertainty of the trained policy and simply always execute actions suggested
by the current policy as the most probable ones. This makes them vulnerable to
domain shift and inefficient in the number of required demonstrations. We
extend previous works and present the PARTNR algorithm that can detect
ambiguities in the trained policy by analyzing multiple modalities in the pick
and place poses using topological analysis. PARTNR employs an adaptive,
sensitivity-based, gating function that decides if additional user
demonstrations are required. User demonstrations are aggregated to the dataset
and used for subsequent training. In this way, the policy can adapt promptly to
domain shift and it can minimize the number of required demonstrations for a
well-trained policy. The adaptive threshold enables to achieve the
user-acceptable level of ambiguity to execute the policy autonomously and in
turn, increase the trustworthiness of our system. We demonstrate the
performance of PARTNR in a table-top pick and place task.
- Abstract(参考訳): いくつかの最近の研究は、言語に基づくヒューマンコマンドと画像シーンの観察をロボット実行ポリシー(例えば、ピック・アンド・プレイス・ポーズ)にマッピングした。
しかし、これらのアプローチは、訓練されたポリシーの不確実性を考慮せず、単に現在のポリシーが提案するアクションを最も可能性の高いアクションとして実行するだけである。
これにより、必要なデモの数でドメインシフトや非効率に脆弱になる。
本稿では,事前研究を拡張し,ピックポーズとプレースポーズの複数のモダリティをトポロジカル解析を用いて解析することにより,トレーニングポリシーのあいまいさを検出できるpartnrアルゴリズムを提案する。
PartNRは、追加のユーザデモが必要なかどうかを判断する適応型、感度ベースのゲーティング機能を採用している。
ユーザデモはデータセットに集約され、その後のトレーニングに使用される。
このように、ポリシーはドメインシフトに迅速に適応することができ、よく訓練されたポリシーに必要なデモの数を最小化できる。
適応しきい値により、ユーザの受け入れ可能なあいまいさレベルを達成し、自律的にポリシーを実行し、それによってシステムの信頼性を高めることができる。
テーブルトップのピック・アンド・プレイス・タスクにおけるpartNRの性能を示す。
関連論文リスト
- Inference-Time Policy Steering through Human Interactions [54.02655062969934]
推論中、人間はしばしばポリシー実行ループから取り除かれる。
本稿では,人間のインタラクションを活用して生成するサンプリングプロセスにバイアスを与える推論時ポリシーステアリングフレームワークを提案する。
提案手法は,アライメントと分布シフトの最良のトレードオフを実現する。
論文 参考訳(メタデータ) (2024-11-25T18:03:50Z) - Active Fine-Tuning of Generalist Policies [54.65568433408307]
AMF(Active Multi-task Fine-tuning)を提案する。
我々は,AMFの性能保証を規則性仮定で導き,複雑・高次元環境における実験的有効性を示す。
論文 参考訳(メタデータ) (2024-10-07T13:26:36Z) - Towards Interpretable Foundation Models of Robot Behavior: A Task Specific Policy Generation Approach [1.7205106391379026]
ファンデーションモデルは、汎用的でユーザフレンドリーなロボットへの、有望な道のりだ。
特に、タスク間のモジュラリティの欠如は、モデルの重みが更新されると、他の無関係なタスクの振る舞いが影響を受ける可能性があることを意味します。
本稿では,スタンドアロンのタスク固有のポリシーを生成するロボット基盤モデルの設計に対する代替的アプローチを提案する。
論文 参考訳(メタデータ) (2024-07-10T21:55:44Z) - Diagnosis, Feedback, Adaptation: A Human-in-the-Loop Framework for
Test-Time Policy Adaptation [20.266695694005943]
ポリシーは新しい環境にポリシーがデプロイされたときに発生する状態と報酬の変化によって、しばしば失敗する。
データ拡張は、エージェントの観察におけるタスク非関連の変化にモデルを不変にすることで、ロバスト性を高めることができる。
本稿では,ユーザからのフィードバックを直接活用して,タスク関連概念をパーソナライズする対話型フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-12T17:55:08Z) - "Guess what I'm doing": Extending legibility to sequential decision
tasks [7.352593846694083]
不確実性を考慮したシーケンシャルな意思決定課題における正当性の概念について検討する。
提案手法はPoL-MDPと呼ばれ,不確実性に対処できる。
論文 参考訳(メタデータ) (2022-09-19T16:01:33Z) - A State-Distribution Matching Approach to Non-Episodic Reinforcement
Learning [61.406020873047794]
現実世界の応用への大きなハードルは、エピソード的な環境でのアルゴリズムの開発である。
提案手法は,提案する実証実験における状態分布に一致するように後方方針を訓練する手法である。
実験の結果,MEDALは3つのスパース・リワード連続制御タスクにおいて先行手法と一致し,性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-05-11T00:06:29Z) - Direct Random Search for Fine Tuning of Deep Reinforcement Learning
Policies [5.543220407902113]
直接ランダム検索は、決定論的ロールアウトを用いて直接最適化することにより、DRLポリシーを微調整するのに非常に効果的であることを示す。
その結果, 本手法は, テストした環境において, より一貫性があり, 高性能なエージェントが得られることがわかった。
論文 参考訳(メタデータ) (2021-09-12T20:12:46Z) - Human-in-the-Loop Imitation Learning using Remote Teleoperation [72.2847988686463]
6-DoF操作設定に合わせたデータ収集システムを構築します。
システムによって収集された新しいデータに基づいて,ポリシーを反復的にトレーニングするアルゴリズムを開発した。
介入型システムで収集したデータに基づいて訓練されたエージェントと、非介入型デモ参加者が収集した同等数のサンプルで訓練されたアルゴリズムを上回るエージェントを実証する。
論文 参考訳(メタデータ) (2020-12-12T05:30:35Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z) - Learning Adaptive Exploration Strategies in Dynamic Environments Through
Informed Policy Regularization [100.72335252255989]
本研究では,動的環境に効果的に適応する探索探索探索戦略の課題について検討する。
本稿では,各タスクにおける報酬を最大化するために訓練された情報ポリシを用いて,RNNベースのポリシーのトレーニングを規則化する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-06T16:14:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。