論文の概要: Uncertainty-Aware Deployment of Pre-trained Language-Conditioned Imitation Learning Policies
- arxiv url: http://arxiv.org/abs/2403.18222v2
- Date: Sun, 28 Jul 2024 14:21:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 23:37:56.167492
- Title: Uncertainty-Aware Deployment of Pre-trained Language-Conditioned Imitation Learning Policies
- Title(参考訳): 事前学習型模倣学習法の不確実性を考慮した展開
- Authors: Bo Wu, Bruce D. Lee, Kostas Daniilidis, Bernadette Bucher, Nikolai Matni,
- Abstract要約: 本稿では,事前学習した言語条件の模倣学習エージェントの,不確実性を考慮したデプロイ手法を提案する。
具体的には、温度スケーリングを用いてこれらのモデルをキャリブレーションし、キャリブレーションされたモデルを利用して不確実性を認識した決定を行う。
本稿では,3つの事前学習モデルを用いてシミュレーションを行い,タスク完了率を大幅に向上させる可能性を示す。
- 参考スコア(独自算出の注目度): 29.00293625794431
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale robotic policies trained on data from diverse tasks and robotic platforms hold great promise for enabling general-purpose robots; however, reliable generalization to new environment conditions remains a major challenge. Toward addressing this challenge, we propose a novel approach for uncertainty-aware deployment of pre-trained language-conditioned imitation learning agents. Specifically, we use temperature scaling to calibrate these models and exploit the calibrated model to make uncertainty-aware decisions by aggregating the local information of candidate actions. We implement our approach in simulation using three such pre-trained models, and showcase its potential to significantly enhance task completion rates. The accompanying code is accessible at the link: https://github.com/BobWu1998/uncertainty_quant_all.git
- Abstract(参考訳): 多様なタスクやロボットプラットフォームからのデータに基づいて訓練された大規模ロボットポリシーは、汎用ロボットの実現を大いに約束するが、新しい環境条件への信頼性の高い一般化は大きな課題である。
この課題に対処するために、事前訓練された言語条件の模倣学習エージェントの不確実性を考慮したデプロイ手法を提案する。
具体的には、温度スケーリングを用いてこれらのモデルをキャリブレーションし、キャリブレーションされたモデルを利用して、候補行動の局所的な情報を集約することで不確実性を考慮した決定を行う。
本稿では,3つの事前学習モデルを用いてシミュレーションを行い,タスク完了率を大幅に向上させる可能性を示す。
関連するコードはリンクでアクセスできる。 https://github.com/BobWu1998/uncertainty_quant_all.git
関連論文リスト
- No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。
本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。
本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文 参考訳(メタデータ) (2024-08-27T14:31:54Z) - Model-Based Runtime Monitoring with Interactive Imitation Learning [30.70994322652745]
本研究は,タスク実行中のエラーを監視し,検出する能力を備えたロボットの実現を目的とする。
本稿では,デプロイメントデータからシステム異常を検出し,障害を予測するためのモデルベースランタイム監視アルゴリズムを提案する。
本手法は, シミュレーションおよび物理ハードウェアにおいて, 23%, 40%高い成功率で, システムレベルおよび単体テストの基準線を上回り, 性能を向上する。
論文 参考訳(メタデータ) (2023-10-26T16:45:44Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Language-Conditioned Imitation Learning with Base Skill Priors under Unstructured Data [26.004807291215258]
言語条件付きロボット操作は、複雑なタスクを理解し実行することができるロボットを開発することを目的としている。
基本スキルの事前知識と非構造化データに基づく模倣学習を組み合わせた汎用的言語条件付き手法を提案する。
ゼロショット設定を用いてシミュレーション環境と実環境の両方におけるモデルの性能を評価する。
論文 参考訳(メタデータ) (2023-05-30T14:40:38Z) - Distributional Instance Segmentation: Modeling Uncertainty and High
Confidence Predictions with Latent-MaskRCNN [77.0623472106488]
本稿では,潜在符号を用いた分散インスタンス分割モデルのクラスについて検討する。
ロボットピッキングへの応用として,高い精度を実現するための信頼性マスク手法を提案する。
本手法は,新たにリリースした曖昧なシーンのデータセットを含め,ロボットシステムにおける致命的なエラーを著しく低減できることを示す。
論文 参考訳(メタデータ) (2023-05-03T05:57:29Z) - Grounded Decoding: Guiding Text Generation with Grounded Models for
Embodied Agents [111.15288256221764]
グラウンデッドデコーディングプロジェクトは、両方のモデルの知識を活用することで、ロボット環境で複雑な長期タスクを解決することを目的としている。
我々はこれを確率的フィルタリングに類似した問題として、言語モデルの下で高い確率を持つシーケンスをデコードし、基底モデル対象のセットで高い確率を示す。
本研究では,3つのシミュレーション領域と実世界の領域にまたがって,そのような基底モデルがどのように得られるのかを実証し,両モデルの知識を活用して,ロボット環境での複雑な長期的タスクを解くことができることを示す。
論文 参考訳(メタデータ) (2023-03-01T22:58:50Z) - Bayesian Meta-Learning for Few-Shot Policy Adaptation Across Robotic
Platforms [60.59764170868101]
強化学習手法は、重要な性能を達成できるが、同じロボットプラットフォームで収集される大量のトレーニングデータを必要とする。
私たちはそれを、さまざまなロボットプラットフォームで共有される共通の構造を捉えるモデルを見つけることを目標とする、数ショットのメタラーニング問題として定式化します。
我々は,400個のロボットを用いて,実ロボットピッキング作業とシミュレーションリーチの枠組みを実験的に評価した。
論文 参考訳(メタデータ) (2021-03-05T14:16:20Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z) - Online Constrained Model-based Reinforcement Learning [13.362455603441552]
主要な要件は、限られた時間とリソース予算内に留まりながら、継続的な状態とアクションスペースを扱う能力である。
本稿では,ガウス過程回帰と回帰水平制御を組み合わせたモデルに基づくアプローチを提案する。
本研究では,自動走行作業におけるオンライン学習のメリットを実証する。
論文 参考訳(メタデータ) (2020-04-07T15:51:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。