論文の概要: Uncertainty Comes for Free: Human-in-the-Loop Policies with Diffusion Models
- arxiv url: http://arxiv.org/abs/2503.01876v1
- Date: Wed, 26 Feb 2025 15:12:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:14:08.071228
- Title: Uncertainty Comes for Free: Human-in-the-Loop Policies with Diffusion Models
- Title(参考訳): 不確実性は自由になる: 拡散モデルによる「最強」政策
- Authors: Zhanpeng He, Yifeng Cao, Matei Ciocarlie,
- Abstract要約: 本研究では,拡散政策が人的援助を必要時にのみ積極的に求め,一定の人的監視への依存を減らす方法を提案する。
我々は、拡散政策の生成過程を利用して、自律エージェントが展開時にオペレーター支援を要求できる不確実性に基づくメトリクスを計算する。
この手法は, 自律的な性能向上のために, 微調整拡散ポリシーの効率的なデータ収集に有効であることを示す。
- 参考スコア(独自算出の注目度): 3.076241811701216
- License:
- Abstract: Human-in-the-loop (HitL) robot deployment has gained significant attention in both academia and industry as a semi-autonomous paradigm that enables human operators to intervene and adjust robot behaviors at deployment time, improving success rates. However, continuous human monitoring and intervention can be highly labor-intensive and impractical when deploying a large number of robots. To address this limitation, we propose a method that allows diffusion policies to actively seek human assistance only when necessary, reducing reliance on constant human oversight. To achieve this, we leverage the generative process of diffusion policies to compute an uncertainty-based metric based on which the autonomous agent can decide to request operator assistance at deployment time, without requiring any operator interaction during training. Additionally, we show that the same method can be used for efficient data collection for fine-tuning diffusion policies in order to improve their autonomous performance. Experimental results from simulated and real-world environments demonstrate that our approach enhances policy performance during deployment for a variety of scenarios.
- Abstract(参考訳): HitL(Human-in-the-loop)ロボットの展開は、人間オペレーターがデプロイメント時にロボットの動作を介入し調整し、成功率を向上させる半自律パラダイムとして、学術と産業の両方で大きな注目を集めている。
しかし、連続した人間の監視と介入は、多数のロボットを配置する際に非常に労働集約的で実用的ではない。
この制限に対処するため,拡散政策は必要なときにのみ積極的に人的援助を求めることができ,絶え間ない人的監視への依存を軽減できる手法を提案する。
そこで我々は,拡散政策の生成過程を利用して,自律エージェントが訓練中に操作者のインタラクションを必要とせずに,展開時に操作者支援を要求できる不確実性に基づくメトリクスを算出する。
さらに,この手法は,自律的な性能向上のために,微調整拡散ポリシーのための効率的なデータ収集に有効であることを示す。
シミュレーションおよび実環境による実験結果から,本手法が各種シナリオの展開時のポリシー性能を向上させることを示す。
関連論文リスト
- Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics [50.191655141020505]
私たちは世界モデルを学ぶための新しいフレームワークを紹介します。
スケーラブルで堅牢なフレームワークを提供することで、現実のアプリケーションにおいて適応的で効率的なロボットシステムを実現することができる。
論文 参考訳(メタデータ) (2025-01-17T10:39:09Z) - Inference-Time Policy Steering through Human Interactions [54.02655062969934]
推論中、人間はしばしばポリシー実行ループから取り除かれる。
本稿では,人間のインタラクションを活用して生成するサンプリングプロセスにバイアスを与える推論時ポリシーステアリングフレームワークを提案する。
提案手法は,アライメントと分布シフトの最良のトレードオフを実現する。
論文 参考訳(メタデータ) (2024-11-25T18:03:50Z) - MEReQ: Max-Ent Residual-Q Inverse RL for Sample-Efficient Alignment from Intervention [81.56607128684723]
本稿では,人間の介入によるサンプル効率向上を目的としたMEReQ(Maximum-Entropy Residual-Q Inverse Reinforcement Learning)を紹介する。
MereQは、人間の専門家と以前の政策の根底にある報酬関数との相違を捉える残差報酬関数を推論する。
その後、Residual Q-Learning(RQL)を使用して、ポリシーをこの残留報酬関数を使用して人間の好みと整合させる。
論文 参考訳(メタデータ) (2024-06-24T01:51:09Z) - IntervenGen: Interventional Data Generation for Robust and Data-Efficient Robot Imitation Learning [43.19346528232497]
分散シフトに対するポリシーロバスト性を高めるための一般的なアプローチは、インタラクティブな模倣学習である。
我々は,大規模な修正介入を自律的に生成できる新しいデータ生成システムであるIntervenGenを提案する。
人的介入が10回しかなく、政策の堅牢性を最大39倍に向上できることを示す。
論文 参考訳(メタデータ) (2024-05-02T17:06:19Z) - Asking for Help: Failure Prediction in Behavioral Cloning through Value
Approximation [8.993237527071756]
本稿では,行動クローン化政策と協調して,状態値関数を学習する手法である行動クローン値近似(BCVA)を導入する。
我々は,ラッチドア開口の移動操作課題にBCVAを適用し,BCVAの有効性を実証した。
論文 参考訳(メタデータ) (2023-02-08T20:56:23Z) - Active Uncertainty Learning for Human-Robot Interaction: An Implicit
Dual Control Approach [5.05828899601167]
暗黙的な二重制御パラダイムに基づくループ内動作計画のための不確実性学習を実現するアルゴリズムを提案する。
提案手法は,動的プログラミングモデル予測制御問題のサンプリングに基づく近似に依拠する。
結果として得られたポリシーは、連続的およびカテゴリー的不確実性を持つ一般的な人間の予測モデルに対する二重制御効果を維持することが示されている。
論文 参考訳(メタデータ) (2022-02-15T20:40:06Z) - Human-in-the-Loop Imitation Learning using Remote Teleoperation [72.2847988686463]
6-DoF操作設定に合わせたデータ収集システムを構築します。
システムによって収集された新しいデータに基づいて,ポリシーを反復的にトレーニングするアルゴリズムを開発した。
介入型システムで収集したデータに基づいて訓練されたエージェントと、非介入型デモ参加者が収集した同等数のサンプルで訓練されたアルゴリズムを上回るエージェントを実証する。
論文 参考訳(メタデータ) (2020-12-12T05:30:35Z) - AvE: Assistance via Empowerment [77.08882807208461]
そこで我々は,人間の環境制御能力を高めることで,支援のための新しいパラダイムを提案する。
このタスクに依存しない目的は、個人の自律性と最終的な状態を達成する能力を維持する。
論文 参考訳(メタデータ) (2020-06-26T04:40:11Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。