論文の概要: Conformalized Interactive Imitation Learning: Handling Expert Shift and Intermittent Feedback
- arxiv url: http://arxiv.org/abs/2410.08852v1
- Date: Fri, 11 Oct 2024 14:27:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 21:35:51.517914
- Title: Conformalized Interactive Imitation Learning: Handling Expert Shift and Intermittent Feedback
- Title(参考訳): Conformalized Interactive Imitation Learning: Handling Expert Shift and Intermittent Feedback
- Authors: Michelle Zhao, Reid Simmons, Henny Admoni, Aaditya Ramdas, Andrea Bajcsy,
- Abstract要約: インタラクティブな模倣学習(IL)では、不確実性定量化は、学習者(つまりロボット)がデプロイメント中に遭遇する分散シフトと競合する方法を提供する。
ConformalDAgger は,IQT で校正された予測間隔を,展開時間不確実性の信頼性の高い尺度として用いる新しい手法である。
7DOFロボットマニピュレータ上でのシミュレーションおよびハードウェア展開において、ConformalDAggerはエキスパートがシフトする際に高い不確実性を検出する。
- 参考スコア(独自算出の注目度): 26.87212135255959
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In interactive imitation learning (IL), uncertainty quantification offers a way for the learner (i.e. robot) to contend with distribution shifts encountered during deployment by actively seeking additional feedback from an expert (i.e. human) online. Prior works use mechanisms like ensemble disagreement or Monte Carlo dropout to quantify when black-box IL policies are uncertain; however, these approaches can lead to overconfident estimates when faced with deployment-time distribution shifts. Instead, we contend that we need uncertainty quantification algorithms that can leverage the expert human feedback received during deployment time to adapt the robot's uncertainty online. To tackle this, we draw upon online conformal prediction, a distribution-free method for constructing prediction intervals online given a stream of ground-truth labels. Human labels, however, are intermittent in the interactive IL setting. Thus, from the conformal prediction side, we introduce a novel uncertainty quantification algorithm called intermittent quantile tracking (IQT) that leverages a probabilistic model of intermittent labels, maintains asymptotic coverage guarantees, and empirically achieves desired coverage levels. From the interactive IL side, we develop ConformalDAgger, a new approach wherein the robot uses prediction intervals calibrated by IQT as a reliable measure of deployment-time uncertainty to actively query for more expert feedback. We compare ConformalDAgger to prior uncertainty-aware DAgger methods in scenarios where the distribution shift is (and isn't) present because of changes in the expert's policy. We find that in simulated and hardware deployments on a 7DOF robotic manipulator, ConformalDAgger detects high uncertainty when the expert shifts and increases the number of interventions compared to baselines, allowing the robot to more quickly learn the new behavior.
- Abstract(参考訳): インタラクティブな模倣学習(IL)において、不確実性定量化は、学習者(つまりロボット)が、オンラインの専門家(すなわち人間)から積極的にフィードバックを求めることによって、デプロイメント中に遭遇する分散シフトと競合する手段を提供する。
それまでの作業では、アンサンブルの不一致やモンテカルロのドロップアウトといったメカニズムを使用して、ブラックボックスのILポリシーが不確実である場合の定量化を行っている。
その代わり、ロボットの不確実性をオンラインに適応させるために、デプロイメント時間中に受信した専門家のフィードバックを活用できる不確実性定量化アルゴリズムが必要である、と私たちは主張する。
そこで,本研究では,地層構造ラベルのストリームからオンラインの予測区間を構築するための分布自由化手法である,オンラインコンフォメーション予測について述べる。
しかし、人間ラベルは、対話型IL設定において断続的である。
したがって、共形予測側からは、間欠的なラベルの確率モデルを活用し、漸近的カバレッジ保証を維持し、所望のカバレッジレベルを実証的に達成する、間欠的量子化追跡(IQT)と呼ばれる新しい不確実性定量化アルゴリズムを導入する。
対話型ILの側面から、ロボットがIQTで校正された予測間隔を、デプロイ時の不確実性の信頼性の高い尺度として使用し、より専門家のフィードバックを積極的にクエリする新しいアプローチであるConformalDAggerを開発する。
我々は、ConformalDAggerを、専門家の方針の変化のため、分散シフトが(そしてそうでない)シナリオで、事前の不確実性を認識したDAggerメソッドと比較する。
7DOFロボットマニピュレータ上でのシミュレーションおよびハードウェア展開において、ConformalDAggerは、専門家がシフトする際の高い不確実性を検知し、ベースラインよりも介入の数を増やし、ロボットが新しい振る舞いをより早く学習できるようにする。
関連論文リスト
- UAHOI: Uncertainty-aware Robust Interaction Learning for HOI Detection [18.25576487115016]
本稿では,Human-Object Interaction(HOI)検出について述べる。
与えられた画像やビデオフレーム内の人間とオブジェクト間の相互作用を識別し、理解するという課題に対処する。
本研究では,不確実性を考慮したロバストなヒューマンオブジェクトインタラクション学習であるtextscUAHOIを提案する。
論文 参考訳(メタデータ) (2024-08-14T10:06:39Z) - Uncertainty Quantification for Forward and Inverse Problems of PDEs via
Latent Global Evolution [110.99891169486366]
本稿では,効率的かつ高精度な不確実性定量化を深層学習に基づく代理モデルに統合する手法を提案する。
本手法は,フォワード問題と逆問題の両方に対して,堅牢かつ効率的な不確実性定量化機能を備えたディープラーニングに基づく代理モデルを提案する。
提案手法は, 長期予測を含むシナリオに適合し, 拡張された自己回帰ロールアウトに対する不確かさの伝播に優れる。
論文 参考訳(メタデータ) (2024-02-13T11:22:59Z) - Lightweight, Uncertainty-Aware Conformalized Visual Odometry [2.429910016019183]
データ駆動型ビジュアルオドメトリー(VO)は、自律エッジロボティクスにとって重要なサブルーチンである。
昆虫スケールドローンや外科ロボットのような最先端ロボットデバイスは、VOの予測の不確実性を推定する計算的に効率的な枠組みを欠いている。
本稿では,共形推論(CI)を利用してVOの不確実な帯域を抽出する,新しい,軽量で統計的に堅牢なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-03T20:37:55Z) - Calibrating AI Models for Wireless Communications via Conformal
Prediction [55.47458839587949]
コンフォーマル予測は,通信システムにおけるAIの設計に初めて適用される。
本稿では,形式的校正保証付き決定を生成するAIモデルを得るための一般フレームワークとしての共形予測の適用について検討する。
論文 参考訳(メタデータ) (2022-12-15T12:52:23Z) - Interpretable Self-Aware Neural Networks for Robust Trajectory
Prediction [50.79827516897913]
本稿では,意味概念間で不確実性を分散する軌道予測のための解釈可能なパラダイムを提案する。
実世界の自動運転データに対する我々のアプローチを検証し、最先端のベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-16T06:28:20Z) - A general framework for multi-step ahead adaptive conformal
heteroscedastic time series forecasting [0.0]
本稿では,適応アンサンブルバッチ多出力多出力共形量子化回帰(AEnbMIMOCQR)と呼ばれる新しいモデル非依存アルゴリズムを提案する。
これにより、予測者は、固定された特定された誤発見率に対して、分布のない方法で、複数段階の事前予測間隔を生成できる。
本手法は, 整合予測の原理に基づいているが, データの分割は不要であり, データの交換ができない場合でも, ほぼ正確なカバレッジを提供する。
論文 参考訳(メタデータ) (2022-07-28T16:40:26Z) - Probabilistic Symmetry for Multi-Agent Dynamics [18.94585103009698]
本稿では,多エージェント軌道の確率論的予測のための新しい動的モデルである確率的同変連続共進化(PECCO)を提案する。
PECCOは、非同変ベースラインに比べて精度とキャリブレーションが大幅に向上した。
論文 参考訳(メタデータ) (2022-05-04T07:51:08Z) - Training on Test Data with Bayesian Adaptation for Covariate Shift [96.3250517412545]
ディープニューラルネットワークは、信頼できない不確実性推定で不正確な予測を行うことが多い。
分布シフトの下でのラベルなし入力とモデルパラメータとの明確に定義された関係を提供するベイズモデルを導出する。
本手法は精度と不確実性の両方を向上することを示す。
論文 参考訳(メタデータ) (2021-09-27T01:09:08Z) - A Gentle Introduction to Conformal Prediction and Distribution-Free
Uncertainty Quantification [1.90365714903665]
このハンズオン導入は、配布不要なUQの実践的な実装に関心のある読者を対象としている。
PyTorch構文で、Pythonで説明的なイラストやサンプル、コードサンプルを多数含みます。
論文 参考訳(メタデータ) (2021-07-15T17:59:50Z) - Learning Uncertainty For Safety-Oriented Semantic Segmentation In
Autonomous Driving [77.39239190539871]
自律運転における安全クリティカル画像セグメンテーションを実現するために、不確実性推定をどのように活用できるかを示す。
相似性関数によって測定された不一致予測に基づく新しい不確実性尺度を導入する。
本研究では,提案手法が競合手法よりも推論時間において計算集約性が低いことを示す。
論文 参考訳(メタデータ) (2021-05-28T09:23:05Z) - Quantifying Uncertainty in Deep Spatiotemporal Forecasting [67.77102283276409]
本稿では,正規格子法とグラフ法という2種類の予測問題について述べる。
我々はベイジアンおよび頻繁な視点からUQ法を解析し、統計的決定理論を通じて統一的な枠組みを提示する。
実際の道路ネットワークのトラフィック、疫病、空気質予測タスクに関する広範な実験を通じて、異なるUQ手法の統計計算トレードオフを明らかにする。
論文 参考訳(メタデータ) (2021-05-25T14:35:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。