論文の概要: Back to the Manifold: Recovering from Out-of-Distribution States
- arxiv url: http://arxiv.org/abs/2207.08673v1
- Date: Mon, 18 Jul 2022 15:10:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-19 19:15:57.699550
- Title: Back to the Manifold: Recovering from Out-of-Distribution States
- Title(参考訳): back to the manifold: 分散状態から回復する
- Authors: Alfredo Reichlin, Giovanni Luca Marchetti, Hang Yin, Ali Ghadirzadeh
and Danica Kragic
- Abstract要約: 本稿では,エージェントをトレーニング多様体に戻すための回復策を提案する。
実際のロボットプラットフォーム上での操作実験により提案手法の有効性を実証する。
- 参考スコア(独自算出の注目度): 20.36024602311382
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning from previously collected datasets of expert data offers the promise
of acquiring robotic policies without unsafe and costly online explorations.
However, a major challenge is a distributional shift between the states in the
training dataset and the ones visited by the learned policy at the test time.
While prior works mainly studied the distribution shift caused by the policy
during the offline training, the problem of recovering from out-of-distribution
states at the deployment time is not very well studied yet. We alleviate the
distributional shift at the deployment time by introducing a recovery policy
that brings the agent back to the training manifold whenever it steps out of
the in-distribution states, e.g., due to an external perturbation. The recovery
policy relies on an approximation of the training data density and a learned
equivariant mapping that maps visual observations into a latent space in which
translations correspond to the robot actions. We demonstrate the effectiveness
of the proposed method through several manipulation experiments on a real
robotic platform. Our results show that the recovery policy enables the agent
to complete tasks while the behavioral cloning alone fails because of the
distributional shift problem.
- Abstract(参考訳): 以前に収集した専門家データのデータセットから学ぶことは、安全で費用のかかるオンライン探索なしにロボットポリシーを取得することを約束する。
しかし、大きな課題は、トレーニングデータセット内の状態と、テスト時に学習されたポリシーによって訪問された状態との間の分散シフトである。
先行研究は,オフライントレーニング中の方針による分布変化を主に研究していたが,展開時の分配状態から回復する問題は未だ十分に研究されていない。
エージェントをトレーニング用多様体に戻すことで、例えば外部の摂動による分散状態から離脱するたびに、エージェントをトレーニング用多様体に戻すというリカバリポリシーを導入することにより、デプロイメント時の分散シフトを軽減する。
回復ポリシーは、トレーニングデータ密度の近似と、視覚的な観察をロボットの動作に対応する潜在空間にマッピングする学習された同変写像に依存している。
実際のロボットプラットフォーム上での操作実験により提案手法の有効性を実証する。
以上の結果から,リカバリポリシーにより,分散シフト問題により行動クローニングのみが失敗する間,エージェントがタスクを完了できることがわかった。
関連論文リスト
- Out-of-Distribution Recovery with Object-Centric Keypoint Inverse Policy For Visuomotor Imitation Learning [2.6696199945489534]
本稿では,ビジュモータ政策学習におけるアウト・オブ・ディストリビューションシナリオの課題を解決するために,オブジェクト中心のリカバリポリシフレームワークを提案する。
シミュレーションおよび実ロボット実験において,本フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2024-11-05T17:41:14Z) - Mitigating Covariate Shift in Imitation Learning for Autonomous Vehicles Using Latent Space Generative World Models [60.87795376541144]
World Model(ワールドモデル)は、エージェントの次の状態を予測できるニューラルネットワークである。
エンド・ツー・エンドのトレーニングでは、人間のデモで観察された状態と整合してエラーから回復する方法を学ぶ。
クローズドループ試験における先行技術に有意な改善がみられた定性的,定量的な結果を示す。
論文 参考訳(メタデータ) (2024-09-25T06:48:25Z) - Diffusion Policies for Out-of-Distribution Generalization in Offline
Reinforcement Learning [1.9336815376402723]
オフラインのRLメソッドは、過去の経験を活用して、データ収集に使用される行動ポリシーよりも優れたポリシーを学ぶ。
しかし、オフラインのRLアルゴリズムは、トレーニング中にオンラインインタラクションが欠如しているため、分散シフトの処理やポリシーの効果的表現において課題に直面している。
本稿では,近年の拡散政策における状態再構成特徴学習を取り入れたSRDP(State Reconstruction for Diffusion Policies)という新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-10T17:34:23Z) - Get Back Here: Robust Imitation by Return-to-Distribution Planning [43.26690674765619]
我々は、実際のデプロイメント環境でではなく、別のバージョンで専門家データを収集するImitation Learning (IL)のセットアップについて検討する。
結果の分布シフトに対処するため,エージェントがデモンストレーション分布から逸脱するたびに,エージェントを専門家が訪れた状態に戻すことを任務とする行動クローニング(BC)とプランナーを組み合わせる。
結果のアルゴリズムPOIRはオフラインでトレーニングでき、オンラインインタラクションを活用してプランナーを効率よく微調整し、時間とともにパフォーマンスを向上する。
論文 参考訳(メタデータ) (2023-05-02T13:19:08Z) - Let Offline RL Flow: Training Conservative Agents in the Latent Space of
Normalizing Flows [58.762959061522736]
オフライン強化学習は、追加の環境相互作用なしに、事前に記録された、固定されたデータセット上でポリシーをトレーニングすることを目的としている。
我々は、最近、潜在行動空間における学習ポリシーを基礎として、生成モデルの構築に正規化フローの特別な形式を用いる。
提案手法が最近提案したアルゴリズムより優れていることを示すため,様々な移動タスクとナビゲーションタスクについて評価を行った。
論文 参考訳(メタデータ) (2022-11-20T21:57:10Z) - A State-Distribution Matching Approach to Non-Episodic Reinforcement
Learning [61.406020873047794]
現実世界の応用への大きなハードルは、エピソード的な環境でのアルゴリズムの開発である。
提案手法は,提案する実証実験における状態分布に一致するように後方方針を訓練する手法である。
実験の結果,MEDALは3つのスパース・リワード連続制御タスクにおいて先行手法と一致し,性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-05-11T00:06:29Z) - On Covariate Shift of Latent Confounders in Imitation and Reinforcement
Learning [69.48387059607387]
模擬・強化学習において,未観測の共同設立者と専門家データを併用することの問題点を考察する。
我々は、外部報酬を伴わずに、確立した専門家データから学ぶことの限界を分析する。
我々は,支援医療とレコメンデーションシステムシミュレーションの課題に挑戦する上で,我々の主張を実証的に検証する。
論文 参考訳(メタデータ) (2021-10-13T07:31:31Z) - Simplifying Deep Reinforcement Learning via Self-Supervision [51.2400839966489]
自己改善強化学習(Self-Supervised Reinforcement Learning, SSRL)は、純粋に監督された損失を伴うポリシーを最適化する単純なアルゴリズムである。
SSRLは、より安定した性能と実行時間の少ない現代アルゴリズムと驚くほど競合することを示す。
論文 参考訳(メタデータ) (2021-06-10T06:29:59Z) - Human-in-the-Loop Imitation Learning using Remote Teleoperation [72.2847988686463]
6-DoF操作設定に合わせたデータ収集システムを構築します。
システムによって収集された新しいデータに基づいて,ポリシーを反復的にトレーニングするアルゴリズムを開発した。
介入型システムで収集したデータに基づいて訓練されたエージェントと、非介入型デモ参加者が収集した同等数のサンプルで訓練されたアルゴリズムを上回るエージェントを実証する。
論文 参考訳(メタデータ) (2020-12-12T05:30:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。