論文の概要: Real-Time Operator Takeover for Visuomotor Diffusion Policy Training
- arxiv url: http://arxiv.org/abs/2502.02308v2
- Date: Thu, 13 Feb 2025 09:38:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:44:12.183495
- Title: Real-Time Operator Takeover for Visuomotor Diffusion Policy Training
- Title(参考訳): Visuomotor Diffusion Policy Trainingのためのリアルタイム演算子テイクオーバ
- Authors: Nils Ingelhag, Jesper Munkeby, Michael C. Welle, Marco Moletta, Danica Kragic,
- Abstract要約: Real-Time Operator Takeover (RTOT) パラダイムにより、オペレータはライブビジュモータ拡散ポリシーをシームレスに制御できる。
マハロノビス距離を用いて、望ましくない状態を自動的に識別する新たな知見を提示する。
- 参考スコア(独自算出の注目度): 12.721199533591916
- License:
- Abstract: We present a Real-Time Operator Takeover (RTOT) paradigm enabling operators to seamlessly take control of a live visuomotor diffusion policy, guiding the system back into desirable states or reinforcing specific demonstrations. We present new insights in using the Mahalonobis distance to automatically identify undesirable states. Once the operator has intervened and redirected the system, the control is seamlessly returned to the policy, which resumes generating actions until further intervention is required. We demonstrate that incorporating the targeted takeover demonstrations significantly improves policy performance compared to training solely with an equivalent number of, but longer, initial demonstrations. We provide an in-depth analysis of using the Mahalanobis distance to detect out-of-distribution states, illustrating its utility for identifying critical failure points during execution. Supporting materials, including videos of initial and takeover demonstrations and all rice scooping experiments, are available on the project website: https://operator-takeover.github.io/
- Abstract(参考訳): 本稿では,実時間操作者テイクオーバー(RTOT)パラダイムを用いて,実時間操作者拡散ポリシーのシームレスな制御,望ましい状態への誘導,あるいは特定のデモンストレーションの強化を実現する。
マハロノビス距離を用いて、望ましくない状態を自動的に識別する新たな知見を提示する。
オペレーターがシステムをインターベンションしてリダイレクトすると、コントロールはポリシーにシームレスに返され、さらなる介入が必要になるまで生成アクションを再開する。
対象とするテイクオーバの実証を組み込むことで,初歩的な実演数が同等だがより長い訓練に比べて,政策性能が大幅に向上することが実証された。
本稿では,マハラノビス距離を用いて分布外状態の検出を行い,実行中の臨界故障点の同定に有効であることを示す。
イニシャルおよびテイクオーバデモのビデオやすべてのライススクーピング実験を含むサポート材料は、プロジェクトのWebサイトで公開されている。
関連論文リスト
- Imitation Learning from Suboptimal Demonstrations via Meta-Learning An Action Ranker [9.6508237676589]
模倣学習における大きなボトルネックは、多数の専門家によるデモンストレーションの要求である。
メタラーニング・アクション・ローダ(ILMAR)による模倣学習という新しい手法を提案する。
ILMARは、限定された専門家によるデモンストレーションと補足的なデモに重み付けされた行動クローニング(BC)を実装している。
論文 参考訳(メタデータ) (2024-12-28T16:06:44Z) - Offline Imitation Learning with Model-based Reverse Augmentation [48.64791438847236]
本稿では,自己ペースの逆拡張によるオフラインImitation Learningという,新しいモデルベースフレームワークを提案する。
具体的には、オフラインのデモからリバース・ダイナミック・モデルを構築し、専門家が観察した状態につながる軌道を効率的に生成する。
後続の強化学習法を用いて,拡張軌道から学習し,未観測状態から未観測状態へ移行する。
論文 参考訳(メタデータ) (2024-06-18T12:27:02Z) - Good Better Best: Self-Motivated Imitation Learning for noisy
Demonstrations [12.627982138086892]
イミテーション・ラーニングは,エージェントの行動と専門家による実演の相違を最小限にすることで,政策の発見を目指す。
本稿では,現在の政策に劣る政策によって収集された実演を段階的にフィルタリングする自己モチベーション・イミテーション・ラーニング(SMILE)を提案する。
論文 参考訳(メタデータ) (2023-10-24T13:09:56Z) - Robust Imitation of a Few Demonstrations with a Backwards Model [3.8530020696501794]
専門家によるデモンストレーションの行動クローニングは、強化学習よりもよりサンプル効率のよい学習ポリシーを高速化することができる。
実験の周囲のアトラクションの領域を拡大することで、エージェントがオフコースを走行した場合に、実証軌道に戻す方法を学ぶことができるようにすることで、この問題に対処する。
最適あるいは準最適の実証では、学習されたポリシーは、偏差に対して最適かつ堅牢であり、より広いアトラクション領域を持つ。
論文 参考訳(メタデータ) (2022-10-17T18:02:19Z) - Back to the Manifold: Recovering from Out-of-Distribution States [20.36024602311382]
本稿では,エージェントをトレーニング多様体に戻すための回復策を提案する。
実際のロボットプラットフォーム上での操作実験により提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-07-18T15:10:58Z) - Residual Reinforcement Learning from Demonstrations [51.56457466788513]
報酬信号の最大化のために,従来のフィードバックコントローラからの制御動作を適用することで,ロボット作業の課題を解決する手段として,残留強化学習(Residual reinforcement learning, RL)が提案されている。
視覚的インプットから学習するための残差定式化を拡張し,実演を用いて報酬をスパースする。
6-DoFのUR5アームと28-DoFのデキスタラスハンドのシミュレーション操作に関する実験的評価は、デモからの残留RLが、行動クローニングやRL微調整よりも柔軟に、見えない環境条件に一般化できることを実証している。
論文 参考訳(メタデータ) (2021-06-15T11:16:49Z) - Human-in-the-Loop Imitation Learning using Remote Teleoperation [72.2847988686463]
6-DoF操作設定に合わせたデータ収集システムを構築します。
システムによって収集された新しいデータに基づいて,ポリシーを反復的にトレーニングするアルゴリズムを開発した。
介入型システムで収集したデータに基づいて訓練されたエージェントと、非介入型デモ参加者が収集した同等数のサンプルで訓練されたアルゴリズムを上回るエージェントを実証する。
論文 参考訳(メタデータ) (2020-12-12T05:30:35Z) - SAFARI: Safe and Active Robot Imitation Learning with Imagination [16.967930721746676]
SAFARIは、新しい能動的学習制御アルゴリズムである。
これにより、エージェントは、これらのアウト・オブ・ディストリビューションの状況が満たされたときに、さらに人間のデモを要求することができる。
本手法により, エージェントが自律的に障害を迅速かつ安全に予測できることを示す。
論文 参考訳(メタデータ) (2020-11-18T23:43:59Z) - Self-supervised Video Object Segmentation [76.83567326586162]
本研究の目的は、半教師付きビデオオブジェクトセグメンテーション(高密度トラッキング)の解決を目的とした自己教師付き表現学習である。
i) 従来の自己教師型アプローチを改善すること、(ii) オンライン適応モジュールによる自己教師型アプローチの強化により、空間的時間的不連続性によるトラッカーのドリフトを緩和すること、(iv) DAVIS-2017とYouTubeの自己教師型アプローチで最先端の結果を示すこと、などが提案されている。
論文 参考訳(メタデータ) (2020-06-22T17:55:59Z) - Learning Invariant Representations for Reinforcement Learning without
Reconstruction [98.33235415273562]
本研究では,表現学習が画像などのリッチな観察からの強化学習を,ドメイン知識や画素再構成に頼ることなく促進する方法について検討する。
シミュレーションメトリクスは、連続MDPの状態間の振る舞いの類似性を定量化する。
修正された視覚的 MuJoCo タスクを用いてタスク関連情報を無視する手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-06-18T17:59:35Z) - State-Only Imitation Learning for Dexterous Manipulation [63.03621861920732]
本稿では,国家のみの模倣学習について考察する。
我々は、逆ダイナミクスモデルをトレーニングし、状態のみのデモンストレーションのアクションを予測するためにそれを使用します。
我々の手法は状態-作用アプローチと同等に動作し、RL単独よりもかなり優れています。
論文 参考訳(メタデータ) (2020-04-07T17:57:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。