論文の概要: Diffusion Meets DAgger: Supercharging Eye-in-hand Imitation Learning
- arxiv url: http://arxiv.org/abs/2402.17768v1
- Date: Tue, 27 Feb 2024 18:59:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 14:59:41.185402
- Title: Diffusion Meets DAgger: Supercharging Eye-in-hand Imitation Learning
- Title(参考訳): DiffusionがDAggerと出会う: 目と手の動きの学習
- Authors: Xiaoyu Zhang, Matthew Chang, Pranav Kumar, Saurabh Gupta
- Abstract要約: Diffusion Meets DAgger (DMD) は、手作業による模倣学習のコストを伴わずにDAggerの利点を享受する方法である。
フランカリサーチ3の非包括的プッシュ実験では、DMDが80%の成功率を達成できることを示す。
- 参考スコア(独自算出の注目度): 21.257439634899306
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A common failure mode for policies trained with imitation is compounding
execution errors at test time. When the learned policy encounters states that
were not present in the expert demonstrations, the policy fails, leading to
degenerate behavior. The Dataset Aggregation, or DAgger approach to this
problem simply collects more data to cover these failure states. However, in
practice, this is often prohibitively expensive. In this work, we propose
Diffusion Meets DAgger (DMD), a method to reap the benefits of DAgger without
the cost for eye-in-hand imitation learning problems. Instead of collecting new
samples to cover out-of-distribution states, DMD uses recent advances in
diffusion models to create these samples with diffusion models. This leads to
robust performance from few demonstrations. In experiments conducted for
non-prehensile pushing on a Franka Research 3, we show that DMD can achieve a
success rate of 80% with as few as 8 expert demonstrations, where naive
behavior cloning reaches only 20%. DMD also outperform competing NeRF-based
augmentation schemes by 50%.
- Abstract(参考訳): 模倣でトレーニングされたポリシーの一般的な障害モードは、テスト時に実行エラーを複合化することである。
学習された政策が専門家のデモに存在しない状態に遭遇すると、その政策は失敗し、行動が縮退する。
データ集合(Dataset Aggregation)あるいはDAggerアプローチは、単にこれらの障害状態をカバーするためにより多くのデータを収集する。
しかし、実際には、これはしばしば禁止的に高価である。
本研究では,手作業による模倣学習のコストを伴わずにDAggerの利点を享受するDiffusion Meets DAgger (DMD)を提案する。
分散状態をカバーするために新しいサンプルを集める代わりに、MDDは拡散モデルを用いてこれらのサンプルを作成する。
これは、少数のデモから堅牢なパフォーマンスをもたらす。
フランカ研究3で非理解型プッシュ実験を行った結果、dmdは8つの専門家による実験で80%の成功率を達成でき、ナイーブな行動のクローニングは20%に満たないことがわかった。
DMDはまた、競合するNeRFベースの拡張スキームを50%上回った。
関連論文リスト
- Higher Replay Ratio Empowers Sample-Efficient Multi-Agent Reinforcement Learning [47.17030172520195]
MARL(Multi-Agent Reinforcement Learning)のサンプル効率は、その固有の部分的可観測性、非定常トレーニング、および巨大な戦略空間のため、より困難である。
広く使われているエピソードトレーニング機構は、サンプル効率の低下の原因となる可能性があると論じる。
既に収集したデータをよりよく活用するために,環境相互作用毎の勾配更新の頻度を高めることを提案する。
論文 参考訳(メタデータ) (2024-04-15T12:18:09Z) - DALA: A Distribution-Aware LoRA-Based Adversarial Attack against
Language Models [64.79319733514266]
敵攻撃は入力データに微妙な摂動をもたらす可能性がある。
最近の攻撃方法は比較的高い攻撃成功率(ASR)を達成することができる。
そこで本研究では,分散ロラをベースとしたDALA(Adversarial Attack)手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T23:43:47Z) - Bridging the Gap: Addressing Discrepancies in Diffusion Model Training
for Classifier-Free Guidance [1.6804613362826175]
拡散モデルは、生成モデルにおいて重要な進歩として現れている。
本稿では,従来の訓練方法と所望の条件付きサンプリング行動との相違点を明らかにすることを目的とする。
トレーニング目標とサンプリング行動との整合性を向上する改良された損失関数を導入する。
論文 参考訳(メタデータ) (2023-11-02T02:03:12Z) - Semi-Implicit Denoising Diffusion Models (SIDDMs) [50.30163684539586]
Denoising Diffusion Probabilistic Models (DDPM)のような既存のモデルは、高品質で多様なサンプルを提供するが、本質的に多くの反復的なステップによって遅くなる。
暗黙的要因と明示的要因を一致させることにより、この問題に対処する新しいアプローチを導入する。
提案手法は拡散モデルに匹敵する生成性能と,少数のサンプリングステップを持つモデルに比較して非常に優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-21T18:49:22Z) - Reconstructing Graph Diffusion History from a Single Snapshot [91.9168290827762]
A single SnapsHot (DASH) から拡散履歴を再構築するための新しいバリセンターの定式化を提案する。
本研究では,拡散パラメータ推定のNP硬度により,拡散パラメータの推定誤差が避けられないことを証明する。
また、DITTO(Diffusion hitting Times with Optimal proposal)という効果的な解法も開発している。
論文 参考訳(メタデータ) (2023-06-01T09:39:32Z) - CamoDiffusion: Camouflaged Object Detection via Conditional Diffusion
Models [72.93652777646233]
カモフラーゲ型物体検出(COD)は、カモフラーゲ型物体とその周囲の類似性が高いため、コンピュータビジョンにおいて難しい課題である。
本研究では,CODを拡散モデルを利用した条件付きマスク生成タスクとして扱う新しいパラダイムを提案する。
カモ拡散(CamoDiffusion)と呼ばれる本手法では,拡散モデルのデノナイズプロセスを用いてマスクの雑音を反復的に低減する。
論文 参考訳(メタデータ) (2023-05-29T07:49:44Z) - Alleviating Exposure Bias in Diffusion Models through Sampling with Shifted Time Steps [23.144083737873263]
拡散確率モデル (DPM) は高品質な画像の合成において顕著な有効性を示した。
これまでの研究は、トレーニング中に入力を摂動することでこの問題を緩和しようと試みてきた。
モデルを再学習することなく,提案する新しいサンプリング手法を提案する。
論文 参考訳(メタデータ) (2023-05-24T21:39:27Z) - Lethal Dose Conjecture on Data Poisoning [122.83280749890078]
データ中毒は、悪意のある目的のために機械学習アルゴリズムのトレーニングセットを歪ませる敵を考える。
本研究は, 致死線量導出法(Lethal Dose Conjecture)とよばれるデータ中毒の基礎について, 1つの予想を立証するものである。
論文 参考訳(メタデータ) (2022-08-05T17:53:59Z) - Mind the Trade-off: Debiasing NLU Models without Degrading the
In-distribution Performance [70.31427277842239]
信頼性正則化という新しいデバイアス化手法を導入する。
モデルがバイアスを悪用するのを防ぐと同時に、トレーニングのすべての例から学ぶのに十分なインセンティブを得られるようにします。
提案手法を3つのNLUタスクで評価し,前者とは対照的に,アウト・オブ・ディストリビューション・データセットの性能が向上することを示す。
論文 参考訳(メタデータ) (2020-05-01T11:22:55Z) - Using Single-Step Adversarial Training to Defend Iterative Adversarial
Examples [6.609200722223488]
そこで本研究では,単段階と反復的な両対向的な例から防御できる,新しい一段階対向訓練法を提案する。
提案手法は, 試験精度が35.67%向上し, 訓練時間を19.14%短縮する。
論文 参考訳(メタデータ) (2020-02-22T05:36:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。