論文の概要: Diffusion Meets DAgger: Supercharging Eye-in-hand Imitation Learning
- arxiv url: http://arxiv.org/abs/2402.17768v2
- Date: Wed, 5 Jun 2024 17:33:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 01:01:43.417987
- Title: Diffusion Meets DAgger: Supercharging Eye-in-hand Imitation Learning
- Title(参考訳): DiffusionがDAggerと出会う: 目と手の動きの学習を超える
- Authors: Xiaoyu Zhang, Matthew Chang, Pranav Kumar, Saurabh Gupta,
- Abstract要約: 模倣で訓練されたポリシーの一般的な失敗モードは、テスト時に実行エラーを複雑化することである。
本稿では,DAgger の利点を,手作業による模倣学習のコストを伴わずに享受できる Diffusion Meets DAgger を提案する。
- 参考スコア(独自算出の注目度): 19.458890207817408
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A common failure mode for policies trained with imitation is compounding execution errors at test time. When the learned policy encounters states that are not present in the expert demonstrations, the policy fails, leading to degenerate behavior. The Dataset Aggregation, or DAgger approach to this problem simply collects more data to cover these failure states. However, in practice, this is often prohibitively expensive. In this work, we propose Diffusion Meets DAgger (DMD), a method to reap the benefits of DAgger without the cost for eye-in-hand imitation learning problems. Instead of collecting new samples to cover out-of-distribution states, DMD uses recent advances in diffusion models to synthesize these samples. This leads to robust performance from few demonstrations. We compare DMD against behavior cloning baseline across four tasks: pushing, stacking, pouring, and shirt hanging. In pushing, DMD achieves 80% success rate with as few as 8 expert demonstrations, where naive behavior cloning reaches only 20%. In stacking, DMD succeeds on average 92% of the time across 5 cups, versus 40% for BC. When pouring coffee beans, DMD transfers to another cup successfully 80% of the time. Finally, DMD attains 90% success rate for hanging shirt on a clothing rack.
- Abstract(参考訳): 模倣で訓練されたポリシーの一般的な失敗モードは、テスト時に実行エラーを複雑化することである。
学習されたポリシーが専門家のデモに存在しないと宣言すると、ポリシーは失敗し、振る舞いを退化させる。
データ集合(Dataset Aggregation)あるいはDAggerアプローチは、これらの障害状態をカバーするために、単により多くのデータを収集する。
しかし、実際には高額であることが多い。
本研究では,手作業による模倣学習のコストを伴わずにDAggerの利点を享受するDiffusion Meets DAgger (DMD)を提案する。
分散状態をカバーするために新しいサンプルを集める代わりに、MDDは最近の拡散モデルを用いてこれらのサンプルを合成する。
これは、少数のデモから堅牢なパフォーマンスをもたらす。
DMDと行動クローニングのベースラインを,プッシュ,積み重ね,注ぐ,シャツハングという4つのタスクで比較した。
プッシュでは、DMDは8つの専門家によるデモンストレーションで80%の成功率を達成した。
積み重ねでは、DMDは5杯で平均92%の時間で成功し、BCでは40%である。
コーヒー豆を注ぐと、DMDは80%の時間で別のカップに転送される。
最後に、DMDは洋服ラックに掛けたシャツの90%の成功率を達成した。
関連論文リスト
- Devil in the Tail: A Multi-Modal Framework for Drug-Drug Interaction Prediction in Long Tail Distinction [12.430490805111921]
薬物と薬物の相互作用(DDI)の同定は薬理学研究の重要な側面である。
本稿では、DDI分類を実現するために、薬物の複数の特性を活用するために、新しいマルチモーダルディープラーニングベースのフレームワークTFDMを紹介した。
カテゴリーごとの分布歪による課題に対処するため, タレド・フォカル・ロスと呼ばれる新たな損失関数を導入する。
論文 参考訳(メタデータ) (2024-10-16T05:21:22Z) - Potion: Towards Poison Unlearning [47.00450933765504]
悪意あるアクターによる機械学習システムに対する敵対的攻撃は重大なリスクをもたらす。
このような攻撃を解決する上での課題は、実際に有毒データのサブセットのみを特定できる場合である。
我々の研究は、有毒未学習の最先端を推し進めるための2つの重要な課題に対処する。
論文 参考訳(メタデータ) (2024-06-13T14:35:11Z) - Diffusion Denoising as a Certified Defense against Clean-label Poisoning [56.04951180983087]
本稿では,市販の拡散モデルを用いて,改ざんしたトレーニングデータを浄化する方法を示す。
7件のクリーンラベル中毒に対する我々の防御を広範囲に検証し、その攻撃成功率を0-16%に抑え、テスト時間の精度は無視できない程度に低下した。
論文 参考訳(メタデータ) (2024-03-18T17:17:07Z) - DALA: A Distribution-Aware LoRA-Based Adversarial Attack against
Language Models [64.79319733514266]
敵攻撃は入力データに微妙な摂動をもたらす可能性がある。
最近の攻撃方法は比較的高い攻撃成功率(ASR)を達成することができる。
そこで本研究では,分散ロラをベースとしたDALA(Adversarial Attack)手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T23:43:47Z) - Lethal Dose Conjecture on Data Poisoning [122.83280749890078]
データ中毒は、悪意のある目的のために機械学習アルゴリズムのトレーニングセットを歪ませる敵を考える。
本研究は, 致死線量導出法(Lethal Dose Conjecture)とよばれるデータ中毒の基礎について, 1つの予想を立証するものである。
論文 参考訳(メタデータ) (2022-08-05T17:53:59Z) - SSM-DTA: Breaking the Barriers of Data Scarcity in Drug-Target Affinity
Prediction [127.43571146741984]
薬物標的親和性(DTA)は、早期の薬物発見において極めて重要である。
湿式実験は依然として最も信頼性の高い方法であるが、時間と資源が集中している。
既存の手法は主に、データ不足の問題に適切に対処することなく、利用可能なDTAデータに基づく技術開発に重点を置いている。
SSM-DTAフレームワークについて述べる。
論文 参考訳(メタデータ) (2022-06-20T14:53:25Z) - Analyzing Dynamic Adversarial Training Data in the Limit [50.00850852546616]
動的逆データ収集(DADC)は、このような多様なトレーニングセットを生成するためのアプローチとして、約束を守る。
本研究は,NLIの20ラウンドを少数の前提項で収集する,長期DADCに関する最初の研究である。
DADCの例でトレーニングされたモデルでは、専門家が計算したテストセットのエラーが、非敵のデータでトレーニングされたモデルよりも26%少なくなります。
論文 参考訳(メタデータ) (2021-10-16T08:48:52Z) - DP-InstaHide: Provably Defusing Poisoning and Backdoor Attacks with
Differentially Private Data Augmentations [54.960853673256]
混合や無作為な付加ノイズなどの強いデータ拡張は、わずかな精度のトレードオフに耐えながら、毒の攻撃を無効にする。
DP-InstaHideの厳密な分析によると、ミキサップは確かにプライバシー上の利点があり、kウェイミキサップによるトレーニングは、単純DPメカニズムよりも少なくともk倍強いDP保証が得られる。
論文 参考訳(メタデータ) (2021-03-02T23:07:31Z) - Using Single-Step Adversarial Training to Defend Iterative Adversarial
Examples [6.609200722223488]
そこで本研究では,単段階と反復的な両対向的な例から防御できる,新しい一段階対向訓練法を提案する。
提案手法は, 試験精度が35.67%向上し, 訓練時間を19.14%短縮する。
論文 参考訳(メタデータ) (2020-02-22T05:36:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。