論文の概要: Diffusion Model-Augmented Behavioral Cloning
- arxiv url: http://arxiv.org/abs/2302.13335v4
- Date: Mon, 3 Jun 2024 16:17:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 23:35:51.848523
- Title: Diffusion Model-Augmented Behavioral Cloning
- Title(参考訳): 拡散モデルによる行動クローン化
- Authors: Shang-Fu Chen, Hsiang-Chun Wang, Ming-Hao Hsu, Chun-Mao Lai, Shao-Hua Sun,
- Abstract要約: 本研究は、専門家分布の条件付き確率と結合確率の両方をモデル化することの恩恵を受ける模倣学習フレームワークを提案する。
提案した拡散モデル拡張行動クローン(DBC)は,専門家の行動のモデル化に訓練された拡散モデルを用いて,BC損失(条件)と拡散モデル損失(ジョイント)の両方を最適化する政策を学習する。
- 参考スコア(独自算出の注目度): 4.363232795241617
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imitation learning addresses the challenge of learning by observing an expert's demonstrations without access to reward signals from environments. Most existing imitation learning methods that do not require interacting with environments either model the expert distribution as the conditional probability p(a|s) (e.g., behavioral cloning, BC) or the joint probability p(s, a). Despite the simplicity of modeling the conditional probability with BC, it usually struggles with generalization. While modeling the joint probability can improve generalization performance, the inference procedure is often time-consuming, and the model can suffer from manifold overfitting. This work proposes an imitation learning framework that benefits from modeling both the conditional and joint probability of the expert distribution. Our proposed Diffusion Model-Augmented Behavioral Cloning (DBC) employs a diffusion model trained to model expert behaviors and learns a policy to optimize both the BC loss (conditional) and our proposed diffusion model loss (joint). DBC outperforms baselines in various continuous control tasks in navigation, robot arm manipulation, dexterous manipulation, and locomotion. We design additional experiments to verify the limitations of modeling either the conditional probability or the joint probability of the expert distribution, as well as compare different generative models. Ablation studies justify the effectiveness of our design choices.
- Abstract(参考訳): シミュレーション学習は、環境からの報酬信号にアクセスせずに専門家のデモンストレーションを観察することで学習の課題に対処する。
環境と相互作用する必要のない既存の模倣学習法の多くは、専門家分布を条件付き確率 p(a|s) (例えば、行動的クローン、BC) または関節型確率 p(s,a) としてモデル化する。
BC で条件確率をモデル化する単純さにもかかわらず、通常は一般化に苦しむ。
結合確率をモデル化すると一般化性能が向上するが、推論手順は時間を要することが多く、モデルは多様体オーバーフィッティングに悩まされることがある。
本研究は、専門家分布の条件付き確率と結合確率の両方をモデル化することの恩恵を受ける模倣学習フレームワークを提案する。
提案した拡散モデル拡張行動クローニング(DBC)では,専門家の振る舞いをモデル化するための拡散モデルを用いて,BC損失(条件)と拡散モデル損失(結合)の両方を最適化するポリシを学習する。
DBCは、ナビゲーション、ロボットアーム操作、器用な操作、移動における様々な連続的な制御タスクにおいて、ベースラインよりも優れています。
我々は,条件付き確率と専門家分布の結合確率のどちらかをモデル化する限界を検証し,異なる生成モデルを比較するために,追加実験を設計する。
アブレーション研究は、我々の設計選択の有効性を正当化する。
関連論文リスト
- InterHandGen: Two-Hand Interaction Generation via Cascaded Reverse Diffusion [53.90516061351706]
両手インタラクションに先立って生成を学習する新しいフレームワークであるInterHandGenを提案する。
サンプリングにアンチペネティフィケーションと合成フリーガイダンスを組み合わせることで、プラウシブルな生成を可能にする。
本手法は, 妥当性と多様性の観点から, ベースライン生成モデルよりも有意に優れていた。
論文 参考訳(メタデータ) (2024-03-26T06:35:55Z) - A Probabilistic Fluctuation based Membership Inference Attack for Diffusion Models [32.15773300068426]
メンバーシップ推論攻撃(MIA)は、機械学習モデルのトレーニングセットに、モデルをクエリすることでレコードが存在するかどうかを特定する。
PFAMI(Probabilistic Fluctuation Assessing Membership Inference Attack)を提案する。
PFAMIは最高のベースラインと比較して攻撃成功率(ASR)を約27.9%向上させることができる。
論文 参考訳(メタデータ) (2023-08-23T14:00:58Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - On the Generalization of Diffusion Model [42.447639515467934]
生成したデータとトレーニングセットの相互情報によって測定される生成モデルの一般化を定義する。
実験的最適拡散モデルでは, 決定論的サンプリングによって生成されたデータは, すべてトレーニングセットに強く関連しており, 一般化が不十分であることを示す。
本稿では,経験的最適解が一般化問題を持たない別の学習目標を提案する。
論文 参考訳(メタデータ) (2023-05-24T04:27:57Z) - Bi-Noising Diffusion: Towards Conditional Diffusion Models with
Generative Restoration Priors [64.24948495708337]
本研究では,事前訓練した非条件拡散モデルを用いて,予測サンプルをトレーニングデータ多様体に導入する手法を提案する。
我々は,超解像,着色,乱流除去,画像劣化作業におけるアプローチの有効性を実証するための総合的な実験を行った。
論文 参考訳(メタデータ) (2022-12-14T17:26:35Z) - Model-based micro-data reinforcement learning: what are the crucial
model properties and which model to choose? [0.2836066255205732]
我々は,マイクロデータモデルに基づく強化学習(MBRL)に寄与する。
マルチモーダルな後続予測を必要とする環境では、混合密度ネットは他のモデルよりも大きなマージンで優れていることがわかった。
また、決定論的モデルは同等であり、実際、確率論的モデルよりも一貫して(非目立ったことではないが)優れていることも見出した。
論文 参考訳(メタデータ) (2021-07-24T11:38:25Z) - PSD Representations for Effective Probability Models [117.35298398434628]
最近提案された非負関数に対する正半定値(PSD)モデルがこの目的に特に適していることを示す。
我々はPSDモデルの近似と一般化能力の両方を特徴付け、それらが強い理論的保証を享受していることを示す。
本研究では,PSDモデルの密度推定,決定理論,推論への応用への道を開く。
論文 参考訳(メタデータ) (2021-06-30T15:13:39Z) - A Twin Neural Model for Uplift [59.38563723706796]
Upliftは条件付き治療効果モデリングの特定のケースです。
相対リスクのベイズ解釈との関連性を利用して定義した新たな損失関数を提案する。
本提案手法は,シミュレーション設定の最先端と大規模ランダム化実験による実データとの競合性を示す。
論文 参考訳(メタデータ) (2021-05-11T16:02:39Z) - Generalization and Memorization: The Bias Potential Model [9.975163460952045]
生成モデルと密度推定器は、関数の学習モデルとは全く異なる振る舞いをする。
バイアスポテンシャルモデルでは、早期停止が採用された場合、次元非依存の一般化精度が達成可能であることを示す。
長期的には、モデルはサンプルを記憶するか、分岐させる。
論文 参考訳(メタデータ) (2020-11-29T04:04:54Z) - Autoregressive Score Matching [113.4502004812927]
自動回帰条件スコアモデル(AR-CSM)を提案する。
AR-CSMモデルでは、このデータ分布とモデル分布のばらつきを効率的に計算し、最適化することができ、高価なサンプリングや対向訓練を必要としない。
本研究では,合成データに対する密度推定,画像生成,画像復調,暗黙エンコーダを用いた潜在変数モデルの訓練に応用できることを示す。
論文 参考訳(メタデータ) (2020-10-24T07:01:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。