論文の概要: Diffusion Model-Augmented Behavioral Cloning
- arxiv url: http://arxiv.org/abs/2302.13335v3
- Date: Mon, 20 Nov 2023 04:52:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 20:10:05.182171
- Title: Diffusion Model-Augmented Behavioral Cloning
- Title(参考訳): 拡散モデルによる行動クローニング
- Authors: Hsiang-Chun Wang, Shang-Fu Chen, Ming-Hao Hsu, Chun-Mao Lai, Shao-Hua
Sun
- Abstract要約: 本研究は、専門家分布の条件付き確率と結合確率の両方をモデル化することの恩恵を受ける模倣学習フレームワークを提案する。
提案した拡散モデル拡張行動クローニング(DBC)では,専門家の行動のモデル化に訓練された拡散モデルを用いて,BCG損失(条件)と拡散モデル損失(ジョイント)の両方を最適化する政策を学習している。
- 参考スコア(独自算出の注目度): 4.68107665123037
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imitation learning addresses the challenge of learning by observing an
expert's demonstrations without access to reward signals from environments.
Most existing imitation learning methods that do not require interacting with
environments either model the expert distribution as the conditional
probability p(a|s) (e.g., behavioral cloning, BC) or the joint probability p(s,
a). Despite its simplicity, modeling the conditional probability with BC
usually struggles with generalization. While modeling the joint probability can
lead to improved generalization performance, the inference procedure is often
time-consuming and the model can suffer from manifold overfitting. This work
proposes an imitation learning framework that benefits from modeling both the
conditional and joint probability of the expert distribution. Our proposed
diffusion model-augmented behavioral cloning (DBC) employs a diffusion model
trained to model expert behaviors and learns a policy to optimize both the BC
loss (conditional) and our proposed diffusion model loss (joint). DBC
outperforms baselines in various continuous control tasks in navigation, robot
arm manipulation, dexterous manipulation, and locomotion. We design additional
experiments to verify the limitations of modeling either the conditional
probability or the joint probability of the expert distribution as well as
compare different generative models. Ablation studies justify the effectiveness
of our design choices.
- Abstract(参考訳): 模倣学習は、環境からの報奨信号にアクセスせずに専門家のデモンストレーションを観察して学習の課題に対処する。
環境と相互作用する必要のない既存の模倣学習法は、専門家分布を条件付き確率p(a|s)(例えば、行動的クローニング、BC)または共同確率p(s,a)としてモデル化する。
その単純さにもかかわらず、条件付き確率のモデル化は通常一般化に苦しむ。
ジョイント確率のモデル化は一般化性能の向上に繋がるが、推論手順はしばしば時間がかかり、モデルは多様体の過剰フィットに苦しむ。
本研究は,専門家分布の条件付き確率と合同確率の両方をモデル化することで得られる模倣学習フレームワークを提案する。
提案する拡散モデル提示行動クローニング(dbc)は,専門家の行動のモデル化を訓練した拡散モデルを採用し,bc損失(条件)と提案拡散モデル損失(joint)の両方を最適化する方針を学習する。
dbcはナビゲーション、ロボットアーム操作、デクスタース操作、ロコモーションといった様々な連続制御タスクにおいてベースラインを上回る。
我々は,条件付き確率と専門家分布のジョイント確率のどちらかをモデル化する限界を検証するための追加実験を設計し,異なる生成モデルと比較する。
アブレーション研究は設計選択の有効性を正当化する。
関連論文リスト
- Continuous Bayesian Model Selection for Multivariate Causal Discovery [22.945274948173182]
現在の因果的発見アプローチは、構造的識別可能性を確保するために、限定的なモデル仮定や介入データへのアクセスを必要とする。
近年の研究では、ベイズモデルの選択はより柔軟な仮定のために制限的モデリングを交換することで精度を大幅に向上させることができることが示されている。
合成データセットと実世界のデータセットの両方において、我々のアプローチの競争力を実証する。
論文 参考訳(メタデータ) (2024-11-15T12:55:05Z) - InterHandGen: Two-Hand Interaction Generation via Cascaded Reverse Diffusion [53.90516061351706]
両手インタラクションに先立って生成を学習する新しいフレームワークであるInterHandGenを提案する。
サンプリングにアンチペネティフィケーションと合成フリーガイダンスを組み合わせることで、プラウシブルな生成を可能にする。
本手法は, 妥当性と多様性の観点から, ベースライン生成モデルよりも有意に優れていた。
論文 参考訳(メタデータ) (2024-03-26T06:35:55Z) - A Probabilistic Fluctuation based Membership Inference Attack for Diffusion Models [32.15773300068426]
メンバーシップ推論攻撃(MIA)は、機械学習モデルのトレーニングセットに、モデルをクエリすることでレコードが存在するかどうかを特定する。
PFAMI(Probabilistic Fluctuation Assessing Membership Inference Attack)を提案する。
PFAMIは最高のベースラインと比較して攻撃成功率(ASR)を約27.9%向上させることができる。
論文 参考訳(メタデータ) (2023-08-23T14:00:58Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - On the Generalization of Diffusion Model [42.447639515467934]
生成したデータとトレーニングセットの相互情報によって測定される生成モデルの一般化を定義する。
実験的最適拡散モデルでは, 決定論的サンプリングによって生成されたデータは, すべてトレーニングセットに強く関連しており, 一般化が不十分であることを示す。
本稿では,経験的最適解が一般化問題を持たない別の学習目標を提案する。
論文 参考訳(メタデータ) (2023-05-24T04:27:57Z) - Bi-Noising Diffusion: Towards Conditional Diffusion Models with
Generative Restoration Priors [64.24948495708337]
本研究では,事前訓練した非条件拡散モデルを用いて,予測サンプルをトレーニングデータ多様体に導入する手法を提案する。
我々は,超解像,着色,乱流除去,画像劣化作業におけるアプローチの有効性を実証するための総合的な実験を行った。
論文 参考訳(メタデータ) (2022-12-14T17:26:35Z) - Model-based micro-data reinforcement learning: what are the crucial
model properties and which model to choose? [0.2836066255205732]
我々は,マイクロデータモデルに基づく強化学習(MBRL)に寄与する。
マルチモーダルな後続予測を必要とする環境では、混合密度ネットは他のモデルよりも大きなマージンで優れていることがわかった。
また、決定論的モデルは同等であり、実際、確率論的モデルよりも一貫して(非目立ったことではないが)優れていることも見出した。
論文 参考訳(メタデータ) (2021-07-24T11:38:25Z) - PSD Representations for Effective Probability Models [117.35298398434628]
最近提案された非負関数に対する正半定値(PSD)モデルがこの目的に特に適していることを示す。
我々はPSDモデルの近似と一般化能力の両方を特徴付け、それらが強い理論的保証を享受していることを示す。
本研究では,PSDモデルの密度推定,決定理論,推論への応用への道を開く。
論文 参考訳(メタデータ) (2021-06-30T15:13:39Z) - A Twin Neural Model for Uplift [59.38563723706796]
Upliftは条件付き治療効果モデリングの特定のケースです。
相対リスクのベイズ解釈との関連性を利用して定義した新たな損失関数を提案する。
本提案手法は,シミュレーション設定の最先端と大規模ランダム化実験による実データとの競合性を示す。
論文 参考訳(メタデータ) (2021-05-11T16:02:39Z) - Generalization and Memorization: The Bias Potential Model [9.975163460952045]
生成モデルと密度推定器は、関数の学習モデルとは全く異なる振る舞いをする。
バイアスポテンシャルモデルでは、早期停止が採用された場合、次元非依存の一般化精度が達成可能であることを示す。
長期的には、モデルはサンプルを記憶するか、分岐させる。
論文 参考訳(メタデータ) (2020-11-29T04:04:54Z) - Autoregressive Score Matching [113.4502004812927]
自動回帰条件スコアモデル(AR-CSM)を提案する。
AR-CSMモデルでは、このデータ分布とモデル分布のばらつきを効率的に計算し、最適化することができ、高価なサンプリングや対向訓練を必要としない。
本研究では,合成データに対する密度推定,画像生成,画像復調,暗黙エンコーダを用いた潜在変数モデルの訓練に応用できることを示す。
論文 参考訳(メタデータ) (2020-10-24T07:01:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。