論文の概要: Diffusion Model-Augmented Behavioral Cloning
- arxiv url: http://arxiv.org/abs/2302.13335v1
- Date: Sun, 26 Feb 2023 15:40:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 17:46:35.172732
- Title: Diffusion Model-Augmented Behavioral Cloning
- Title(参考訳): 拡散モデルによる行動クローニング
- Authors: Hsiang-Chun Wang, Shang-Fu Chen, Shao-Hua Sun
- Abstract要約: シミュレーション学習は、環境からの報酬信号にアクセスせずに専門家のデモンストレーションを観察することで学習の課題に対処する。
行動クローニング(BC)は、模擬学習を教師付き学習問題として定式化し、サンプル化された状態-動作ペアから学習する。
拡散モデル拡張行動クローニング(Diffusion-BC)を提案する。
- 参考スコア(独自算出の注目度): 6.488575826304025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imitation learning addresses the challenge of learning by observing an
expert's demonstrations without access to reward signals from the environment.
Behavioral cloning (BC) formulates imitation learning as a supervised learning
problem and learns from sampled state-action pairs. Despite its simplicity, it
often fails to capture the temporal structure of the task and the global
information of expert demonstrations. This work aims to augment BC by employing
diffusion models for modeling expert behaviors, and designing a learning
objective that leverages learned diffusion models to guide policy learning. To
this end, we propose diffusion model-augmented behavioral cloning
(Diffusion-BC) that combines our proposed diffusion model guided learning
objective with the BC objective, which complements each other. Our proposed
method outperforms baselines or achieves competitive performance in various
continuous control domains, including navigation, robot arm manipulation, and
locomotion. Ablation studies justify our design choices and investigate the
effect of balancing the BC and our proposed diffusion model objective.
- Abstract(参考訳): 模倣学習は、環境からの報奨信号にアクセスせずに専門家のデモンストレーションを観察することで学習の課題に対処する。
行動クローニング(bc)は、模倣学習を教師あり学習問題として定式化し、サンプル状態-アクションペアから学習する。
その単純さにもかかわらず、しばしばタスクの時間構造と専門家によるデモンストレーションのグローバルな情報を取得することに失敗する。
この研究は、専門家の行動のモデル化に拡散モデルを採用し、政策学習を導くために学習拡散モデルを活用した学習目標を設計することで、bcを増強することを目的としている。
この目的のために,提案した拡散モデル誘導学習目標と相互補完するBC目標を組み合わせた拡散モデル拡張行動クローニング(Diffusion-BC)を提案する。
提案手法は,ナビゲーション,ロボットアーム操作,移動などの連続制御領域において,ベースラインを上回り,競争力を発揮する。
アブレーション研究は設計選択を正当化し、bcと提案する拡散モデル目標のバランスをとる効果について検討する。
関連論文リスト
- Continuous Bayesian Model Selection for Multivariate Causal Discovery [22.945274948173182]
現在の因果的発見アプローチは、構造的識別可能性を確保するために、限定的なモデル仮定や介入データへのアクセスを必要とする。
近年の研究では、ベイズモデルの選択はより柔軟な仮定のために制限的モデリングを交換することで精度を大幅に向上させることができることが示されている。
合成データセットと実世界のデータセットの両方において、我々のアプローチの競争力を実証する。
論文 参考訳(メタデータ) (2024-11-15T12:55:05Z) - InterHandGen: Two-Hand Interaction Generation via Cascaded Reverse Diffusion [53.90516061351706]
両手インタラクションに先立って生成を学習する新しいフレームワークであるInterHandGenを提案する。
サンプリングにアンチペネティフィケーションと合成フリーガイダンスを組み合わせることで、プラウシブルな生成を可能にする。
本手法は, 妥当性と多様性の観点から, ベースライン生成モデルよりも有意に優れていた。
論文 参考訳(メタデータ) (2024-03-26T06:35:55Z) - A Probabilistic Fluctuation based Membership Inference Attack for Diffusion Models [32.15773300068426]
メンバーシップ推論攻撃(MIA)は、機械学習モデルのトレーニングセットに、モデルをクエリすることでレコードが存在するかどうかを特定する。
PFAMI(Probabilistic Fluctuation Assessing Membership Inference Attack)を提案する。
PFAMIは最高のベースラインと比較して攻撃成功率(ASR)を約27.9%向上させることができる。
論文 参考訳(メタデータ) (2023-08-23T14:00:58Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - On the Generalization of Diffusion Model [42.447639515467934]
生成したデータとトレーニングセットの相互情報によって測定される生成モデルの一般化を定義する。
実験的最適拡散モデルでは, 決定論的サンプリングによって生成されたデータは, すべてトレーニングセットに強く関連しており, 一般化が不十分であることを示す。
本稿では,経験的最適解が一般化問題を持たない別の学習目標を提案する。
論文 参考訳(メタデータ) (2023-05-24T04:27:57Z) - Bi-Noising Diffusion: Towards Conditional Diffusion Models with
Generative Restoration Priors [64.24948495708337]
本研究では,事前訓練した非条件拡散モデルを用いて,予測サンプルをトレーニングデータ多様体に導入する手法を提案する。
我々は,超解像,着色,乱流除去,画像劣化作業におけるアプローチの有効性を実証するための総合的な実験を行った。
論文 参考訳(メタデータ) (2022-12-14T17:26:35Z) - Model-based micro-data reinforcement learning: what are the crucial
model properties and which model to choose? [0.2836066255205732]
我々は,マイクロデータモデルに基づく強化学習(MBRL)に寄与する。
マルチモーダルな後続予測を必要とする環境では、混合密度ネットは他のモデルよりも大きなマージンで優れていることがわかった。
また、決定論的モデルは同等であり、実際、確率論的モデルよりも一貫して(非目立ったことではないが)優れていることも見出した。
論文 参考訳(メタデータ) (2021-07-24T11:38:25Z) - PSD Representations for Effective Probability Models [117.35298398434628]
最近提案された非負関数に対する正半定値(PSD)モデルがこの目的に特に適していることを示す。
我々はPSDモデルの近似と一般化能力の両方を特徴付け、それらが強い理論的保証を享受していることを示す。
本研究では,PSDモデルの密度推定,決定理論,推論への応用への道を開く。
論文 参考訳(メタデータ) (2021-06-30T15:13:39Z) - A Twin Neural Model for Uplift [59.38563723706796]
Upliftは条件付き治療効果モデリングの特定のケースです。
相対リスクのベイズ解釈との関連性を利用して定義した新たな損失関数を提案する。
本提案手法は,シミュレーション設定の最先端と大規模ランダム化実験による実データとの競合性を示す。
論文 参考訳(メタデータ) (2021-05-11T16:02:39Z) - Generalization and Memorization: The Bias Potential Model [9.975163460952045]
生成モデルと密度推定器は、関数の学習モデルとは全く異なる振る舞いをする。
バイアスポテンシャルモデルでは、早期停止が採用された場合、次元非依存の一般化精度が達成可能であることを示す。
長期的には、モデルはサンプルを記憶するか、分岐させる。
論文 参考訳(メタデータ) (2020-11-29T04:04:54Z) - Autoregressive Score Matching [113.4502004812927]
自動回帰条件スコアモデル(AR-CSM)を提案する。
AR-CSMモデルでは、このデータ分布とモデル分布のばらつきを効率的に計算し、最適化することができ、高価なサンプリングや対向訓練を必要としない。
本研究では,合成データに対する密度推定,画像生成,画像復調,暗黙エンコーダを用いた潜在変数モデルの訓練に応用できることを示す。
論文 参考訳(メタデータ) (2020-10-24T07:01:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。