論文の概要: Distilling Conditional Diffusion Models for Offline Reinforcement
Learning through Trajectory Stitching
- arxiv url: http://arxiv.org/abs/2402.00807v1
- Date: Thu, 1 Feb 2024 17:44:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 14:14:40.382289
- Title: Distilling Conditional Diffusion Models for Offline Reinforcement
Learning through Trajectory Stitching
- Title(参考訳): 軌道縫合によるオフライン強化学習のための蒸留条件拡散モデル
- Authors: Shangzhe Li and Xinhua Zhang
- Abstract要約: 本稿では,データ拡張に基づく知識蒸留手法を提案する。
高反射軌道は条件付き拡散モデルから生成され、新しい縫合アルゴリズムにより元の軌道とブレンドされる。
結果として得られたデータセットを行動的クローニングに適用することにより、D4RLベンチマークの詳細な生成プランナに匹敵するサイズがはるかに小さい、あるいははるかに小さい、学習の浅いポリシが実現される。
- 参考スコア(独自算出の注目度): 14.295558685860941
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep generative models have recently emerged as an effective approach to
offline reinforcement learning. However, their large model size poses
challenges in computation. We address this issue by proposing a knowledge
distillation method based on data augmentation. In particular, high-return
trajectories are generated from a conditional diffusion model, and they are
blended with the original trajectories through a novel stitching algorithm that
leverages a new reward generator. Applying the resulting dataset to behavioral
cloning, the learned shallow policy whose size is much smaller outperforms or
nearly matches deep generative planners on several D4RL benchmarks.
- Abstract(参考訳): オフライン強化学習の効果的なアプローチとして、深層生成モデルが最近登場している。
しかし、その大きなモデルサイズは計算に困難をもたらす。
データ拡張に基づく知識蒸留法を提案することでこの問題に対処する。
特に, 条件付き拡散モデルからハイリターン軌道が生成され, 新たな報酬発生器を利用した新しい縫合アルゴリズムにより, 元の軌道とブレンドされる。
結果として得られたデータセットを行動的クローニングに適用することにより、D4RLベンチマークの詳細な生成プランナに匹敵するサイズがはるかに小さい、あるいははるかに小さい、学習の浅いポリシが実現される。
関連論文リスト
- Continual Learning of Diffusion Models with Generative Distillation [37.71623422718308]
拡散モデルは、画像合成などのタスクにおいて最先端のパフォーマンスを達成する強力な生成モデルである。
本稿では,拡散モデルの全逆過程を除去する生成蒸留法を提案する。
論文 参考訳(メタデータ) (2023-11-23T14:33:03Z) - Improving Out-of-Distribution Robustness of Classifiers via Generative
Interpolation [56.620403243640396]
ディープニューラルネットワークは、独立かつ同一に分散されたデータ(すなわち、d)から学習する上で、優れたパフォーマンスを達成する。
しかし、アウト・オブ・ディストリビューション(OoD)データを扱う場合、その性能は著しく低下する。
多様なOoDサンプルを合成するために,複数のドメインから学習した生成モデルを融合するための生成補間法(Generative Interpolation)を開発した。
論文 参考訳(メタデータ) (2023-07-23T03:53:53Z) - Gradient Surgery for One-shot Unlearning on Generative Model [0.989293617504294]
我々は、深層生成モデルに影響を及ぼすデータを取り除くための、単純で効果的なアプローチを導入する。
マルチタスク学習における作業に触発されて,サンプル間の影響の相互作用を規則化する勾配の操作を提案する。
論文 参考訳(メタデータ) (2023-07-10T13:29:23Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - Learning to Jump: Thinning and Thickening Latent Counts for Generative
Modeling [69.60713300418467]
ジャンプの学習は、様々な種類のデータの生成モデリングのための一般的なレシピである。
ジャンプの学習が、デノゼの学習と相容れないパフォーマンスを期待される場合と、より良いパフォーマンスを期待される場合を実証する。
論文 参考訳(メタデータ) (2023-05-28T05:38:28Z) - Low-rank Tensor Assisted K-space Generative Model for Parallel Imaging
Reconstruction [14.438899814473446]
並列画像再構成のための低ランクテンソル支援k空間生成モデル(LR-KGM)を提案する。
これは、学習のための元の事前情報を高次元の事前情報に変換することを意味する。
実験により, LR-KGM法は高い性能を示した。
論文 参考訳(メタデータ) (2022-12-11T13:34:43Z) - Bootstrapped Transformer for Offline Reinforcement Learning [31.43012728924881]
オフライン強化学習(RL)は、以前に収集した静的な軌跡データから実際の環境と相互作用することなく、ポリシーを学習することを目的としている。
最近の研究は、オフラインRLを汎用シーケンス生成問題として見ることによって、新しい視点を提供する。
本稿では,ブートストラップの概念を取り入れたBootstrapped Transformerという新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-17T05:57:47Z) - Double Check Your State Before Trusting It: Confidence-Aware
Bidirectional Offline Model-Based Imagination [31.805991958408438]
トレーニングされた双方向ダイナミクスモデルとロールアウトポリシをダブルチェックで使用することにより,オフラインデータセットの強化を提案する。
提案手法は,信頼度を考慮した双方向オフラインモデルに基づくイマジネーションであり,信頼度の高いサンプルを生成し,任意のモデルレスオフラインRL法と組み合わせることができる。
論文 参考訳(メタデータ) (2022-06-16T08:00:44Z) - Training Discrete Deep Generative Models via Gapped Straight-Through
Estimator [72.71398034617607]
再サンプリングのオーバーヘッドを伴わずに分散を低減するため, GST (Gapped Straight-Through) 推定器を提案する。
この推定子は、Straight-Through Gumbel-Softmaxの本質的な性質に着想を得たものである。
実験により,提案したGST推定器は,2つの離散的な深部生成モデリングタスクの強いベースラインと比較して,優れた性能を享受できることが示された。
論文 参考訳(メタデータ) (2022-06-15T01:46:05Z) - Churn Reduction via Distillation [54.5952282395487]
本研究は, 基礎モデルを教師として用いた蒸留によるトレーニングと, 予測的チャーンに対する明示的な制約によるトレーニングとの等価性を示す。
次に, 蒸留が近年の多くのベースラインに対する低チャーン訓練に有効であることを示す。
論文 参考訳(メタデータ) (2021-06-04T18:03:31Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。