論文の概要: AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
- arxiv url: http://arxiv.org/abs/2302.01877v1
- Date: Fri, 3 Feb 2023 17:28:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-06 15:25:17.218098
- Title: AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
- Title(参考訳): AdaptDiffuser: 適応的自己進化プランナーとしての拡散モデル
- Authors: Zhixuan Liang, Yao Mu, Mingyu Ding, Fei Ni, Masayoshi Tomizuka, Ping
Luo
- Abstract要約: 本稿では拡散モデルを改善するために自己進化可能な拡散を伴う進化的計画法であるAdaptDiffuserを紹介する。
報酬勾配からのガイダンスを用いて、ゴール条件付きタスクのためのリッチな合成専門家データを生成することができる。
次に、ディミネータを介して高品質なデータを選択し、拡散モデルを微調整し、タスクを発見できない能力を改善する。
- 参考スコア(独自算出の注目度): 44.09814808934747
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have demonstrated their powerful generative capability in
many tasks, with great potential to serve as a paradigm for offline
reinforcement learning. However, the quality of the diffusion model is limited
by the insufficient diversity of training data, which hinders the performance
of planning and the generalizability to new tasks. This paper introduces
AdaptDiffuser, an evolutionary planning method with diffusion that can
self-evolve to improve the diffusion model hence a better planner, not only for
seen tasks but can also adapt to unseen tasks. AdaptDiffuser enables the
generation of rich synthetic expert data for goal-conditioned tasks using
guidance from reward gradients. It then selects high-quality data via a
discriminator to finetune the diffusion model, which improves the
generalization ability to unseen tasks. Empirical experiments on two benchmark
environments and two carefully designed unseen tasks in KUKA industrial robot
arm and Maze2D environments demonstrate the effectiveness of AdaptDiffuser. For
example, AdaptDiffuser not only outperforms the previous art Diffuser by 20.8%
on Maze2D and 7.5% on MuJoCo locomotion, but also adapts better to new tasks,
e.g., KUKA pick-and-place, by 27.9% without requiring additional expert data.
- Abstract(参考訳): 拡散モデルは多くのタスクにおいて強力な生成能力を示しており、オフライン強化学習のパラダイムとして機能する可能性がある。
しかし, 拡散モデルの品質は, 学習データの多様性の不足によって制限され, 計画性能やタスクの一般化の妨げとなる。
本稿では,拡散モデルを改善するために自己展開可能な拡散を伴う進化的計画手法であるAdaptDiffuserを紹介する。
adaptdiffuserは、報酬勾配からのガイダンスを使用して、目標条件タスク用のリッチな合成エキスパートデータを生成することができる。
そして、識別器を介して高品質なデータを選択して拡散モデルを微調整し、タスクを検知しない一般化能力を向上させる。
KUKA産業用ロボットアームとMaze2D環境における2つのベンチマーク環境と2つの未確認タスクに関する実証実験は、AdaptDiffuserの有効性を実証している。
例えば、adaptdiffuserはmaze2dで20.8%、mujoco locomotionで7.5%、新たなタスク、例えばkuka pick-and-placeに27.9%、エキスパートデータなしで適応する。
関連論文リスト
- Model-Based Diffusion for Trajectory Optimization [8.943418808959494]
データ無しで軌道最適化(TO)問題を解決するために拡散法を用いた最適化手法であるモデルベース拡散(MBD)を導入する。
MBDは外部データを必要としないが、様々な性質のデータと自然に統合して拡散過程を制御できる。
MBDは、最先端の強化学習とサンプリングベースのTOメソッドを上回り、コンタクトリッチなタスクに挑戦する。
論文 参考訳(メタデータ) (2024-05-28T22:14:25Z) - Diffscaler: Enhancing the Generative Prowess of Diffusion Transformers [34.611309081801345]
本稿では,1つの事前学習拡散変圧器モデルにより,複数のデータセットを高速にスケールできるようにすることに焦点をあてる。
DiffScalerは拡散モデルの効率的なスケーリング戦略であり、異なるタスクに適応するために最小限のパラメータを訓練する。
変換器に基づく拡散モデルは,より小さなデータセットに対して微調整を行いながら,CNNに基づく拡散モデルよりも大幅に優れていることがわかった。
論文 参考訳(メタデータ) (2024-04-15T17:55:43Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - DiffsFormer: A Diffusion Transformer on Stock Factor Augmentation [36.75453713794983]
トランスフォーマーアーキテクチャを用いたストックファクタ生成のための拡散モデル(DiffsFormer)を提案する。
特定の下流タスクを提示すると、既存のサンプルを編集してトレーニング手順を強化するためにDiffsFormerを使用します。
提案手法は,各データセットの年次リターン率の7.2%と27.8%を相対的に改善する。
論文 参考訳(メタデータ) (2024-02-05T03:54:36Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。
本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T11:19:11Z) - Are Diffusion Models Vision-And-Language Reasoners? [30.579483430697803]
我々は、DiffusionITMと呼ばれる新しい手法を用いて、任意の画像テキストマッチング(ITM)タスクに対する拡散ベースモデルを変換する。
GDBench(Generative-Discriminative Evaluation Benchmark)ベンチマークを7つの複雑な視覚・言語タスク、バイアス評価、詳細な分析で導入する。
安定拡散+拡散ITMは多くのタスクで競争力があり、CLIPよりもCLEVRやWinogroundのようなコンポジションタスクで優れています。
論文 参考訳(メタデータ) (2023-05-25T18:02:22Z) - Improving GANs with A Dynamic Discriminator [106.54552336711997]
我々は、オンザフライで調整可能な判別器は、そのような時間変化に適応できると論じる。
総合的な実証研究により、提案したトレーニング戦略がDynamicDと呼ばれ、追加のコストやトレーニング目標を発生させることなく、合成性能を向上させることが確認された。
論文 参考訳(メタデータ) (2022-09-20T17:57:33Z) - Learning Invariant Representations across Domains and Tasks [81.30046935430791]
本稿では,この教師なしタスク転送問題を解決するための新しいタスク適応ネットワーク(tan)を提案する。
ドメイン・アドバーサル・トレーニングによる伝達可能な機能を学習することに加えて、学習から学習への戦略を用いてタスクの意味を適応させる新しいタスク・セマンティクス・アダプタを提案する。
TANは最近の強いベースラインに比べてリコールとF1スコアを5.0%と7.8%大きく向上させた。
論文 参考訳(メタデータ) (2021-03-03T11:18:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。