論文の概要: Is Conditional Generative Modeling all you need for Decision-Making?
- arxiv url: http://arxiv.org/abs/2211.15657v4
- Date: Mon, 10 Jul 2023 07:25:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 19:03:52.948315
- Title: Is Conditional Generative Modeling all you need for Decision-Making?
- Title(参考訳): 条件付き生成モデリングは意思決定に必要なすべてか?
- Authors: Anurag Ajay, Yilun Du, Abhi Gupta, Joshua Tenenbaum, Tommi Jaakkola,
Pulkit Agrawal
- Abstract要約: 条件生成モデリングは意思決定の強力なツールであることを示す。
その結果,条件付き生成モデリングは意思決定の強力なツールであることがわかった。
- 参考スコア(独自算出の注目度): 19.39663779573325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent improvements in conditional generative modeling have made it possible
to generate high-quality images from language descriptions alone. We
investigate whether these methods can directly address the problem of
sequential decision-making. We view decision-making not through the lens of
reinforcement learning (RL), but rather through conditional generative
modeling. To our surprise, we find that our formulation leads to policies that
can outperform existing offline RL approaches across standard benchmarks. By
modeling a policy as a return-conditional diffusion model, we illustrate how we
may circumvent the need for dynamic programming and subsequently eliminate many
of the complexities that come with traditional offline RL. We further
demonstrate the advantages of modeling policies as conditional diffusion models
by considering two other conditioning variables: constraints and skills.
Conditioning on a single constraint or skill during training leads to behaviors
at test-time that can satisfy several constraints together or demonstrate a
composition of skills. Our results illustrate that conditional generative
modeling is a powerful tool for decision-making.
- Abstract(参考訳): 近年の条件生成モデルの改良により,言語記述だけで高品質な画像を生成することが可能になった。
これらの手法が逐次意思決定の問題に直接対処できるかどうかを検討する。
我々は、強化学習(RL)のレンズを通してではなく、条件付き生成モデルを通して意思決定を行う。
驚いたことに、私たちの定式化は、標準ベンチマークで既存のオフラインRLアプローチを上回り得るポリシーにつながります。
ポリシーを戻り条件拡散モデルとしてモデル化することで、動的プログラミングの必要性を回避し、それから従来のオフラインrlで発生する多くの複雑さを排除する方法を説明します。
さらに,条件拡散モデルとしてのポリシーモデリングの利点を,制約とスキルの2つの条件変数を考慮に入れて実証する。
トレーニング中の単一の制約やスキルの条件付けは、複数の制約を満たすか、あるいはスキルの組み合わせを示すテスト時の振る舞いにつながります。
条件付き生成モデリングは意思決定のための強力なツールであることを示す。
関連論文リスト
- Conditional Generation from Unconditional Diffusion Models using
Denoiser Representations [94.04631421741986]
本稿では,学習したデノイザネットワークの内部表現を用いて,事前学習した非条件拡散モデルを新しい条件に適用することを提案する。
提案手法により生成した合成画像を用いたTiny ImageNetトレーニングセットの強化により,ResNetベースラインの分類精度が最大8%向上することを示す。
論文 参考訳(メタデータ) (2023-06-02T20:09:57Z) - Maximum Likelihood on the Joint (Data, Condition) Distribution for
Solving Ill-Posed Problems with Conditional Flow Models [0.0]
所定のルールを用いてフローモデルをトレーニングするためのトリックを、最大限のサロゲートとして記述する。
これらの特性を、容易に視覚化された玩具問題に示し、その手法を用いて、クラス条件画像の生成に成功した。
論文 参考訳(メタデータ) (2022-08-24T21:50:25Z) - Your Autoregressive Generative Model Can be Better If You Treat It as an
Energy-Based One [83.5162421521224]
本稿では,自己回帰生成モデルの学習のための独自のE-ARM法を提案する。
E-ARMは、よく設計されたエネルギーベースの学習目標を活用する。
我々は、E-ARMを効率的に訓練でき、露光バイアス問題を緩和できることを示した。
論文 参考訳(メタデータ) (2022-06-26T10:58:41Z) - Training and Inference on Any-Order Autoregressive Models the Right Way [97.39464776373902]
Any-Order Autoregressive Models (AO-ARMs) のファミリは、任意の条件付きタスクにおいてブレークスルーのパフォーマンスを示している。
我々は、AO-ARMの以前の定式化に対して行うべき重要な改善について確認する。
本手法はトラクタビリティを損なうことなく性能を向上する。
論文 参考訳(メタデータ) (2022-05-26T18:00:02Z) - Energy-Based Models for Code Generation under Compilability Constraints [2.9176992922046923]
本研究では,コンパイル可能なコードを制約満足度として生成する学習の課題を提起する。
本稿では,コンパイル可能なシーケンスのみを生成する制約を課した,事前学習された生成モデルを表すEnergy-Based Model(EBM)を定義する。
次に,KL-Adaptive Distributional Policy Gradientアルゴリズムを用いて,EMMを近似した生成モデルを訓練する。
論文 参考訳(メタデータ) (2021-06-09T11:06:32Z) - Reinforcement Learning as One Big Sequence Modeling Problem [84.84564880157149]
強化学習(Reinforcement Learning, RL)は、通常、単一ステップポリシーや単一ステップモデルの推定に関係している。
我々は、RLをシーケンスモデリング問題とみなし、高い報酬のシーケンスにつながる一連のアクションを予測することを目標としている。
論文 参考訳(メタデータ) (2021-06-03T17:58:51Z) - Model-Invariant State Abstractions for Model-Based Reinforcement
Learning [54.616645151708994]
textitmodel-invarianceという新しいタイプの状態抽象化を紹介します。
これにより、状態変数の見当たらない値の新しい組み合わせへの一般化が可能になる。
このモデル不変状態抽象化を通じて最適なポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2021-02-19T10:37:54Z) - Deep Conditional Transformation Models [0.0]
特徴集合上の結果変数条件の累積分布関数(CDF)を学習することは依然として困難である。
条件変換モデルは、条件付きCDFの大規模なクラスをモデル化できる半パラメトリックなアプローチを提供する。
我々は,新しいネットワークアーキテクチャを提案し,異なるモデル定義の詳細を提供し,適切な制約を導出する。
論文 参考訳(メタデータ) (2020-10-15T16:25:45Z) - Conditional Generative Modeling via Learning the Latent Space [54.620761775441046]
マルチモーダル空間における条件生成のための新しい枠組みを提案する。
潜在変数を使って一般化可能な学習パターンをモデル化する。
推論では、潜伏変数は複数の出力モードに対応する最適解を見つけるために最適化される。
論文 参考訳(メタデータ) (2020-10-07T03:11:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。