論文の概要: Value function estimation using conditional diffusion models for control
- arxiv url: http://arxiv.org/abs/2306.07290v1
- Date: Fri, 9 Jun 2023 18:40:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 16:37:10.882032
- Title: Value function estimation using conditional diffusion models for control
- Title(参考訳): 条件拡散モデルを用いた制御のための値関数推定
- Authors: Bogdan Mazoure, Walter Talbott, Miguel Angel Bautista, Devon Hjelm,
Alexander Toshev, Josh Susskind
- Abstract要約: 拡散値関数(DVF)と呼ばれる単純なアルゴリズムを提案する。
拡散モデルを用いて環境-ロボット相互作用の連成多段階モデルを学ぶ。
本稿では,DVFを用いて複数のコントローラの状態を効率よく把握する方法を示す。
- 参考スコア(独自算出の注目度): 62.27184818047923
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A fairly reliable trend in deep reinforcement learning is that the
performance scales with the number of parameters, provided a complimentary
scaling in amount of training data. As the appetite for large models increases,
it is imperative to address, sooner than later, the potential problem of
running out of high-quality demonstrations. In this case, instead of collecting
only new data via costly human demonstrations or risking a simulation-to-real
transfer with uncertain effects, it would be beneficial to leverage vast
amounts of readily-available low-quality data. Since classical control
algorithms such as behavior cloning or temporal difference learning cannot be
used on reward-free or action-free data out-of-the-box, this solution warrants
novel training paradigms for continuous control. We propose a simple algorithm
called Diffused Value Function (DVF), which learns a joint multi-step model of
the environment-robot interaction dynamics using a diffusion model. This model
can be efficiently learned from state sequences (i.e., without access to reward
functions nor actions), and subsequently used to estimate the value of each
action out-of-the-box. We show how DVF can be used to efficiently capture the
state visitation measure for multiple controllers, and show promising
qualitative and quantitative results on challenging robotics benchmarks.
- Abstract(参考訳): 深層強化学習のかなり信頼性の高いトレンドは、パフォーマンスがパラメータ数に比例してスケールし、トレーニングデータの量に補完的なスケーリングを提供したことです。
大規模モデルの食欲が高まるにつれて、遅かれ早かれ、高品質なデモがなくなる潜在的な問題に対処しなくてはならない。
この場合、コストのかかる人間のデモンストレーションを通じて新しいデータのみを集めるか、不確実な効果でシミュレーションから現実への転送を危険にさらすのではなく、膨大な量の低品質データを活用することは有益である。
行動クローニングや時間差学習のような古典的な制御アルゴリズムは報酬のないデータやアクションのないデータには使用できないため、このソリューションは継続的な制御のための新しいトレーニングパラダイムを保証している。
本稿では,拡散モデルを用いて環境-ロボット相互作用の連成多段階モデルを学ぶDiffused Value Function (DVF) という単純なアルゴリズムを提案する。
このモデルは、(報酬機能やアクションにアクセスせずに)状態シーケンスから効率的に学習でき、その後、各アクションの値を最初から見積もるために使われる。
本稿では,dvfを用いて複数コントローラの状態来訪手段を効率的に捉える方法を示し,ロボットベンチマークに挑戦する上で,有望な質的・定量的な結果を示す。
関連論文リスト
- Simulation-Free Training of Neural ODEs on Paired Data [20.36333430055869]
我々は,NODEのシミュレーションフリートレーニングにフローマッチングフレームワークを用いる。
ペアデータ間で直接フローマッチングを適用することは、しばしば不定義のフローにつながることを示す。
データペアの埋め込み空間にフローマッチングを適用するための簡単な拡張を提案する。
論文 参考訳(メタデータ) (2024-10-30T11:18:27Z) - Diffusion-Generative Multi-Fidelity Learning for Physical Simulation [24.723536390322582]
本研究では,微分方程式(SDE)に基づく拡散生成多忠実学習法を開発した。
付加的な入力(時間変数や空間変数)を条件にすることで、我々のモデルは効率的に多次元の解列を学習し、予測することができる。
論文 参考訳(メタデータ) (2023-11-09T18:59:05Z) - Diffusion-Model-Assisted Supervised Learning of Generative Models for
Density Estimation [10.793646707711442]
本稿では,密度推定のための生成モデルを訓練するためのフレームワークを提案する。
スコアベース拡散モデルを用いてラベル付きデータを生成する。
ラベル付きデータが生成されると、シンプルな完全に接続されたニューラルネットワークをトレーニングして、教師付き方法で生成モデルを学ぶことができます。
論文 参考訳(メタデータ) (2023-10-22T23:56:19Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - Model Predictive Control with Self-supervised Representation Learning [13.225264876433528]
本稿では,TD-MPCフレームワーク内での再構成機能の利用を提案する。
提案した損失項の追加は、状態ベースタスクと画像ベースタスクの両方のパフォーマンス改善につながる。
論文 参考訳(メタデータ) (2023-04-14T16:02:04Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Automatic Recall Machines: Internal Replay, Continual Learning and the
Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。
本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。
代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文 参考訳(メタデータ) (2020-06-22T15:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。