論文の概要: Learning to Reach Goals via Diffusion
- arxiv url: http://arxiv.org/abs/2310.02505v1
- Date: Wed, 4 Oct 2023 00:47:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 17:00:55.111375
- Title: Learning to Reach Goals via Diffusion
- Title(参考訳): 拡散による目標達成の学習
- Authors: Vineet Jain and Siamak Ravanbakhsh
- Abstract要約: 本稿では,拡散モデリングの文脈内でのフレーミングによる目標条件強化学習の新たな視点を示す。
我々は,潜在的な目標状態から離れる軌道を構築し,得点関数に類似した目標条件の政策を学ぶ。
Merlinと呼ばれるこのアプローチは、別の値関数を学ぶことなく、任意の初期状態から事前定義された、あるいは新しい目標に到達することができます。
- 参考スコア(独自算出の注目度): 19.308522511657447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models are a powerful class of generative models capable of mapping
random noise in high-dimensional spaces to a target manifold through iterative
denoising. In this work, we present a novel perspective on goal-conditioned
reinforcement learning by framing it within the context of diffusion modeling.
Analogous to the diffusion process, where Gaussian noise is used to create
random trajectories that walk away from the data manifold, we construct
trajectories that move away from potential goal states. We then learn a
goal-conditioned policy analogous to the score function. This approach, which
we call Merlin, can reach predefined or novel goals from an arbitrary initial
state without learning a separate value function. We consider three choices for
the noise model to replace Gaussian noise in diffusion - reverse play from the
buffer, reverse dynamics model, and a novel non-parametric approach. We
theoretically justify our approach and validate it on offline goal-reaching
tasks. Empirical results are competitive with state-of-the-art methods, which
suggests this perspective on diffusion for RL is a simple, scalable, and
effective direction for sequential decision-making.
- Abstract(参考訳): 拡散モデル(英: Diffusion model)は、高次元空間におけるランダムノイズを反復的 denoising を通じて対象多様体にマッピングできる強力な生成モデルのクラスである。
本研究では,拡散モデリングの文脈内でのフレーミングによる目標条件強化学習の新たな視点を示す。
ガウスノイズがデータ多様体から離れるランダムな軌跡を生成する拡散過程に類似して、潜在的な目標状態から離れて移動する軌跡を構築する。
次にスコア関数に類似した目標条件付きポリシーを学習する。
Merlinと呼ばれるこのアプローチは、別の値関数を学習することなく、任意の初期状態から事前定義された、あるいは新しい目標に到達することができます。
我々は,バッファからの逆遊び,逆ダイナミクスモデル,新しい非パラメトリックアプローチという,ガウス雑音の代わりにノイズモデルを選択する3つの選択肢を考える。
理論的には我々のアプローチを正当化し、オフラインの目標達成タスクで検証する。
これはrlの拡散に関するこの視点が、シーケンシャルな意思決定のためのシンプルでスケーラブルで効果的な方向であることを示唆している。
関連論文リスト
- Diffusion-ES: Gradient-free Planning with Diffusion for Autonomous
Driving and Zero-Shot Instruction Following [22.907995159434037]
Reward-gradient guided denoisingは、微分可能報酬関数と拡散モデルによって捕捉されたデータ分布下での確率の両方を最大化する軌道を生成する。
そこで我々は,勾配のない最適化と軌道デノゲーションを組み合わせたDiffusionESを提案する。
DiffusionESは、自動運転のための確立されたクローズドループ計画ベンチマークであるnuPlan上で、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-02-09T17:18:33Z) - On diffusion models for amortized inference: Benchmarking and improving
stochastic control and sampling [96.7808454149545]
本研究では,非正規化密度やエネルギー関数を持つ分布からサンプルを抽出する拡散モデルの訓練問題について検討する。
シミュレーションに基づく変分法や非政治手法など,拡散構造推論手法のベンチマークを行った。
我々の結果は、過去の研究の主張に疑問を投げかけながら、既存のアルゴリズムの相対的な利点を浮き彫りにした。
論文 参考訳(メタデータ) (2024-02-07T18:51:49Z) - Learning a Diffusion Model Policy from Rewards via Q-Score Matching [99.7952627335176]
拡散モデルは、行動クローニングとオフライン強化学習においてアクターポリシーを表現するために一般的な選択肢となっている。
それまでの作業では、拡散モデルのスコアベース構造を活用できず、代わりに単純な行動クローニング用語を使用してアクターを訓練した。
本稿では,Q関数のスコアと行動勾配の関連構造を利用した拡散モデルポリシーの学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-18T23:31:01Z) - Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。
本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T11:19:11Z) - Exploring Iterative Refinement with Diffusion Models for Video Grounding [17.435735275438923]
ビデオグラウンドイングは、所定の文クエリに対応する未編集ビデオにおいて、ターゲットモーメントをローカライズすることを目的としている。
条件生成タスクとしてビデオグラウンドを定式化する拡散モデルを用いた新しいフレームワークであるDiffusionVGを提案する。
論文 参考訳(メタデータ) (2023-10-26T07:04:44Z) - Unsupervised Discovery of Interpretable Directions in h-space of
Pre-trained Diffusion Models [63.1637853118899]
本稿では,事前学習した拡散モデルのh空間における解釈可能な方向を特定するための,教師なしおよび学習に基づく最初の手法を提案する。
我々は、事前訓練された拡散モデルのh-スペースで動作するシフト制御モジュールを用いて、サンプルをシフトしたバージョンに操作する。
それらを共同で最適化することで、モデルは自然に絡み合った、解釈可能な方向を発見する。
論文 参考訳(メタデータ) (2023-10-15T18:44:30Z) - Observation-Guided Diffusion Probabilistic Models [41.749374023639156]
観測誘導拡散確率モデル(OGDM)と呼ばれる新しい拡散に基づく画像生成法を提案する。
本手法は,観測プロセスの指導をマルコフ連鎖と統合することにより,トレーニング目標を再構築する。
本研究では,強力な拡散モデルベースライン上での多様な推論手法を用いたトレーニングアルゴリズムの有効性を示す。
論文 参考訳(メタデータ) (2023-10-06T06:29:06Z) - MetaDiff: Meta-Learning with Conditional Diffusion for Few-Shot Learning [19.57633448737394]
グラディエントベースのメタ学習アプローチは、新しいタスクの学習方法を学ぶことで、この課題に効果的に対処する。
本稿では,モデル重みの最適化プロセスを効果的にモデル化するメタディフという,タスク条件拡散に基づくメタラーニングを提案する。
実験結果から,メタディフは,最先端の勾配に基づくメタラーニングファミリよりも,数ショットの学習タスクで優れていたことが判明した。
論文 参考訳(メタデータ) (2023-07-31T06:19:48Z) - Crossway Diffusion: Improving Diffusion-based Visuomotor Policy via
Self-supervised Learning [42.009856923352864]
拡散モデルは、シーケンス・モデリング方式で行動的クローニングに採用されている。
拡散に基づくビジュモータポリシー学習の簡易かつ効果的な手法であるクロスウェイ拡散を提案する。
シミュレーションおよび実世界のロボット作業におけるクロスウェイ拡散の有効性を実証した。
論文 参考訳(メタデータ) (2023-07-04T17:59:29Z) - Score-based Source Separation with Applications to Digital Communication
Signals [72.6570125649502]
拡散モデルを用いた重畳音源の分離手法を提案する。
高周波(RF)システムへの応用によって、我々は、基礎となる離散的な性質を持つ情報源に興味を持っている。
提案手法は,最近提案されたスコア蒸留サンプリング方式のマルチソース拡張と見なすことができる。
論文 参考訳(メタデータ) (2023-06-26T04:12:40Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。