論文の概要: Bellman Diffusion Models
- arxiv url: http://arxiv.org/abs/2407.12163v1
- Date: Tue, 16 Jul 2024 20:40:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 19:08:36.773911
- Title: Bellman Diffusion Models
- Title(参考訳): ベルマン拡散モデル
- Authors: Liam Schramm, Abdeslam Boularias,
- Abstract要約: 政策の後継状態尺度(SSM)のモデルクラスとして拡散を利用する方法について検討する。
ベルマンフローの制約を強制することは、拡散ステップ分布の単純なベルマン更新につながる。
- 参考スコア(独自算出の注目度): 18.25487451605638
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have seen tremendous success as generative architectures. Recently, they have been shown to be effective at modelling policies for offline reinforcement learning and imitation learning. We explore using diffusion as a model class for the successor state measure (SSM) of a policy. We find that enforcing the Bellman flow constraints leads to a simple Bellman update on the diffusion step distribution.
- Abstract(参考訳): 拡散モデルは生成的アーキテクチャとして大きな成功を収めた。
近年,オフライン強化学習や模倣学習のためのポリシーのモデル化に有効であることが示されている。
政策の後継状態尺度(SSM)のモデルクラスとして拡散を利用する方法について検討する。
ベルマンフローの制約を強制することは、拡散ステップ分布の単純なベルマン更新につながる。
関連論文リスト
- Learning Diffusion Priors from Observations by Expectation Maximization [6.224769485481242]
不完全および雑音のみから拡散モデルをトレーニングするための新しい予測最大化アルゴリズムを提案する。
提案手法の一環として,非条件拡散モデルのための新しい後部サンプリング手法を提案し,動機づける。
論文 参考訳(メタデータ) (2024-05-22T15:04:06Z) - Learning a Diffusion Model Policy from Rewards via Q-Score Matching [93.0191910132874]
本稿では,拡散モデルポリシの構造を学習されたQ-関数に関連付ける理論的枠組みを提案する。
本稿では,この理論からQスコアマッチングを示す新しいポリシー更新手法を提案する。
論文 参考訳(メタデータ) (2023-12-18T23:31:01Z) - Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。
本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T11:19:11Z) - Phasic Content Fusing Diffusion Model with Directional Distribution
Consistency for Few-Shot Model Adaption [73.98706049140098]
本稿では,方向分布の整合性を損なう少数ショット拡散モデルを用いた新しいファシックコンテンツを提案する。
具体的には、ファシックコンテンツ融合を用いたファシックトレーニング戦略を設計し、tが大きければ、モデルがコンテンツやスタイル情報を学ぶのに役立てる。
最後に、ドメイン適応時の構造整合性を高めるクロスドメイン構造ガイダンス戦略を提案する。
論文 参考訳(メタデータ) (2023-09-07T14:14:11Z) - Crossway Diffusion: Improving Diffusion-based Visuomotor Policy via
Self-supervised Learning [42.009856923352864]
拡散モデルは、シーケンス・モデリング方式で行動的クローニングに採用されている。
拡散に基づくビジュモータポリシー学習の簡易かつ効果的な手法であるクロスウェイ拡散を提案する。
シミュレーションおよび実世界のロボット作業におけるクロスウェイ拡散の有効性を実証した。
論文 参考訳(メタデータ) (2023-07-04T17:59:29Z) - Eliminating Lipschitz Singularities in Diffusion Models [51.806899946775076]
拡散モデルは、時間ステップの零点付近で無限のリプシッツをしばしば表すことを示す。
これは、積分演算に依存する拡散過程の安定性と精度に脅威をもたらす。
我々はE-TSDMと呼ばれる新しい手法を提案し、これは0に近い拡散モデルのリプシッツを除去する。
論文 参考訳(メタデータ) (2023-06-20T03:05:28Z) - Diff-Instruct: A Universal Approach for Transferring Knowledge From
Pre-trained Diffusion Models [77.83923746319498]
本稿では,任意の生成モデルの学習を指導するDiff-Instructというフレームワークを提案する。
Diff-Instructは、最先端の単一ステップ拡散モデルであることを示す。
GANモデルの精製実験により、Diff-InstructはGANモデルの事前訓練されたジェネレータを一貫して改善できることが示されている。
論文 参考訳(メタデータ) (2023-05-29T04:22:57Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - Live in the Moment: Learning Dynamics Model Adapted to Evolving Policy [13.819070455425075]
我々は、すべての歴史的政策に対する経験的状態-行動訪問分布に適合するダイナミクスモデルを学習する。
そこで我々はtextitPolicy-adapted Dynamics Model Learning (PDML) という新しい動的モデル学習手法を提案する。
MuJoCoにおける一連の連続制御環境の実験では、PDMLは、最先端のモデルベースRL法と組み合わせて、サンプル効率と高い性能で大幅に改善されている。
論文 参考訳(メタデータ) (2022-07-25T12:45:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。