Fugu-MT 論文翻訳(概要): Bellman Diffusion Models

論文の概要: Bellman Diffusion Models

arxiv url: http://arxiv.org/abs/2407.12163v1
Date: Tue, 16 Jul 2024 20:40:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-18 19:08:36.773911
Title: Bellman Diffusion Models
Title（参考訳）: ベルマン拡散モデル
Authors: Liam Schramm, Abdeslam Boularias,
Abstract要約: 政策の後継状態尺度(SSM)のモデルクラスとして拡散を利用する方法について検討する。ベルマンフローの制約を強制することは、拡散ステップ分布の単純なベルマン更新につながる。
参考スコア（独自算出の注目度）: 18.25487451605638
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Diffusion models have seen tremendous success as generative architectures. Recently, they have been shown to be effective at modelling policies for offline reinforcement learning and imitation learning. We explore using diffusion as a model class for the successor state measure (SSM) of a policy. We find that enforcing the Bellman flow constraints leads to a simple Bellman update on the diffusion step distribution.
Abstract（参考訳）: 拡散モデルは生成的アーキテクチャとして大きな成功を収めた。近年,オフライン強化学習や模倣学習のためのポリシーのモデル化に有効であることが示されている。政策の後継状態尺度(SSM)のモデルクラスとして拡散を利用する方法について検討する。ベルマンフローの制約を強制することは、拡散ステップ分布の単純なベルマン更新につながる。

関連論文リスト

Improving Joint Embedding Predictive Architecture with Diffusion Noise [17.836067519894154]
自己教師付き学習は、多くの下流タスクに広く適用され、機能学習の驚くほど成功した方法となった。これは特に差別的なタスクに対して有効であることが証明され、傾向の進行する生成モデルを上回っている。本稿では,N-JEPA (Noise-based JEPA) を用いて,マスク付きトークンの位置埋め込みにより拡散雑音をMIMに組み込む手法を提案する。
論文参考訳（メタデータ） (2025-07-21T03:36:58Z)
One-for-More: Continual Diffusion Model for Anomaly Detection [61.12622458367425]
異常検出法は拡散モデルを用いて任意の異常画像が与えられたときの正常サンプルの生成または再構成を行う。われわれは,拡散モデルが「重度忠実幻覚」と「破滅的な忘れ」に悩まされていることを発見した。本研究では,安定な連続学習を実現するために勾配予測を用いた連続拡散モデルを提案する。
論文参考訳（メタデータ） (2025-02-27T07:47:27Z)
Continuous Diffusion Model for Language Modeling [57.396578974401734]
離散データに対する既存の連続拡散モデルは、離散的アプローチと比較して性能が限られている。本稿では,下層の分類分布の幾何学を組み込んだ言語モデリングのための連続拡散モデルを提案する。
論文参考訳（メタデータ） (2025-02-17T08:54:29Z)
Fine-Tuning Discrete Diffusion Models with Policy Gradient Methods [4.028503203417233]
非微分可能報酬に対する離散拡散モデルを微調整するための、効率的で、広く適用でき、理論的に正当化されたポリシー勾配アルゴリズムを提案する。複数の離散的生成タスクに対する数値実験により,本手法のスケーラビリティと効率性を実証した。
論文参考訳（メタデータ） (2025-02-03T14:20:19Z)
Scaling Diffusion Language Models via Adaptation from Autoregressive Models [105.70889434492143]
拡散言語モデル(DLM)は、テキスト生成モデルのための将来性のある新しいパラダイムとして登場した。 170Mから7BまでのARモデルをDiffuGPTとDiffuLLaMAの拡散モデルに変換し、200B未満のトークンでトレーニングできることを示す。実験の結果,これらのモデルは初期のDLMよりも優れており,ARと競合していることがわかった。
論文参考訳（メタデータ） (2024-10-23T14:04:22Z)
Diffusion Imitation from Observation [4.205946699819021]
敵対的模倣学習アプローチは、差別者と区別できない状態遷移を生成するために、ジェネレータポリシーを学ぶ。生成モデルにおける拡散モデルの成功を動機として,観測フレームワークからの逆模倣学習に拡散モデルを統合することを提案する。
論文参考訳（メタデータ） (2024-10-07T18:49:55Z)
Bellman Diffusion: Generative Modeling as Learning a Linear Operator in the Distribution Space [72.52365911990935]
本稿では,MDPの線形性を維持する新しいDGMフレームワークであるBellman Diffusionを紹介する。この結果から,ベルマン拡散は分布RLタスクにおける従来のヒストグラムベースベースラインよりも1.5倍高速に収束し,精度の高い画像生成装置であることがわかった。
論文参考訳（メタデータ） (2024-10-02T17:53:23Z)
Learning Diffusion Priors from Observations by Expectation Maximization [6.224769485481242]
不完全および雑音のみから拡散モデルをトレーニングするための予測最大化アルゴリズムに基づく新しい手法を提案する。提案手法は,非条件拡散モデルに対する改良された後続サンプリング方式の提案と動機付けである。
論文参考訳（メタデータ） (2024-05-22T15:04:06Z)
Learning a Diffusion Model Policy from Rewards via Q-Score Matching [93.0191910132874]
本稿では,拡散モデルポリシの構造を学習されたQ-関数に関連付ける理論的枠組みを提案する。本稿では,この理論からQスコアマッチングを示す新しいポリシー更新手法を提案する。
論文参考訳（メタデータ） (2023-12-18T23:31:01Z)
Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文参考訳（メタデータ） (2023-12-14T11:19:11Z)
Crossway Diffusion: Improving Diffusion-based Visuomotor Policy via Self-supervised Learning [42.009856923352864]
拡散モデルは、シーケンス・モデリング方式で行動的クローニングに採用されている。拡散に基づくビジュモータポリシー学習の簡易かつ効果的な手法であるクロスウェイ拡散を提案する。シミュレーションおよび実世界のロボット作業におけるクロスウェイ拡散の有効性を実証した。
論文参考訳（メタデータ） (2023-07-04T17:59:29Z)
Lipschitz Singularities in Diffusion Models [64.28196620345808]
拡散モデルは、零点付近の時間変数に関して、しばしばネットワークの無限のリプシッツ特性を示す。ゼロ点近傍の拡散モデルのリプシッツ特異点を緩和する新しい手法 E-TSDM を提案する。我々の研究は、一般拡散過程の理解を深め、拡散モデルの設計に関する洞察を提供するかもしれない。
論文参考訳（メタデータ） (2023-06-20T03:05:28Z)
Diff-Instruct: A Universal Approach for Transferring Knowledge From Pre-trained Diffusion Models [77.83923746319498]
本稿では,任意の生成モデルの学習を指導するDiff-Instructというフレームワークを提案する。 Diff-Instructは、最先端の単一ステップ拡散モデルであることを示す。 GANモデルの精製実験により、Diff-InstructはGANモデルの事前訓練されたジェネレータを一貫して改善できることが示されている。
論文参考訳（メタデータ） (2023-05-29T04:22:57Z)
Diffusion Policies as an Expressive Policy Class for Offline Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文参考訳（メタデータ） (2022-08-12T09:54:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。