論文の概要: Solving Bayesian inverse problems with diffusion priors and off-policy RL
- arxiv url: http://arxiv.org/abs/2503.09746v1
- Date: Wed, 12 Mar 2025 18:45:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 21:36:22.388056
- Title: Solving Bayesian inverse problems with diffusion priors and off-policy RL
- Title(参考訳): 拡散前と非政治RLによるベイズ逆問題の解法
- Authors: Luca Scimeca, Siddarth Venkatraman, Moksh Jain, Minsu Kim, Marcin Sendera, Mohsin Hasan, Luke Rowe, Sarthak Mittal, Pablo Lemos, Emmanuel Bengio, Alexandre Adam, Jarrid Rector-Brooks, Yashar Hezaveh, Laurence Perreault-Levasseur, Yoshua Bengio, Glen Berseth, Nikolay Malkin,
- Abstract要約: 相対軌道バランス(Relative Trajectory Balance, RTB)は、逆問題の最適解法である。
視覚・科学における線形・非線形逆問題に挑戦するために,RTBを用いて条件拡散モデル後部を事前訓練した未条件前部から訓練する。
- 参考スコア(独自算出の注目度): 86.65351676007721
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a practical application of Relative Trajectory Balance (RTB), a recently introduced off-policy reinforcement learning (RL) objective that can asymptotically solve Bayesian inverse problems optimally. We extend the original work by using RTB to train conditional diffusion model posteriors from pretrained unconditional priors for challenging linear and non-linear inverse problems in vision, and science. We use the objective alongside techniques such as off-policy backtracking exploration to improve training. Importantly, our results show that existing training-free diffusion posterior methods struggle to perform effective posterior inference in latent space due to inherent biases.
- Abstract(参考訳): 本稿では,最近導入された非政治強化学習(RL)の目的である相対軌道バランス(RTB)の実践的応用について述べる。
視覚・科学における線形・非線形逆問題に挑戦するために,RTBを用いて条件拡散モデル後部を事前訓練した未条件前部から訓練する。
我々は、トレーニングを改善するために、オフ・ポリティクス・バックトラック探索などの手法とともに目的を定めている。
また,本研究の結果から,既存の学習自由拡散後法では,固有バイアスによる潜在空間における効果的な後部推論が困難であることが示唆された。
関連論文リスト
- Learn Hard Problems During RL with Reference Guided Fine-tuning [56.56461712665904]
数学的推論のための強化学習(RL)は報酬の分散に悩むことがある。
本稿では,Reference-Guided Fine-Tuning (ReGFT)を導入し,ハード問題に対する正の軌道を合成し,RLの前にトレーニングする。
以上の結果から,ReGFTは報酬空間を効果的に克服し,より強力なRLに基づく数学的推論を解き放つことが示唆された。
論文 参考訳(メタデータ) (2026-03-01T18:41:28Z) - Reuse your FLOPs: Scaling RL on Hard Problems by Conditioning on Very Off-Policy Prefixes [22.721425502443253]
我々はPrefixRLを導入し、そこでは、成功裏のトレースのプレフィックスを条件にし、それらを完了させるために、オンデマンドのRLを実行します。
PrefixRLは、問題の難易度を政治外接頭辞の長さで調節することで、難しい問題に対する学習信号を強化する。
我々はPrefixRLの目的が標準RLの目的と一致しているだけでなく、より効率的なことを証明する。
論文 参考訳(メタデータ) (2026-01-26T18:57:00Z) - FlowLPS: Langevin-Proximal Sampling for Flow-based Inverse Problem Solvers [51.56484100374058]
FlowLPSは、Langevin Proximal Sampling (LPS)戦略を通じて、事前訓練されたフローモデルによる逆問題を解決する。
提案手法は, 多様体一貫性探索のためのランゲヴィン力学と, 高精度なモード探索のための近似最適化を統合し, 再現忠実度と知覚品質のバランスを良くする。
論文 参考訳(メタデータ) (2025-12-08T04:18:13Z) - Solving Diffusion Inverse Problems with Restart Posterior Sampling [2.9527010146189556]
逆問題(英: inverse problem)とは、科学や工学において基本的な問題であり、ノイズ測定から基礎となる信号や状態を推測することである。
近年のアプローチでは、複雑なデータ分布をキャプチャする能力のため、そのような問題に対する強力な暗黙の先行モデルとして拡散モデルが採用されている。
本稿では,線形逆問題と非線形逆問題の両方を解決するための汎用的で効率的なフレームワークであるRePS(Restart for Posterior Sampling)を提案する。
論文 参考訳(メタデータ) (2025-11-24T20:42:33Z) - Latent Refinement via Flow Matching for Training-free Linear Inverse Problem Solving [18.226350407462643]
LFlowは,事前学習した潜水前処理を用いて線形逆問題を解決するための学習自由フレームワークである。
提案手法は,ほとんどのタスクの再構成品質において,最先端の潜伏拡散解法よりも優れる。
論文 参考訳(メタデータ) (2025-11-08T21:20:59Z) - PRISM: Probabilistic and Robust Inverse Solver with Measurement-Conditioned Diffusion Prior for Blind Inverse Problems [9.499981934098722]
測定条件付き拡散前(PRISM)を用いた新しい確率的・頑健な逆解法を提案する。
PRISMは、理論上原理化された後続サンプリングスキームに強力な測定条件付き拡散モデルを導入することで、現在の手法の技術的進歩を提供する。
ブラインド画像の劣化実験により提案手法の有効性が検証され、画像とぼやけたカーネルの回復において、最先端のベースラインよりもPRISMの優れた性能が示された。
論文 参考訳(メタデータ) (2025-09-19T15:49:03Z) - Projection-Based Correction for Enhancing Deep Inverse Networks [3.5534933448684134]
本稿では,深い逆ネットワークの推論を強化するため,プロジェクションに基づく補正手法を提案する。
理論的には、回復モデルが十分に訓練された深い逆ネットワークであれば、その解はレンジ空間とヌル空間の構成要素に分解できる。
論文 参考訳(メタデータ) (2025-05-21T17:28:14Z) - Analytic Energy-Guided Policy Optimization for Offline Reinforcement Learning [54.07840818762834]
拡散モデルによる条件決定生成は強化学習(RL)において強力な競争力を示す。
近年の研究では、エネルギー-関数-誘導拡散モデルと制約付きRL問題との関係が明らかにされている。
主な課題は中間エネルギーを推定することであり、これは生成過程における対数予測の定式化によって引き起こされる。
論文 参考訳(メタデータ) (2025-05-03T14:00:25Z) - Boosting Generalization in Diffusion-Based Neural Combinatorial Solver via Inference Time Adaptation [27.898573891403075]
拡散に基づくニューラルネットワーク最適化(NCO)は、解生成のための離散拡散モデルを学習し、手作りのドメイン知識を排除し、NP完全(NPC)問題の解決に有効であることを示した。
既存のNCO手法は、クロススケールおよびクロスプロブレムの一般化において課題に直面し、従来の解法と比較して高いトレーニングコストがかかる。
拡散型NCOソルバのゼロショットクロスプロブレム転送とクロススケール一般化機能の両方を、追加のトレーニングを必要とせずに実現可能な、トレーニングフリーな推論時間適応フレームワーク(DIFU-Ada)を提案する。
論文 参考訳(メタデータ) (2025-02-15T08:04:00Z) - Exploratory Diffusion Policy for Unsupervised Reinforcement Learning [28.413426177336703]
教師なし強化学習は、報酬のない環境で国家や技術を探究することで、エージェントを事前訓練することを目的としている。
既存の方法は、事前訓練されたポリシーの適合性を見落とし、不均一な事前訓練データを扱うのに苦労することが多い。
本研究では,拡散モデルの強い表現能力を利用して探索データに適合する探索拡散政策(EDP)を提案する。
論文 参考訳(メタデータ) (2025-02-11T05:48:51Z) - DDRM-PR: Fourier Phase Retrieval using Denoising Diffusion Restoration Models [0.0]
本稿では,デノナイジング拡散回復モデルの効率的かつ教師なしの後方サンプリングフレームワークを利用する。
この手法は、モデルベースの交互射影法とDDRMを組み合わせて、事前訓練された無条件拡散前処理を位相検索に利用する。
論文 参考訳(メタデータ) (2025-01-06T14:18:23Z) - A Survey on Diffusion Models for Inverse Problems [110.6628926886398]
本稿では, 事前学習した拡散モデルを用いて, さらなる学習を必要とせず, 逆問題の解法について概説する。
逆問題に対する潜伏拡散モデルの使用に伴う具体的な課題と潜在的な解決策について論じる。
論文 参考訳(メタデータ) (2024-09-30T17:34:01Z) - Amortized Posterior Sampling with Diffusion Prior Distillation [55.03585818289934]
Amortized Posterior Smplingは、逆問題における効率的な後方サンプリングのための新しい変分推論手法である。
本手法は,拡散モデルにより暗黙的に定義された変動分布と後続分布とのばらつきを最小限に抑えるために条件付き流れモデルを訓練する。
既存の手法とは異なり、我々のアプローチは教師なしであり、ペア化されたトレーニングデータを必要としておらず、ユークリッドと非ユークリッドの両方のドメインに適用できる。
論文 参考訳(メタデータ) (2024-07-25T09:53:12Z) - Diffusion Prior-Based Amortized Variational Inference for Noisy Inverse Problems [12.482127049881026]
そこで本稿では, 償却変分推論の観点から, 拡散による逆問題の解法を提案する。
我々の償却推論は、測定結果を対応するクリーンデータの暗黙の後方分布に直接マッピングする関数を学習し、未知の計測でも単一ステップの後方サンプリングを可能にする。
論文 参考訳(メタデータ) (2024-07-23T02:14:18Z) - Amortizing intractable inference in diffusion models for vision, language, and control [89.65631572949702]
本稿では,p(mathbfx)$以前の拡散生成モデルとブラックボックス制約,あるいは関数$r(mathbfx)$からなるモデルにおいて,データ上の後部サンプルである $mathbfxsim prm post(mathbfx)propto p(mathbfx)r(mathbfx)$について検討する。
我々は,データフリー学習目標である相対軌道バランスの正しさを,サンプルから抽出した拡散モデルの訓練のために証明する。
論文 参考訳(メタデータ) (2024-05-31T16:18:46Z) - Learning Diffusion Priors from Observations by Expectation Maximization [6.224769485481242]
不完全および雑音のみから拡散モデルをトレーニングするための予測最大化アルゴリズムに基づく新しい手法を提案する。
提案手法は,非条件拡散モデルに対する改良された後続サンプリング方式の提案と動機付けである。
論文 参考訳(メタデータ) (2024-05-22T15:04:06Z) - Improving Diffusion Models for Inverse Problems Using Optimal Posterior Covariance [52.093434664236014]
近年の拡散モデルは、特定の逆問題に対して再訓練することなく、ノイズの多い線形逆問題に対する有望なゼロショット解を提供する。
この発見に触発されて、我々は、最大推定値から決定されるより原理化された共分散を用いて、最近の手法を改善することを提案する。
論文 参考訳(メタデータ) (2024-02-03T13:35:39Z) - Unsupervised Discovery of Interpretable Directions in h-space of
Pre-trained Diffusion Models [63.1637853118899]
本稿では,事前学習した拡散モデルのh空間における解釈可能な方向を特定するための,教師なしおよび学習に基づく最初の手法を提案する。
我々は、事前訓練された拡散モデルのh-スペースで動作するシフト制御モジュールを用いて、サンプルをシフトしたバージョンに操作する。
それらを共同で最適化することで、モデルは自然に絡み合った、解釈可能な方向を発見する。
論文 参考訳(メタデータ) (2023-10-15T18:44:30Z) - Unmasking Bias in Diffusion Model Training [40.90066994983719]
拡散モデルが画像生成の主流のアプローチとして登場した。
トレーニングの収束が遅く、サンプリングのカラーシフトの問題に悩まされている。
本稿では,これらの障害は,既定のトレーニングパラダイムに固有のバイアスや準最適性に大きく起因していると考えられる。
論文 参考訳(メタデータ) (2023-10-12T16:04:41Z) - Training-free Linear Image Inverses via Flows [17.291903204982326]
本研究では,事前学習フローモデルを用いて,線形逆問題に対する学習自由度を求める手法を提案する。
提案手法では,高次元データセット上でのノイズの多い線形逆問題に対して,問題固有のチューニングは不要である。
論文 参考訳(メタデータ) (2023-09-25T22:13:16Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。