論文の概要: Distributional Reinforcement Learning with Diffusion Bridge Critics
- arxiv url: http://arxiv.org/abs/2602.05783v1
- Date: Thu, 05 Feb 2026 15:40:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.011148
- Title: Distributional Reinforcement Learning with Diffusion Bridge Critics
- Title(参考訳): 拡散ブリッジ批判を用いた分散強化学習
- Authors: Shutong Ding, Yimiao Zhou, Ke Hu, Mokai Pan, Shan Zhong, Yanwei Fu, Jingya Wang, Ye Shi,
- Abstract要約: 拡散橋批判(DBC)を用いた分散強化学習手法を提案する。
DBCはQ値の逆累積分布関数(CDF)を直接モデル化する。
我々はDBCにおける離散化誤差に対処する解析積分式を導出する。
- 参考スコア(独自算出の注目度): 57.70134665595571
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in diffusion-based reinforcement learning (RL) methods have demonstrated promising results in a wide range of continuous control tasks. However, existing works in this field focus on the application of diffusion policies while leaving the diffusion critics unexplored. In fact, since policy optimization fundamentally relies on the critic, accurate value estimation is far more important than policy expressiveness. Furthermore, given the stochasticity of most reinforcement learning tasks, it has been confirmed that the critic is more appropriately depicted with a distributional model. Motivated by these points, we propose a novel distributional RL method with Diffusion Bridge Critics (DBC). DBC directly models the inverse cumulative distribution function (CDF) of the Q value. This allows us to accurately capture the value distribution and prevents it from collapsing into a trivial Gaussian distribution owing to the strong distribution-matching capability of the diffusion bridge. Moreover, we further derive an analytic integral formula to address discretization errors in DBC, which is essential in value estimation. To our knowledge, DBC is the first work to employ the diffusion bridge model as the critic. Notably, DBC is also a plug-and-play component and can be integrated into most existing RL frameworks. Experimental results on MuJoCo robot control benchmarks demonstrate the superiority of DBC compared with previous distributional critic models.
- Abstract(参考訳): 拡散型強化学習(RL)手法の最近の進歩は、幅広い連続制御タスクにおいて有望な結果を示している。
しかし、この分野での既存の研究は拡散政策の適用に焦点を合わせ、拡散批判は未解明のままである。
実際、政策最適化は基本的に批判に頼っているため、正確な価値推定は政策表現性よりもはるかに重要である。
さらに,ほとんどの強化学習タスクの確率性を考えると,この批判が分布モデルにより適切に表現されていることが確認されている。
これらの点から,拡散橋批判(DBC)を用いた新しい分布RL法を提案する。
DBCはQ値の逆累積分布関数(CDF)を直接モデル化する。
これにより、拡散ブリッジの強い分布マッチング能力により、正確に値分布を捕捉し、それが自明なガウス分布に崩壊するのを防ぐことができる。
さらに,DBCにおける離散化誤差に対処する解析積分式を導出する。
我々の知る限り、DBCは拡散橋モデルを利用した最初の研究である。
特にDBCはプラグイン・アンド・プレイのコンポーネントであり、既存のほとんどのRLフレームワークに統合できる。
MuJoCoロボット制御ベンチマークの実験結果から,従来の分散批判モデルと比較してDBCの優位性が示された。
関連論文リスト
- Reverse Flow Matching: A Unified Framework for Online Reinforcement Learning with Diffusion and Flow Policies [4.249024052507976]
本稿では, 直接的対象サンプルを使わずに, 拡散・流動モデルの訓練問題に厳密に対処する, 逆流マッチング (RFM) の統一フレームワークを提案する。
逆推論の観点を採用することで、中間雑音サンプルが与えられた後部平均推定問題としてトレーニング対象を定式化する。
このクラスでは,既存の雑音予測法と勾配探索法が2つの具体例であることを示す。
論文 参考訳(メタデータ) (2026-01-13T01:58:24Z) - Score-based Membership Inference on Diffusion Models [3.742113529511043]
拡散モデルに対するメンバーシップ推論攻撃(MIA)は、プライバシーの懸念が強まっている。
本稿では,拡散モデルが近似することを学習する予測ノイズベクトルに着目し,スコアベースMIAの理論的,実証的研究を行う。
提案手法は, トレーニングセットに近づき, メンバシップが明らかになるような, 近隣のトレーニングサンプルのカーネル重み付き局所平均に対して, 期待されたデノイザ出力が向けられることを示す。
論文 参考訳(メタデータ) (2025-09-29T16:28:55Z) - Duality and Policy Evaluation in Distributionally Robust Bayesian Diffusion Control [8.863520091178335]
予測端末数値ユーティリティの拡散制御問題について考察する。
コントローラは、基礎となる拡散の未知のドリフトに事前分布を課す。
実際には、前者は一般的に誤って指定され、モデルの誤特定の程度は、政策のパフォーマンスに重大な影響を与える可能性がある。
本稿では, ベースラインの分岐近傍で事前選択した相手に対して, コントローラがゲームをする, 分布的に堅牢なベイズ制御(DRBC)の定式化を導入する。
論文 参考訳(メタデータ) (2025-06-24T03:58:49Z) - Theory on Score-Mismatched Diffusion Models and Zero-Shot Conditional Samplers [49.97755400231656]
一般のスコアミスマッチ拡散サンプリング器に対する明示的な次元依存性を持つ最初の性能保証を示す。
その結果, スコアミスマッチは, 目標分布とサンプリング分布の分布バイアスとなり, 目標分布とトレーニング分布の累積ミスマッチに比例することがわかった。
この結果は、測定ノイズに関係なく、任意の条件モデルに対するゼロショット条件付きサンプリングに直接適用することができる。
論文 参考訳(メタデータ) (2024-10-17T16:42:12Z) - Towards Understanding the Robustness of Diffusion-Based Purification: A Stochastic Perspective [65.10019978876863]
拡散性浄化(DBP)は、敵の攻撃に対する効果的な防御機構として出現している。
本稿では,DBPプロセスの本質性がロバスト性を駆動する主要な要因であることを示す。
論文 参考訳(メタデータ) (2024-04-22T16:10:38Z) - DiffCPS: Diffusion Model based Constrained Policy Search for Offline
Reinforcement Learning [11.678012836760967]
制約付きポリシー探索はオフライン強化学習の基本的な問題である。
我々は新しいアプローチとして$textbfDiffusion-based Constrained Policy Search$(dubed DiffCPS)を提案する。
論文 参考訳(メタデータ) (2023-10-09T01:29:17Z) - How Much is Enough? A Study on Diffusion Times in Score-based Generative
Models [76.76860707897413]
現在のベストプラクティスは、フォワードダイナミクスが既知の単純なノイズ分布に十分に近づくことを確実にするために大きなTを提唱している。
本稿では, 理想とシミュレーションされたフォワードダイナミクスのギャップを埋めるために補助モデルを用いて, 標準的な逆拡散過程を導出する方法について述べる。
論文 参考訳(メタデータ) (2022-06-10T15:09:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。