論文の概要: Reinforcement Learning with Discrete Diffusion Policies for Combinatorial Action Spaces
- arxiv url: http://arxiv.org/abs/2509.22963v2
- Date: Wed, 01 Oct 2025 00:48:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 12:11:26.77378
- Title: Reinforcement Learning with Discrete Diffusion Policies for Combinatorial Action Spaces
- Title(参考訳): 離散拡散係数を用いた組合せ行動空間の強化学習
- Authors: Haitong Ma, Ofir Nabati, Aviv Rosenberg, Bo Dai, Oran Lang, Idan Szpektor, Craig Boutilier, Na Li, Shie Mannor, Lior Shani, Guy Tenneholtz,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、現実の多くの問題に共通する大規模なアクション空間にスケールするために苦労する。
本稿では、複雑な環境下での高効率なポリシーとして、離散拡散モデルを訓練するための新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 57.466101098183884
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) struggles to scale to large, combinatorial action spaces common in many real-world problems. This paper introduces a novel framework for training discrete diffusion models as highly effective policies in these complex settings. Our key innovation is an efficient online training process that ensures stable and effective policy improvement. By leveraging policy mirror descent (PMD) to define an ideal, regularized target policy distribution, we frame the policy update as a distributional matching problem, training the expressive diffusion model to replicate this stable target. This decoupled approach stabilizes learning and significantly enhances training performance. Our method achieves state-of-the-art results and superior sample efficiency across a diverse set of challenging combinatorial benchmarks, including DNA sequence generation, RL with macro-actions, and multi-agent systems. Experiments demonstrate that our diffusion policies attain superior performance compared to other baselines.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、現実の多くの問題に共通する大規模な複合的な行動空間にスケールするために苦労する。
本稿では、これらの複雑な設定において、高効率なポリシーとして離散拡散モデルを訓練するための新しいフレームワークを提案する。
私たちの重要な革新は、安定的で効果的な政策改善を保証する効率的なオンライントレーニングプロセスです。
ポリシーミラー降下(PMD)を利用して、理想的な正規化されたターゲットポリシー分布を定義することにより、ポリシー更新を分布整合問題とみなし、この安定なターゲットを再現するために表現拡散モデルを訓練する。
この分離されたアプローチは学習を安定させ、トレーニングパフォーマンスを大幅に向上させる。
提案手法は,DNAシークエンス生成,マクロアクション付きRL,マルチエージェントシステムなど,多種多様な組み合わせベンチマークにおいて,最先端の結果と優れたサンプル効率を実現する。
実験により,拡散ポリシは他のベースラインよりも優れた性能が得られることが示された。
関連論文リスト
- Diffusion Policy Policy Optimization [37.04382170999901]
拡散ポリシー最適化(DPPO)は、拡散ポリシーを微調整するアルゴリズムフレームワークである。
DPOは、一般的なベンチマークの微調整において、最も優れた全体的なパフォーマンスと効率を達成する。
DPPOはRLファインチューニングと拡散パラメタライゼーションのユニークな相乗効果を生かしていることを示す。
論文 参考訳(メタデータ) (2024-09-01T02:47:50Z) - Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。
モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。
具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。
また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文 参考訳(メタデータ) (2024-05-25T10:45:46Z) - Policy Representation via Diffusion Probability Model for Reinforcement
Learning [67.56363353547775]
拡散確率モデルを用いて政策表現の理論的基礎を構築する。
本稿では,拡散政策の多様性を理解するための理論を提供する,拡散政策の収束保証について述べる。
本研究では,Diffusion POlicyを用いたモデルフリーオンラインRLの実装であるDIPOを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:23:41Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。