論文の概要: CHDP: Cooperative Hybrid Diffusion Policies for Reinforcement Learning in Parameterized Action Space
- arxiv url: http://arxiv.org/abs/2601.05675v1
- Date: Fri, 09 Jan 2026 09:50:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.934735
- Title: CHDP: Cooperative Hybrid Diffusion Policies for Reinforcement Learning in Parameterized Action Space
- Title(参考訳): CHDP:パラメータ化行動空間における強化学習のための協調的ハイブリッド拡散法
- Authors: Bingyi Liu, Jinbo He, Haiyong Shi, Enshu Wang, Weizhen Han, Jingxiang Hao, Peixi Wang, Zhuangzhuang Zhang,
- Abstract要約: ハイブリッド行動空間問題を解決するために,textbfCooperative Hybrid Diffusion Policies (CHDP) フレームワークを提案する。
CHDPは、それぞれ離散的および連続的な拡散ポリシーを利用する2つの協調エージェントを採用している。
挑戦的なハイブリッドアクションベンチマークでは、CHDPは最先端の手法を最大19.3%の成功率で上回っている。
- 参考スコア(独自算出の注目度): 9.192754462575218
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hybrid action space, which combines discrete choices and continuous parameters, is prevalent in domains such as robot control and game AI. However, efficiently modeling and optimizing hybrid discrete-continuous action space remains a fundamental challenge, mainly due to limited policy expressiveness and poor scalability in high-dimensional settings. To address this challenge, we view the hybrid action space problem as a fully cooperative game and propose a \textbf{Cooperative Hybrid Diffusion Policies (CHDP)} framework to solve it. CHDP employs two cooperative agents that leverage a discrete and a continuous diffusion policy, respectively. The continuous policy is conditioned on the discrete action's representation, explicitly modeling the dependency between them. This cooperative design allows the diffusion policies to leverage their expressiveness to capture complex distributions in their respective action spaces. To mitigate the update conflicts arising from simultaneous policy updates in this cooperative setting, we employ a sequential update scheme that fosters co-adaptation. Moreover, to improve scalability when learning in high-dimensional discrete action space, we construct a codebook that embeds the action space into a low-dimensional latent space. This mapping enables the discrete policy to learn in a compact, structured space. Finally, we design a Q-function-based guidance mechanism to align the codebook's embeddings with the discrete policy's representation during training. On challenging hybrid action benchmarks, CHDP outperforms the state-of-the-art method by up to $19.3\%$ in success rate.
- Abstract(参考訳): 個別の選択と連続パラメータを組み合わせたハイブリッドアクション空間は、ロボット制御やゲームAIといった領域で広く使われている。
しかしながら、ハイブリッド離散連続アクション空間の効率的なモデリングと最適化は、主に高次元設定におけるポリシー表現性やスケーラビリティの低さのために、根本的な課題である。
この課題に対処するため、ハイブリッドアクション空間問題は、完全に協調したゲームであるとみなし、それを解決するために \textbf{Cooperative Hybrid Diffusion Policies (CHDP) フレームワークを提案する。
CHDPは、それぞれ離散的および連続的な拡散ポリシーを利用する2つの協調エージェントを採用している。
継続的ポリシーは離散的なアクションの表現に条件付けされ、それらの間の依存関係を明示的にモデル化する。
この協調設計により、拡散政策はそれらの表現性を利用して、それぞれの作用空間における複素分布を捉えることができる。
この協調的な環境下での同時政策更新による更新競合を軽減するために,共同適応を促進するシーケンシャルな更新方式を採用する。
さらに,高次元の離散的な行動空間において学習する際のスケーラビリティを向上させるために,行動空間を低次元の潜在空間に埋め込むコードブックを構築した。
この写像により、離散ポリシーはコンパクトで構造化された空間で学習することができる。
最後に、トレーニング中にコードブックの埋め込みと個別ポリシーの表現を一致させるQ関数に基づくガイダンス機構を設計する。
挑戦的なハイブリッドアクションベンチマークでは、CHDPは最先端の手法を最大19.3\%の成功率で上回っている。
関連論文リスト
- Reinforcement Learning with Discrete Diffusion Policies for Combinatorial Action Spaces [57.466101098183884]
強化学習(Reinforcement Learning, RL)は、現実の多くの問題に共通する大規模なアクション空間にスケールするために苦労する。
本稿では、複雑な環境下での高効率なポリシーとして、離散拡散モデルを訓練するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-26T21:53:36Z) - Distribution Parameter Actor-Critic: Shifting the Agent-Environment Boundary for Diverse Action Spaces [22.711839917754375]
本稿では,分散パラメータをアクションとして扱う新しい強化学習(RL)フレームワークを提案する。
この再化は、元のアクションタイプに関係なく、新しいアクション空間を連続させる。
離散化された行動空間を持つ同じ環境での競合性能を実証する。
論文 参考訳(メタデータ) (2025-06-19T21:19:19Z) - Offline Multi-agent Reinforcement Learning via Score Decomposition [51.23590397383217]
オフライン協調型マルチエージェント強化学習(MARL)は、分散シフトによる固有の課題に直面している。
この作業は、オフラインとオンラインのMARL間の分散ギャップを明示的に解決する最初の作業である。
論文 参考訳(メタデータ) (2025-05-09T11:42:31Z) - Multi-Agent Path Finding in Continuous Spaces with Projected Diffusion Models [57.45019514036948]
MAPF(Multi-Agent Path Finding)は、ロボット工学における基本的な問題である。
連続空間におけるMAPFの拡散モデルと制約付き最適化を統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-12-23T21:27:19Z) - Dynamic Neighborhood Construction for Structured Large Discrete Action
Spaces [2.285821277711785]
大規模離散行動空間(LDAS)は、強化学習における中心的な課題である。
既存のソリューションアプローチでは、最大数百万のアクションで非構造化LDASを処理できる。
本研究では, SLDAS の新たな活用パラダイムである Dynamic Neighborhood Construction (DNC) を提案する。
論文 参考訳(メタデータ) (2023-05-31T14:26:14Z) - HyAR: Addressing Discrete-Continuous Action Reinforcement Learning via
Hybrid Action Representation [30.621472051415857]
これまでのReinforcement Learning (RL)は、離散的または連続的なアクション空間による制御の成功を実証するだけであった。
本稿では,Hybrid Action Representation(Hybrid Action Representation, HyAR)を提案する。
離散連続行動空間を持つ様々な環境におけるHyARの評価を行った。
論文 参考訳(メタデータ) (2021-09-12T11:26:27Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。