論文の概要: Categorical Policies: Multimodal Policy Learning and Exploration in Continuous Control
- arxiv url: http://arxiv.org/abs/2508.13922v1
- Date: Tue, 19 Aug 2025 15:18:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.982004
- Title: Categorical Policies: Multimodal Policy Learning and Exploration in Continuous Control
- Title(参考訳): カテゴリー政策: 継続的制御におけるマルチモーダルな政策学習と探索
- Authors: SM Mazharul Islam, Manfred Huber,
- Abstract要約: 中間カテゴリー分布を持つマルチモーダルな動作モードをモデル化するためにカテゴリーポリシーを導入する。
動作モードを選択するために潜在カテゴリー分布を利用することで、本手法はサンプリングトリックを通して完全に微分可能でありながら、マルチモーダル性を自然に表現する。
その結果, カテゴリー分布は, 連続制御における構造的探索と多モーダルな行動表現の強力なツールとして機能することが示唆された。
- 参考スコア(独自算出の注目度): 1.7495213911983414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A policy in deep reinforcement learning (RL), either deterministic or stochastic, is commonly parameterized as a Gaussian distribution alone, limiting the learned behavior to be unimodal. However, the nature of many practical decision-making problems favors a multimodal policy that facilitates robust exploration of the environment and thus to address learning challenges arising from sparse rewards, complex dynamics, or the need for strategic adaptation to varying contexts. This issue is exacerbated in continuous control domains where exploration usually takes place in the vicinity of the predicted optimal action, either through an additive Gaussian noise or the sampling process of a stochastic policy. In this paper, we introduce Categorical Policies to model multimodal behavior modes with an intermediate categorical distribution, and then generate output action that is conditioned on the sampled mode. We explore two sampling schemes that ensure differentiable discrete latent structure while maintaining efficient gradient-based optimization. By utilizing a latent categorical distribution to select the behavior mode, our approach naturally expresses multimodality while remaining fully differentiable via the sampling tricks. We evaluate our multimodal policy on a set of DeepMind Control Suite environments, demonstrating that through better exploration, our learned policies converge faster and outperform standard Gaussian policies. Our results indicate that the Categorical distribution serves as a powerful tool for structured exploration and multimodal behavior representation in continuous control.
- Abstract(参考訳): 深い強化学習(英語版)(RL)における政策は、決定的あるいは確率的であり、一般にガウス分布のみとしてパラメータ化され、学習行動が一様であることを制限している。
しかし、多くの実践的な意思決定問題の性質は、環境の堅牢な探索を促進するマルチモーダル政策を好んでおり、スパース報酬、複雑なダイナミクス、あるいは様々な状況への戦略的適応の必要性から生じる学習課題に対処する。
この問題は、通常、予測された最適行動の近傍で探索が行われる連続制御領域において、加法的なガウスノイズまたは確率的ポリシーのサンプリングプロセスによって悪化する。
本稿では,中間カテゴリー分布を持つマルチモーダル動作モードをモデル化し,サンプルモードで条件付けられた出力動作を生成する。
我々は、効率的な勾配に基づく最適化を維持しながら、微分可能な離散潜在構造を保証する2つのサンプリングスキームを探索する。
動作モードを選択するために潜在カテゴリー分布を利用することで、本手法はサンプリングトリックを通して完全に微分可能でありながら、マルチモーダル性を自然に表現する。
我々は、DeepMind Control Suite環境上でのマルチモーダルポリシーを評価し、より優れた探索を通じて、学習されたポリシーがより早く収束し、標準ガウスポリシーより優れていることを示す。
その結果, カテゴリー分布は, 連続制御における構造的探索と多モーダルな行動表現の強力なツールとして機能することが示唆された。
関連論文リスト
- Decision Flow Policy Optimization [53.825268058199825]
生成モデルは、複雑なマルチモーダルな動作分布を効果的にモデル化し、連続的な動作空間において優れたロボット制御を実現することができることを示す。
従来の手法は通常、データセットからの状態条件付きアクション分布に適合する振る舞いモデルとして生成モデルを採用する。
マルチモーダルな行動分布モデリングとポリシー最適化を統合した統合フレームワークDecision Flowを提案する。
論文 参考訳(メタデータ) (2025-05-26T03:42:20Z) - Learning on One Mode: Addressing Multi-modality in Offline Reinforcement Learning [9.38848713730931]
オフライン強化学習は、環境と対話することなく、静的データセットから最適なポリシーを学習しようとする。
既存の方法は、しばしば一助的行動ポリシーを仮定し、この仮定が破られたとき、最適以下のパフォーマンスをもたらす。
本稿では,行動方針の単一かつ有望なモードから学習することに焦点を当てた新しいアプローチである,1モードでの模倣学習(LOM)を提案する。
論文 参考訳(メタデータ) (2024-12-04T11:57:36Z) - Sampling from Energy-based Policies using Diffusion [14.542411354617983]
エネルギーベースの政策から拡散に基づくアプローチを導入し、負のQ関数がエネルギー関数を定義する。
提案手法は, 連続制御タスクにおけるサンプル効率を向上し, 既存手法の重要な制約に対処し, マルチモーダルな動作を捉える。
論文 参考訳(メタデータ) (2024-10-02T08:09:33Z) - Discretizing Continuous Action Space with Unimodal Probability Distributions for On-Policy Reinforcement Learning [20.48276559928517]
ポアソン確率分布を用いて離散的なポリシーを一元的に制約する素直なアーキテクチャを導入する。
本研究では, 単調な確率分布を持つ離散ポリシーが, オンライン強化学習アルゴリズムにおいて, より高速な収束と高い性能をもたらすことを示す実験を行った。
論文 参考訳(メタデータ) (2024-08-01T06:06:53Z) - Learning Multimodal Behaviors from Scratch with Diffusion Policy Gradient [26.675822002049372]
Deep Diffusion Policy Gradient (DDiffPG)は、マルチモーダルポリシーから学習する新しいアクター批判アルゴリズムである。
DDiffPGはマルチモーダルトレーニングバッチを形成し、モード固有のQ-ラーニングを使用して、RL目的の固有の欲求を緩和する。
さらに,本手法では,学習モードを明示的に制御するために,モード固有の埋め込みにポリシーを条件付けることができる。
論文 参考訳(メタデータ) (2024-06-02T09:32:28Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Policy Dispersion in Non-Markovian Environment [53.05904889617441]
本稿では,非マルコフ環境下での国家行動ペアの歴史から,多様な政策の学習を試みる。
まず、ポリシー埋め込みを学習するために、トランスフォーマーベースの手法を採用する。
次に,政策埋め込みを積み重ねて分散行列を構築し,多様な政策の集合を誘導する。
論文 参考訳(メタデータ) (2023-02-28T11:58:39Z) - CAMEO: Curiosity Augmented Metropolis for Exploratory Optimal Policies [62.39667564455059]
最適政策の分布を考察し研究する。
実験シミュレーションでは、CAMEOは古典的な制御問題を全て解決するポリシーを実際に得ることを示した。
さらに,本論文では,異なるリスクプロファイルを示す異なるポリシーを,解釈可能性に関する興味深い実践的応用に対応して提示する。
論文 参考訳(メタデータ) (2022-05-19T09:48:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。