論文の概要: Learning Intractable Multimodal Policies with Reparameterization and Diversity Regularization
- arxiv url: http://arxiv.org/abs/2511.01374v1
- Date: Mon, 03 Nov 2025 09:17:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.195606
- Title: Learning Intractable Multimodal Policies with Reparameterization and Diversity Regularization
- Title(参考訳): 再パラメータ化と多様性規則化による難解なマルチモーダルポリシの学習
- Authors: Ziqi Wang, Jiashun Liu, Ling Pan,
- Abstract要約: 本稿では,既存の難解なマルチモーダルアクターを統一的な枠組みで再構成する。
次に、決定確率を明示的に要求しない距離ベースの多様性正規化を提案する。
実験の結果,アモータライズされたアクターは,強いマルチモーダル表現性と高いパフォーマンスを持つ,有望なポリシーモデルクラスであることが示唆された。
- 参考スコア(独自算出の注目度): 24.229494482432376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional continuous deep reinforcement learning (RL) algorithms employ deterministic or unimodal Gaussian actors, which cannot express complex multimodal decision distributions. This limitation can hinder their performance in diversity-critical scenarios. There have been some attempts to design online multimodal RL algorithms based on diffusion or amortized actors. However, these actors are intractable, making existing methods struggle with balancing performance, decision diversity, and efficiency simultaneously. To overcome this challenge, we first reformulate existing intractable multimodal actors within a unified framework, and prove that they can be directly optimized by policy gradient via reparameterization. Then, we propose a distance-based diversity regularization that does not explicitly require decision probabilities. We identify two diversity-critical domains, namely multi-goal achieving and generative RL, to demonstrate the advantages of multimodal policies and our method, particularly in terms of few-shot robustness. In conventional MuJoCo benchmarks, our algorithm also shows competitive performance. Moreover, our experiments highlight that the amortized actor is a promising policy model class with strong multimodal expressivity and high performance. Our code is available at https://github.com/PneuC/DrAC
- Abstract(参考訳): 従来の連続的深層強化学習(RL)アルゴリズムは、決定論的あるいは一助的ガウス的アクターを用いており、複雑なマルチモーダルな決定分布を表現できない。
この制限は、多様性に批判的なシナリオにおけるパフォーマンスを妨げる可能性がある。
拡散または償却アクターに基づくオンラインマルチモーダルRLアルゴリズムを設計する試みがいくつかある。
しかし、これらのアクターは難易度が高く、既存のメソッドはパフォーマンス、決定の多様性、効率性のバランスに苦労する。
この課題を克服するために、我々はまず既存の難解なマルチモーダルアクターを統一された枠組みで再構成し、再パラメータ化によって政策勾配によって直接最適化できることを証明した。
そこで本稿では,決定確率を明示的に要求しない距離ベース多様性正規化を提案する。
マルチゴール達成と生成RLという2つの多様性クリティカルドメインを同定し,マルチモーダルポリシーの利点と手法,特に少数ショットの堅牢性を示す。
従来の MuJoCo ベンチマークでは,アルゴリズムは競合性能も示す。
さらに,本実験では,アモータライズされたアクターが,マルチモーダル表現性と高い性能を有する有望なポリシーモデルクラスであることを強調した。
私たちのコードはhttps://github.com/PneuC/DrACで利用可能です。
関連論文リスト
- Actor-Critic without Actor [4.94481688445056]
Actor-Critic without Actor (ACA)はアクターネットワークを排除し、ノイズレベルの批評家の分野から直接アクションを生成する軽量なフレームワークである。
ACAは、標準的なアクター批判法と最先端拡散法の両方と比較して、より好ましい学習曲線と競争性能を達成する。
論文 参考訳(メタデータ) (2025-09-25T11:33:09Z) - Principled Multimodal Representation Learning [99.53621521696051]
マルチモーダル表現学習は、多様なデータモダリティを統合することにより、統一された表現空間を作ろうとする。
最近の進歩は、複数のモードの同時アライメントを調査しているが、いくつかの課題が残っている。
複数モーダルの同時アライメントを実現する新しいフレームワークであるPMRL(Principled Multimodal Representation Learning)を提案する。
論文 参考訳(メタデータ) (2025-07-23T09:12:25Z) - Offline Multi-agent Reinforcement Learning via Score Decomposition [51.23590397383217]
オフライン協調型マルチエージェント強化学習(MARL)は、分散シフトによる固有の課題に直面している。
この作業は、オフラインとオンラインのMARL間の分散ギャップを明示的に解決する最初の作業である。
論文 参考訳(メタデータ) (2025-05-09T11:42:31Z) - Continual Multimodal Contrastive Learning [99.53621521696051]
MCL(Multimodal Contrastive Learning)は、異なるモダリティを整列し、関節空間におけるマルチモーダル表現を生成する。
マルチモーダルデータは単一のプロセスで収集されることはめったになく、スクラッチからのトレーニングは計算コストがかかる。
本稿では, 安定性と塑性の2つの原理によりCMCLを定式化する。
理論的には、二辺から部分空間への勾配の更新を計画する、新しい最適化に基づく手法を導出する。
論文 参考訳(メタデータ) (2025-03-19T07:57:08Z) - Learning Multimodal Behaviors from Scratch with Diffusion Policy Gradient [26.675822002049372]
Deep Diffusion Policy Gradient (DDiffPG)は、マルチモーダルポリシーから学習する新しいアクター批判アルゴリズムである。
DDiffPGはマルチモーダルトレーニングバッチを形成し、モード固有のQ-ラーニングを使用して、RL目的の固有の欲求を緩和する。
さらに,本手法では,学習モードを明示的に制御するために,モード固有の埋め込みにポリシーを条件付けることができる。
論文 参考訳(メタデータ) (2024-06-02T09:32:28Z) - Multi-modal Latent Diffusion [8.316365279740188]
多モード変分オートエンコーダ(Multi-modal Variational Autoencoder)は、様々なモダリティの合同表現を学習することを目的とした、一般的なモデルのファミリーである。
既存のアプローチはコヒーレンス品質のトレードオフに悩まされており、優れた世代品質のモデルはモダリティ間で生成コヒーレンスを欠いている。
独立に訓練された一様・一様・決定論的オートエンコーダの集合を用いる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-07T14:16:44Z) - Probabilistic Mixture-of-Experts for Efficient Deep Reinforcement
Learning [7.020079427649125]
学習効率と性能向上のためには,非特異な最適タスクに対する識別可能なスキルの把握が不可欠であることを示す。
マルチモーダル政策のための確率的混合専門家(PMOE)と、無差問題に対する新しい勾配推定器を提案する。
論文 参考訳(メタデータ) (2021-04-19T08:21:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。