論文の概要: Learning Intractable Multimodal Policies with Reparameterization and Diversity Regularization
- arxiv url: http://arxiv.org/abs/2511.01374v1
- Date: Mon, 03 Nov 2025 09:17:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.195606
- Title: Learning Intractable Multimodal Policies with Reparameterization and Diversity Regularization
- Title(参考訳): 再パラメータ化と多様性規則化による難解なマルチモーダルポリシの学習
- Authors: Ziqi Wang, Jiashun Liu, Ling Pan,
- Abstract要約: 本稿では,既存の難解なマルチモーダルアクターを統一的な枠組みで再構成する。
次に、決定確率を明示的に要求しない距離ベースの多様性正規化を提案する。
実験の結果,アモータライズされたアクターは,強いマルチモーダル表現性と高いパフォーマンスを持つ,有望なポリシーモデルクラスであることが示唆された。
- 参考スコア(独自算出の注目度): 24.229494482432376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional continuous deep reinforcement learning (RL) algorithms employ deterministic or unimodal Gaussian actors, which cannot express complex multimodal decision distributions. This limitation can hinder their performance in diversity-critical scenarios. There have been some attempts to design online multimodal RL algorithms based on diffusion or amortized actors. However, these actors are intractable, making existing methods struggle with balancing performance, decision diversity, and efficiency simultaneously. To overcome this challenge, we first reformulate existing intractable multimodal actors within a unified framework, and prove that they can be directly optimized by policy gradient via reparameterization. Then, we propose a distance-based diversity regularization that does not explicitly require decision probabilities. We identify two diversity-critical domains, namely multi-goal achieving and generative RL, to demonstrate the advantages of multimodal policies and our method, particularly in terms of few-shot robustness. In conventional MuJoCo benchmarks, our algorithm also shows competitive performance. Moreover, our experiments highlight that the amortized actor is a promising policy model class with strong multimodal expressivity and high performance. Our code is available at https://github.com/PneuC/DrAC
- Abstract(参考訳): 従来の連続的深層強化学習(RL)アルゴリズムは、決定論的あるいは一助的ガウス的アクターを用いており、複雑なマルチモーダルな決定分布を表現できない。
この制限は、多様性に批判的なシナリオにおけるパフォーマンスを妨げる可能性がある。
拡散または償却アクターに基づくオンラインマルチモーダルRLアルゴリズムを設計する試みがいくつかある。
しかし、これらのアクターは難易度が高く、既存のメソッドはパフォーマンス、決定の多様性、効率性のバランスに苦労する。
この課題を克服するために、我々はまず既存の難解なマルチモーダルアクターを統一された枠組みで再構成し、再パラメータ化によって政策勾配によって直接最適化できることを証明した。
そこで本稿では,決定確率を明示的に要求しない距離ベース多様性正規化を提案する。
マルチゴール達成と生成RLという2つの多様性クリティカルドメインを同定し,マルチモーダルポリシーの利点と手法,特に少数ショットの堅牢性を示す。
従来の MuJoCo ベンチマークでは,アルゴリズムは競合性能も示す。
さらに,本実験では,アモータライズされたアクターが,マルチモーダル表現性と高い性能を有する有望なポリシーモデルクラスであることを強調した。
私たちのコードはhttps://github.com/PneuC/DrACで利用可能です。
関連論文リスト
- Multi-Paradigm Collaborative Adversarial Attack Against Multi-Modal Large Language Models [67.45032003041399]
本稿では,MLLMに対する敵例の転送可能性を高めるために,MPCAttack(Multi-Paradigm Collaborative Attack)フレームワークを提案する。
MPCOは異なるパラダイム表現の重要性を適応的にバランスさせ、グローバルな最適化を導く。
我々のソリューションは、オープンソースおよびクローズドソースMLLMに対する標的および未ターゲットの攻撃において、常に最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2026-03-05T06:01:26Z) - From Sparse Decisions to Dense Reasoning: A Multi-attribute Trajectory Paradigm for Multimodal Moderation [59.27094165576015]
疎度な意思決定から高密度な推論トレースへ移行する新しい学習パラダイム(UniMod)を提案する。
モノリシックな意思決定タスクを多次元境界学習プロセスに再構成し,エビデンス,モダリティ評価,リスクマッピング,政策決定,応答生成を含む構造化軌道を構築する。
タスク固有のパラメータを分離し、トレーニングダイナミクスを再バランスさせ、マルチタスク学習における多様な目的間の干渉を効果的に解消する、特別な最適化戦略を導入する。
論文 参考訳(メタデータ) (2026-01-28T09:29:40Z) - Actor-Critic without Actor [4.94481688445056]
Actor-Critic without Actor (ACA)はアクターネットワークを排除し、ノイズレベルの批評家の分野から直接アクションを生成する軽量なフレームワークである。
ACAは、標準的なアクター批判法と最先端拡散法の両方と比較して、より好ましい学習曲線と競争性能を達成する。
論文 参考訳(メタデータ) (2025-09-25T11:33:09Z) - Principled Multimodal Representation Learning [99.53621521696051]
マルチモーダル表現学習は、多様なデータモダリティを統合することにより、統一された表現空間を作ろうとする。
最近の進歩は、複数のモードの同時アライメントを調査しているが、いくつかの課題が残っている。
複数モーダルの同時アライメントを実現する新しいフレームワークであるPMRL(Principled Multimodal Representation Learning)を提案する。
論文 参考訳(メタデータ) (2025-07-23T09:12:25Z) - Decision Flow Policy Optimization [53.825268058199825]
生成モデルは、複雑なマルチモーダルな動作分布を効果的にモデル化し、連続的な動作空間において優れたロボット制御を実現することができることを示す。
従来の手法は通常、データセットからの状態条件付きアクション分布に適合する振る舞いモデルとして生成モデルを採用する。
マルチモーダルな行動分布モデリングとポリシー最適化を統合した統合フレームワークDecision Flowを提案する。
論文 参考訳(メタデータ) (2025-05-26T03:42:20Z) - Offline Multi-agent Reinforcement Learning via Score Decomposition [51.23590397383217]
オフライン協調型マルチエージェント強化学習(MARL)は、分散シフトによる固有の課題に直面している。
この作業は、オフラインとオンラインのMARL間の分散ギャップを明示的に解決する最初の作業である。
論文 参考訳(メタデータ) (2025-05-09T11:42:31Z) - Continual Multimodal Contrastive Learning [99.53621521696051]
MCL(Multimodal Contrastive Learning)は、異なるモダリティを整列し、関節空間におけるマルチモーダル表現を生成する。
マルチモーダルデータは単一のプロセスで収集されることはめったになく、スクラッチからのトレーニングは計算コストがかかる。
本稿では, 安定性と塑性の2つの原理によりCMCLを定式化する。
理論的には、二辺から部分空間への勾配の更新を計画する、新しい最適化に基づく手法を導出する。
論文 参考訳(メタデータ) (2025-03-19T07:57:08Z) - Learning Multimodal Behaviors from Scratch with Diffusion Policy Gradient [26.675822002049372]
Deep Diffusion Policy Gradient (DDiffPG)は、マルチモーダルポリシーから学習する新しいアクター批判アルゴリズムである。
DDiffPGはマルチモーダルトレーニングバッチを形成し、モード固有のQ-ラーニングを使用して、RL目的の固有の欲求を緩和する。
さらに,本手法では,学習モードを明示的に制御するために,モード固有の埋め込みにポリシーを条件付けることができる。
論文 参考訳(メタデータ) (2024-06-02T09:32:28Z) - Multi-modal Latent Diffusion [8.316365279740188]
多モード変分オートエンコーダ(Multi-modal Variational Autoencoder)は、様々なモダリティの合同表現を学習することを目的とした、一般的なモデルのファミリーである。
既存のアプローチはコヒーレンス品質のトレードオフに悩まされており、優れた世代品質のモデルはモダリティ間で生成コヒーレンスを欠いている。
独立に訓練された一様・一様・決定論的オートエンコーダの集合を用いる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-07T14:16:44Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - Probabilistic Mixture-of-Experts for Efficient Deep Reinforcement
Learning [7.020079427649125]
学習効率と性能向上のためには,非特異な最適タスクに対する識別可能なスキルの把握が不可欠であることを示す。
マルチモーダル政策のための確率的混合専門家(PMOE)と、無差問題に対する新しい勾配推定器を提案する。
論文 参考訳(メタデータ) (2021-04-19T08:21:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。