論文の概要: Taming the Adversary: Stable Minimax Deep Deterministic Policy Gradient via Fractional Objectives
- arxiv url: http://arxiv.org/abs/2603.12110v1
- Date: Thu, 12 Mar 2026 16:15:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:26.206931
- Title: Taming the Adversary: Stable Minimax Deep Deterministic Policy Gradient via Fractional Objectives
- Title(参考訳): 逆問題に対処する: フラクショナルオブジェクトによる決定論的政策の安定性
- Authors: Taeho Lee, Donghwan Lee,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、広範囲の制御および意思決定タスクにおいて顕著な成功を収めた。
RLエージェントは、予期せぬ外乱やモデルの不確実性を受ける環境に配備された場合、不安定または劣化した性能を示すことが多い。
連続制御タスクにおける障害耐性ポリシーを学習するためのフレームワークであるMMDDPG(Minimax Deep Deterministic Policy gradient)を提案する。
- 参考スコア(独自算出の注目度): 6.729634947284263
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has achieved remarkable success in a wide range of control and decision-making tasks. However, RL agents often exhibit unstable or degraded performance when deployed in environments subject to unexpected external disturbances and model uncertainties. Consequently, ensuring reliable performance under such conditions remains a critical challenge. In this paper, we propose minimax deep deterministic policy gradient (MMDDPG), a framework for learning disturbance-resilient policies in continuous control tasks. The training process is formulated as a minimax optimization problem between a user policy and an adversarial disturbance policy. In this problem, the user learns a robust policy that minimizes the objective function, while the adversary generates disturbances that maximize it. To stabilize this interaction, we introduce a fractional objective that balances task performance and disturbance magnitude. This objective prevents excessively aggressive disturbances and promotes robust learning. Experimental evaluations in MuJoCo environments demonstrate that the proposed MMDDPG achieves significantly improved robustness against both external force perturbations and model parameter variations.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、広範囲の制御および意思決定タスクにおいて顕著な成功を収めた。
しかしながら、RLエージェントは、予期せぬ外乱やモデルの不確実性を受ける環境に配備された場合、不安定または劣化した性能を示すことが多い。
したがって、そのような条件下での信頼性の高い性能を確保することは、依然として重要な課題である。
本稿では,連続制御タスクにおける障害耐性ポリシーを学習するフレームワークであるMMDDPGを提案する。
トレーニングプロセスは、ユーザポリシーと敵対的障害ポリシーとの間の最小限の最適化問題として定式化される。
この問題において、ユーザは目的関数を最小化する堅牢なポリシーを学習し、敵はそれを最大化する障害を発生させる。
この相互作用を安定させるために,タスク性能と乱れの大きさのバランスをとる分数的目的を導入する。
この目的は過度に攻撃的な乱れを防ぎ、堅牢な学習を促進する。
MuJoCo環境における実験により,提案したMMDDPGは外力摂動とモデルパラメータの変動に対するロバスト性を大幅に向上することが示された。
関連論文リスト
- Polychromic Objectives for Reinforcement Learning [63.37185057794815]
強化学習微調整(Reinforcement Learning fine-tuning, RLFT)は、下流タスクの事前訓練されたポリシーを改善するための主要なパラダイムである。
多様な世代の探索・改良を明示的に実施する政策手法の目的について紹介する。
この目的を最適化するために、PPO(Pximal Policy Optimization)をどのように適用できるかを示す。
論文 参考訳(メタデータ) (2025-09-29T19:32:11Z) - Robust Deterministic Policy Gradient for Disturbance Attenuation and Its Application to Quadrotor Control [6.729634947284263]
本稿では, ニューラルネットワークアーキテクチャを応用し, 安定性と学習効率を向上させるために, TD3 の手法を統合した, 頑健なDeep Deterministic Policy gradient (RDDPG) というアルゴリズムを導入する。
提案アルゴリズムは、外乱に対する堅牢性の観点から他の制御手法よりも優れており、厳しい外乱条件下であっても移動目標の正確なリアルタイム追跡を可能にする。
論文 参考訳(メタデータ) (2025-02-28T13:58:22Z) - Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - Robust Multi-Agent Reinforcement Learning via Adversarial
Regularization: Theoretical Foundation and Stable Algorithms [79.61176746380718]
MARL(Multi-Agent Reinforcement Learning)はいくつかの領域で有望な結果を示している。
MARLポリシーは、しばしば堅牢性を欠き、環境の小さな変化に敏感である。
政策のリプシッツ定数を制御することにより、ロバスト性を得ることができることを示す。
政策のリプシッツ連続性を促進する新しい堅牢なMARLフレームワークであるERNIEを提案する。
論文 参考訳(メタデータ) (2023-10-16T20:14:06Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Offline Contextual Bandits with Overparameterized Models [52.788628474552276]
オフラインの文脈的盗賊にも同じ現象が起こるかどうかを問う。
この相違は, 目的の強調安定性によるものであることを示す。
大規模なニューラルネットワークを用いた実験では、アクション安定な値ベース目標と不安定なポリシベース目標とのギャップは、大きなパフォーマンス差をもたらす。
論文 参考訳(メタデータ) (2020-06-27T13:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。