論文の概要: ERPPO: Entropy Regularization-based Proximal Policy Optimization
- arxiv url: http://arxiv.org/abs/2605.13131v1
- Date: Wed, 13 May 2026 08:01:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.88655
- Title: ERPPO: Entropy Regularization-based Proximal Policy Optimization
- Title(参考訳): ERPPO: Entropy Regularization-based Proximal Policy Optimization
- Authors: Changha Lee, Gyusang Cho,
- Abstract要約: MAPPO(Multi-Agent Proximal Policy Optimization)は、PPOアルゴリズムの一種。
エントロピー規則化に基づく近似ポリシー最適化(ERPPO)という新しいアプローチを導入する。
ERPPOは、時間クリティカルな操作において、オブジェクトのローカライゼーションが成功する確率を高めるように設計されている。
- 参考スコア(独自算出の注目度): 4.364390848288822
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-Agent Proximal Policy Optimization (MAPPO) is a variant of the Proximal Policy Optimization (PPO) algorithm, specifically tailored for multi-agent reinforcement learning (MARL). MAPPO optimizes cooperative multi-agent settings by employing a centralized critic with decentralized actors. However, in case of multi-dimensional environment, MAPPO can not extract optimal policy due to non-stationary agent observation. To overcome this problem, we introduce a novel approach, Entropy Regularization-based Proximal Policy Optimization (ERPPO). For the policy optimization, we first define the object detection ambiguity under multi-dimensional observation environment. Distributional Spatiotemporal Ambiguity (DSA) learner is trained to estimate object detection uncertainty in non-stationary constraints. Then, we enhance PPO with a novel Entropy Regularization term. This regularization dynamically adjusts the policy update by applying a stronger (L1) regularization in high-ambiguity observation to encourage significant exploratory actions and a weaker (L2) regularization in low-ambiguity observation to stabilize the proximal policy optimization. This approach is designed to enhance the probability of successful object localization in time-critical operations by reducing detection failures and optimizing search policy. Experiments on a testbed with AirSim-based maritime searching scenarios show that the proposed ERPPO improves accuracy performance. Our proposed method improves higher gradient than MAPPO. Qualitative results confirm that ERPPO effectiveness in terms of suppressing false detection in visually uncertain conditions.
- Abstract(参考訳): MAPPO(Multi-Agent Proximal Policy Optimization)は、PPOアルゴリズムの一種で、マルチエージェント強化学習(MARL)に特化している。
MAPPOは、中央集権的な批評家と分散型アクターを併用することで、協調的なマルチエージェント設定を最適化する。
しかし,多次元環境の場合,MAPPOは非定常エージェント観測による最適方針を抽出できない。
この問題を克服するために,エントロピー規則化に基づく近似ポリシー最適化 (ERPPO) という新しいアプローチを導入する。
ポリシー最適化では,まず多次元観測環境下での物体検出のあいまいさを定義する。
非定常制約における物体検出の不確かさを推定するために、分散時空間曖昧性(DSA)学習者が訓練される。
そして,新しいエントロピー正規化項でPPOを強化する。
この正規化は、高曖昧な観測においてより強い (L1) 正規化を適用して、重要な探索行動を促進することでポリシー更新を動的に調整し、低曖昧な観測においてより弱い (L2) 正規化を施して、近似的なポリシー最適化を安定化させる。
本手法は,検出障害の低減と探索ポリシーの最適化により,時間クリティカルな操作におけるオブジェクトの局所化を成功させる可能性を高めることを目的としている。
AirSimをベースとした海上捜索実験では,提案したERPPOが精度の向上を図っている。
提案手法はMAPPOよりも高い勾配を向上する。
定性的な結果から,視覚的不確実な条件下での誤検出を抑制することによるERPPOの有効性が確認された。
関連論文リスト
- Bounded Ratio Reinforcement Learning [62.09379476369526]
本稿では,BRRL(Bunded Ratio Reinforcement Learning)フレームワークを導入し,都市部における強化学習の課題を解決する。
本稿では,BRRL の最適化手法であるBunded Policy Optimization (BPO) を開発した。
特に,我々のフレームワークは,PPO損失の成功を解釈する新たな理論レンズを提供し,信頼領域政策最適化とクロスエントロピー法(CEM)を接続する。
論文 参考訳(メタデータ) (2026-04-20T17:59:01Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Clipped-Objective Policy Gradients for Pessimistic Policy Optimization [3.2996723916635275]
政策勾配法は、政策出力の有界変化を通じて単調な改善を図っている。
本研究では,PPOの性能を連続的な作用空間に適用した場合,目的の単純変化によって一貫した改善が期待できることを示す。
PPO と PPO の両目標に比較して, COPG の目標が平均的な「悲観的」であること, 2) この悲観主義は探索を促進させることを示した。
論文 参考訳(メタデータ) (2023-11-10T03:02:49Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。