Fugu-MT 論文翻訳(概要): ERPPO: Entropy Regularization-based Proximal Policy Optimization

論文の概要: ERPPO: Entropy Regularization-based Proximal Policy Optimization

arxiv url: http://arxiv.org/abs/2605.13131v1
Date: Wed, 13 May 2026 08:01:20 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-14 23:30:27.88655
Title: ERPPO: Entropy Regularization-based Proximal Policy Optimization
Title（参考訳）: ERPPO: Entropy Regularization-based Proximal Policy Optimization
Authors: Changha Lee, Gyusang Cho,
Abstract要約: MAPPO(Multi-Agent Proximal Policy Optimization)は、PPOアルゴリズムの一種。エントロピー規則化に基づく近似ポリシー最適化(ERPPO)という新しいアプローチを導入する。 ERPPOは、時間クリティカルな操作において、オブジェクトのローカライゼーションが成功する確率を高めるように設計されている。
参考スコア（独自算出の注目度）: 4.364390848288822
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-Agent Proximal Policy Optimization (MAPPO) is a variant of the Proximal Policy Optimization (PPO) algorithm, specifically tailored for multi-agent reinforcement learning (MARL). MAPPO optimizes cooperative multi-agent settings by employing a centralized critic with decentralized actors. However, in case of multi-dimensional environment, MAPPO can not extract optimal policy due to non-stationary agent observation. To overcome this problem, we introduce a novel approach, Entropy Regularization-based Proximal Policy Optimization (ERPPO). For the policy optimization, we first define the object detection ambiguity under multi-dimensional observation environment. Distributional Spatiotemporal Ambiguity (DSA) learner is trained to estimate object detection uncertainty in non-stationary constraints. Then, we enhance PPO with a novel Entropy Regularization term. This regularization dynamically adjusts the policy update by applying a stronger (L1) regularization in high-ambiguity observation to encourage significant exploratory actions and a weaker (L2) regularization in low-ambiguity observation to stabilize the proximal policy optimization. This approach is designed to enhance the probability of successful object localization in time-critical operations by reducing detection failures and optimizing search policy. Experiments on a testbed with AirSim-based maritime searching scenarios show that the proposed ERPPO improves accuracy performance. Our proposed method improves higher gradient than MAPPO. Qualitative results confirm that ERPPO effectiveness in terms of suppressing false detection in visually uncertain conditions.
Abstract（参考訳）: MAPPO(Multi-Agent Proximal Policy Optimization)は、PPOアルゴリズムの一種で、マルチエージェント強化学習(MARL)に特化している。 MAPPOは、中央集権的な批評家と分散型アクターを併用することで、協調的なマルチエージェント設定を最適化する。しかし,多次元環境の場合,MAPPOは非定常エージェント観測による最適方針を抽出できない。この問題を克服するために,エントロピー規則化に基づく近似ポリシー最適化 (ERPPO) という新しいアプローチを導入する。ポリシー最適化では,まず多次元観測環境下での物体検出のあいまいさを定義する。非定常制約における物体検出の不確かさを推定するために、分散時空間曖昧性(DSA)学習者が訓練される。そして,新しいエントロピー正規化項でPPOを強化する。この正規化は、高曖昧な観測においてより強い (L1) 正規化を適用して、重要な探索行動を促進することでポリシー更新を動的に調整し、低曖昧な観測においてより弱い (L2) 正規化を施して、近似的なポリシー最適化を安定化させる。本手法は,検出障害の低減と探索ポリシーの最適化により,時間クリティカルな操作におけるオブジェクトの局所化を成功させる可能性を高めることを目的としている。 AirSimをベースとした海上捜索実験では,提案したERPPOが精度の向上を図っている。提案手法はMAPPOよりも高い勾配を向上する。定性的な結果から,視覚的不確実な条件下での誤検出を抑制することによるERPPOの有効性が確認された。

論文の概要: ERPPO: Entropy Regularization-based Proximal Policy Optimization

関連論文リスト