論文の概要: Eval-PPO: Building an Efficient Threat Evaluator Using Proximal Policy Optimization
- arxiv url: http://arxiv.org/abs/2503.12098v1
- Date: Sat, 15 Mar 2025 11:49:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 15:59:32.914873
- Title: Eval-PPO: Building an Efficient Threat Evaluator Using Proximal Policy Optimization
- Title(参考訳): Eval-PPO: 近似ポリシー最適化を用いた効率的な脅威評価器の構築
- Authors: Wuzhou Sun, Siyi Li, Qingxiang Zou, Zixing Liao,
- Abstract要約: 本研究では,脅威評価問題を強化学習課題として再定義する。
Eval-PPOは、多次元敵の特徴と友好的なユニットの状態情報を体系的な訓練を通じて統合する。
ルールベースの手法と比較して、Eval-PPOは平均成功率を大幅に改善し、17.84%の上昇を示した。
- 参考スコア(独自算出の注目度): 2.153670245679554
- License:
- Abstract: In various game scenarios, selecting a fixed number of targets from multiple enemy units is an extremely challenging task. This difficulty stems from the complex relationship between the threat levels of enemy units and their feature characteristics, which complicates the design of rule-based evaluators. Moreover, traditional supervised learning methods face the challenge of lacking explicit labels during training when applied to this threat evaluation problem. In this study, we redefine the threat evaluation problem as a reinforcement learning task and introduce an efficient evaluator training algorithm, Eval-PPO, based on the Proximal Policy Optimization (PPO) algorithm. Eval-PPO integrates multidimensional enemy features and the state information of friendly units through systematic training, thereby achieving precise threat assessment. Compared with rule-based methods, Eval-PPO demonstrates a significant improvement in average success rate, with an increase of 17.84%.
- Abstract(参考訳): 様々なゲームシナリオにおいて、複数の敵ユニットから一定数の目標を選択することは極めて困難な作業である。
この難しさは、敵部隊の脅威レベルとそれらの特徴との間の複雑な関係に起因しており、ルールベースの評価器の設計を複雑にしている。
さらに、従来の教師付き学習手法は、この脅威評価問題に適用した場合、トレーニング中に明示的なラベルを欠くという課題に直面している。
本研究では,脅威評価問題を強化学習課題として再定義し,PPOアルゴリズムに基づく効率的な評価器トレーニングアルゴリズムであるEval-PPOを導入する。
Eval-PPOは、系統的な訓練を通じて、多次元敵の特徴と友好ユニットの状態情報を統合し、正確な脅威評価を実現する。
ルールベースの手法と比較して、Eval-PPOは平均成功率を大幅に改善し、17.84%の上昇を示した。
関連論文リスト
- Beyond the Surface: An NLP-based Methodology to Automatically Estimate CVE Relevance for CAPEC Attack Patterns [42.63501759921809]
本稿では,自然言語処理(NLP)を利用して,共通脆弱性・暴露(CAPEC)脆弱性と共通攻撃パターン・分類(CAPEC)攻撃パターンを関連付ける手法を提案する。
実験による評価は,最先端モデルと比較して優れた性能を示した。
論文 参考訳(メタデータ) (2025-01-13T08:39:52Z) - Golden Ratio Search: A Low-Power Adversarial Attack for Deep Learning based Modulation Classification [8.187445866881637]
深層学習に基づく自動変調分類(AMC)のための最小パワー・ホワイトボックス対向攻撃を提案する。
提案手法の有効性を,既存の攻撃手法との比較により評価した。
実験の結果、提案した攻撃は強力で、最小限の電力を必要とし、より少ない時間で発生可能であることが示された。
論文 参考訳(メタデータ) (2024-09-17T17:17:54Z) - The Pitfalls and Promise of Conformal Inference Under Adversarial Attacks [90.52808174102157]
医療画像や自律運転などの安全クリティカルな応用においては、高い敵の堅牢性を維持し、潜在的敵の攻撃から保護することが不可欠である。
敵対的に訓練されたモデルに固有の不確実性に関して、注目すべき知識ギャップが残っている。
本研究では,共形予測(CP)の性能を標準対向攻撃の文脈で検証することにより,ディープラーニングモデルの不確実性について検討する。
論文 参考訳(メタデータ) (2024-05-14T18:05:19Z) - UAV Path Planning Employing MPC- Reinforcement Learning Method for
search and rescue mission [0.0]
複雑で不確実な環境での無人航空路計画(UA V)の課題に取り組む。
本稿では,Long-Short-Term Memory (LSTM) ネットワークに基づくモデル予測制御(MPC)を,Deep Deterministic Policy Gradientアルゴリズムに統合して設計する。
論文 参考訳(メタデータ) (2023-02-21T13:39:40Z) - On the Convergence and Robustness of Adversarial Training [134.25999006326916]
Project Gradient Decent (PGD) によるアドリアリトレーニングが最も効果的である。
生成した逆数例の収束性を向上させるためのテクトダイナミックトレーニング戦略を提案する。
その結果,提案手法の有効性が示唆された。
論文 参考訳(メタデータ) (2021-12-15T17:54:08Z) - Model-Agnostic Meta-Attack: Towards Reliable Evaluation of Adversarial
Robustness [53.094682754683255]
モデル非依存型メタアタック(MAMA)アプローチにより,より強力な攻撃アルゴリズムを自動検出する。
本手法は、繰り返しニューラルネットワークによってパラメータ化された逆攻撃を学習する。
本研究では,未知の防御を攻撃した場合の学習能力を向上させるために,モデルに依存しない訓練アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-10-13T13:54:24Z) - Estimation Error Correction in Deep Reinforcement Learning for
Deterministic Actor-Critic Methods [0.0]
価値に基づく深層強化学習法では、値関数の近似は過大評価バイアスを誘発し、準最適ポリシーをもたらす。
過大評価バイアスを克服することを目的とした深いアクター批判的手法では,エージェントが受信した強化信号に高いばらつきがある場合,顕著な過大評価バイアスが発生することを示す。
過小評価を最小限に抑えるため,パラメータフリーで新しいQ-ラーニングモデルを提案する。
論文 参考訳(メタデータ) (2021-09-22T13:49:35Z) - Bootstrapping Statistical Inference for Off-Policy Evaluation [43.79456564713911]
オフ政治評価(OPE)におけるブートストラップの利用について検討する。
本稿では,政策評価誤差の分布を推定するブートストラップFQE法を提案し,この手法が政治外の統計的推測に有効で一貫性があることを示す。
我々は,古典的RL環境におけるブートラッピング手法の評価を行い,信頼区間推定,オフポリチック評価器のばらつきの推定,複数オフポリチック評価器の相関性の推定を行った。
論文 参考訳(メタデータ) (2021-02-06T16:45:33Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z) - Kalman meets Bellman: Improving Policy Evaluation through Value Tracking [59.691919635037216]
政策評価は強化学習(RL)における重要なプロセスである
我々はKalman Optimization for Value Approximation (KOVA)と呼ばれる最適化手法を考案した。
KOVAはパラメータとノイズリターンの不確実性の両方に関する正規化対象関数を最小化する。
論文 参考訳(メタデータ) (2020-02-17T13:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。