論文の概要: Deep Reinforcement Learning for Weapons to Targets Assignment in a
Hypersonic strike
- arxiv url: http://arxiv.org/abs/2310.18509v1
- Date: Fri, 27 Oct 2023 21:58:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 18:22:19.588214
- Title: Deep Reinforcement Learning for Weapons to Targets Assignment in a
Hypersonic strike
- Title(参考訳): 超音速ストライクにおける武器配置を目標とする深層強化学習
- Authors: Brian Gaudet, Kris Drozd, Roberto Furfaro
- Abstract要約: 深部強化学習(RL)を用いて、複数の目標に対するマルチ車両超音速ストライクの目標割り当て(WTA)ポリシーを最適化する。
非線形整数計画法(NLIP)を用いたベンチマークWTAポリシーとの比較を行った。
RL WTAポリシーは計算時間に1000倍の高速化でほぼ最適な性能を与える。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We use deep reinforcement learning (RL) to optimize a weapons to target
assignment (WTA) policy for multi-vehicle hypersonic strike against multiple
targets. The objective is to maximize the total value of destroyed targets in
each episode. Each randomly generated episode varies the number and initial
conditions of the hypersonic strike weapons (HSW) and targets, the value
distribution of the targets, and the probability of a HSW being intercepted. We
compare the performance of this WTA policy to that of a benchmark WTA policy
derived using non-linear integer programming (NLIP), and find that the RL WTA
policy gives near optimal performance with a 1000X speedup in computation time,
allowing real time operation that facilitates autonomous decision making in the
mission end game.
- Abstract(参考訳): 深部強化学習(RL)を用いて、複数の目標に対するマルチ車両超音速ストライクの目標割り当て(WTA)ポリシーを最適化する。
目的は各エピソードで破壊されたターゲットの総価値を最大化することである。
各ランダムに生成されたエピソードは、極超音速攻撃兵器(hsw)と目標の数と初期条件、目標の値分布、およびhswが傍受される確率を変化させる。
我々は、このWTAポリシーの性能を非線形整数プログラミング(NLIP)を用いたベンチマークWTAポリシーと比較し、RL WTAポリシーが計算時間を1000倍高速化し、ミッションエンドゲームにおける自律的な意思決定を容易にするリアルタイム操作を可能にすることを見出した。
関連論文リスト
- Tackling the Zero-Shot Reinforcement Learning Loss Directly [9.228204655806236]
ゼロショットRL損失を直接最適化できることを示す。
驚くべきことに、ホワイトノイズはVISR[HDB+19]とほぼ同じ目的を異なるアプローチで導く。
論文 参考訳(メタデータ) (2025-02-15T13:24:02Z) - LADDER: Multi-objective Backdoor Attack via Evolutionary Algorithm [11.95174457001938]
本研究は、進化的アルゴリズム(LADDER)による二重領域における多目的ブラックボックスバックドア攻撃を提案する。
特に,多目的最適化問題 (MOP) として LADDER を定式化し,多目的進化アルゴリズム (MOEA) を用いて解く。
LADDERの攻撃効果は少なくとも99%、攻撃力90.23%、優れた自然ステルスネス(1.12倍から196.74倍)、優れた分光ステルスネス(8.45倍の強化)が5つの公開データセットの平均$l$-normによる現在のステルスシーアタックと比較して総合的に示されている。
論文 参考訳(メタデータ) (2024-11-28T11:50:23Z) - Revisiting Space Mission Planning: A Reinforcement Learning-Guided Approach for Multi-Debris Rendezvous [15.699822139827916]
目的は、与えられたすべての破片を訪問して、ミッション全体のランデブーを最小限に抑えるシーケンスを最適化することである。
ニューラルネットワーク(NN)ポリシーが開発され、さまざまなデブリフィールドを持つシミュレーションされた宇宙ミッションで訓練される。
強化学習アプローチは計画効率を著しく向上させる。
論文 参考訳(メタデータ) (2024-09-25T12:50:01Z) - DeAL: Decoding-time Alignment for Large Language Models [59.63643988872571]
大規模言語モデル(LLM)は、現在、人間の好みに沿ったコンテンツを生成することが期待されている。
本稿では,報酬関数をカスタマイズ可能なフレームワークであるDeALを提案し,LLMのDetime Alignmentを可能にする。
実験の結果,粒度の細かいトレードオフでDeALを実現できること,アライメント目標への適合性の向上,LLMの残差の解消が可能であることがわかった。
論文 参考訳(メタデータ) (2024-02-05T06:12:29Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Bridging the Gap Between Target Networks and Functional Regularization [61.051716530459586]
関数空間における凸正規化器であり、容易に調整できる明示的な関数正規化を提案する。
提案手法の収束を理論的・実験的に解析し,より理論的に根ざした機能正規化アプローチでターゲットネットワークを置き換えることにより,サンプリング効率と性能が向上することが実証された。
論文 参考訳(メタデータ) (2022-10-21T22:27:07Z) - Uncertainty with UAV Search of Multiple Goal-oriented Targets [25.918290198644122]
本稿では,不確実性下でのUAVの探索対象の複雑な問題について考察する。
エントロピーと時間的信念を組み合わせた,UAVのためのリアルタイムアルゴリズムフレームワークを提案する。
我々は,アルゴリズムの枠組みを実証的に評価し,その効率と大幅な性能向上を実証した。
論文 参考訳(メタデータ) (2022-03-03T09:57:00Z) - Fixed Points in Cyber Space: Rethinking Optimal Evasion Attacks in the
Age of AI-NIDS [70.60975663021952]
ネットワーク分類器に対するブラックボックス攻撃について検討する。
我々は、アタッカー・ディフェンダーの固定点がそれ自体、複雑な位相遷移を持つ一般サムゲームであると主張する。
攻撃防御力学の研究には連続的な学習手法が必要であることを示す。
論文 参考訳(メタデータ) (2021-11-23T23:42:16Z) - Adversarial Intrinsic Motivation for Reinforcement Learning [60.322878138199364]
政策状態の訪問分布と目標分布とのワッサースタイン-1距離が強化学習タスクに有効に活用できるかどうかを検討する。
我々のアプローチは、AIM (Adversarial Intrinsic Motivation) と呼ばれ、このワッサーシュタイン-1距離をその双対目的を通して推定し、補足報酬関数を計算する。
論文 参考訳(メタデータ) (2021-05-27T17:51:34Z) - Provably Efficient Algorithms for Multi-Objective Competitive RL [54.22598924633369]
エージェントの報酬がベクトルとして表現される多目的強化学習(RL)について検討する。
エージェントが相手と競合する設定では、その平均戻りベクトルから目標セットまでの距離によってその性能を測定する。
統計的および計算学的に効率的なアルゴリズムを開発し、関連するターゲットセットにアプローチする。
論文 参考訳(メタデータ) (2021-02-05T14:26:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。