論文の概要: Deep Reinforcement Learning for Weapons to Targets Assignment in a
Hypersonic strike
- arxiv url: http://arxiv.org/abs/2310.18509v1
- Date: Fri, 27 Oct 2023 21:58:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 18:22:19.588214
- Title: Deep Reinforcement Learning for Weapons to Targets Assignment in a
Hypersonic strike
- Title(参考訳): 超音速ストライクにおける武器配置を目標とする深層強化学習
- Authors: Brian Gaudet, Kris Drozd, Roberto Furfaro
- Abstract要約: 深部強化学習(RL)を用いて、複数の目標に対するマルチ車両超音速ストライクの目標割り当て(WTA)ポリシーを最適化する。
非線形整数計画法(NLIP)を用いたベンチマークWTAポリシーとの比較を行った。
RL WTAポリシーは計算時間に1000倍の高速化でほぼ最適な性能を与える。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We use deep reinforcement learning (RL) to optimize a weapons to target
assignment (WTA) policy for multi-vehicle hypersonic strike against multiple
targets. The objective is to maximize the total value of destroyed targets in
each episode. Each randomly generated episode varies the number and initial
conditions of the hypersonic strike weapons (HSW) and targets, the value
distribution of the targets, and the probability of a HSW being intercepted. We
compare the performance of this WTA policy to that of a benchmark WTA policy
derived using non-linear integer programming (NLIP), and find that the RL WTA
policy gives near optimal performance with a 1000X speedup in computation time,
allowing real time operation that facilitates autonomous decision making in the
mission end game.
- Abstract(参考訳): 深部強化学習(RL)を用いて、複数の目標に対するマルチ車両超音速ストライクの目標割り当て(WTA)ポリシーを最適化する。
目的は各エピソードで破壊されたターゲットの総価値を最大化することである。
各ランダムに生成されたエピソードは、極超音速攻撃兵器(hsw)と目標の数と初期条件、目標の値分布、およびhswが傍受される確率を変化させる。
我々は、このWTAポリシーの性能を非線形整数プログラミング(NLIP)を用いたベンチマークWTAポリシーと比較し、RL WTAポリシーが計算時間を1000倍高速化し、ミッションエンドゲームにおける自律的な意思決定を容易にするリアルタイム操作を可能にすることを見出した。
関連論文リスト
- Revisiting Space Mission Planning: A Reinforcement Learning-Guided Approach for Multi-Debris Rendezvous [15.699822139827916]
目的は、与えられたすべての破片を訪問して、ミッション全体のランデブーを最小限に抑えるシーケンスを最適化することである。
ニューラルネットワーク(NN)ポリシーが開発され、さまざまなデブリフィールドを持つシミュレーションされた宇宙ミッションで訓練される。
強化学習アプローチは計画効率を著しく向上させる。
論文 参考訳(メタデータ) (2024-09-25T12:50:01Z) - DeAL: Decoding-time Alignment for Large Language Models [59.63643988872571]
大規模言語モデル(LLM)は、現在、人間の好みに沿ったコンテンツを生成することが期待されている。
本稿では,報酬関数をカスタマイズ可能なフレームワークであるDeALを提案し,LLMのDetime Alignmentを可能にする。
実験の結果,粒度の細かいトレードオフでDeALを実現できること,アライメント目標への適合性の向上,LLMの残差の解消が可能であることがわかった。
論文 参考訳(メタデータ) (2024-02-05T06:12:29Z) - Optimal Attack and Defense for Reinforcement Learning [11.36770403327493]
敵RLでは、外部攻撃者は、環境との相互作用を操作できる。
我々は、攻撃者が予想される報酬を最大化するステルス攻撃を設計する際の問題を示す。
被害者に対する最適な防衛方針は,Stackelbergゲームに対する解決策として計算できる,と我々は主張する。
論文 参考訳(メタデータ) (2023-11-30T21:21:47Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Bridging the Gap Between Target Networks and Functional Regularization [61.051716530459586]
関数空間における凸正規化器であり、容易に調整できる明示的な関数正規化を提案する。
提案手法の収束を理論的・実験的に解析し,より理論的に根ざした機能正規化アプローチでターゲットネットワークを置き換えることにより,サンプリング効率と性能が向上することが実証された。
論文 参考訳(メタデータ) (2022-10-21T22:27:07Z) - ISEE.U: Distributed online active target localization with unpredictable
targets [0.0]
本稿では,各ノードにおける分散,単純,高速な計算によって定義されるオンライン能動学習アルゴリズムを用いて,ターゲットのローカライゼーションに対処する。
我々は、特定の目標ダイナミクスを前提とせず、予測不可能な目標に直面する場合、その手法は堅牢である。
我々は,提案手法を,目標運動が所定の軌道に従わない場合と,本手法が1つの中央CPU上で動作している場合のx100時間短縮時とを比較した。
論文 参考訳(メタデータ) (2022-10-17T13:57:07Z) - Uncertainty with UAV Search of Multiple Goal-oriented Targets [25.918290198644122]
本稿では,不確実性下でのUAVの探索対象の複雑な問題について考察する。
エントロピーと時間的信念を組み合わせた,UAVのためのリアルタイムアルゴリズムフレームワークを提案する。
我々は,アルゴリズムの枠組みを実証的に評価し,その効率と大幅な性能向上を実証した。
論文 参考訳(メタデータ) (2022-03-03T09:57:00Z) - Fixed Points in Cyber Space: Rethinking Optimal Evasion Attacks in the
Age of AI-NIDS [70.60975663021952]
ネットワーク分類器に対するブラックボックス攻撃について検討する。
我々は、アタッカー・ディフェンダーの固定点がそれ自体、複雑な位相遷移を持つ一般サムゲームであると主張する。
攻撃防御力学の研究には連続的な学習手法が必要であることを示す。
論文 参考訳(メタデータ) (2021-11-23T23:42:16Z) - Adversarial Intrinsic Motivation for Reinforcement Learning [60.322878138199364]
政策状態の訪問分布と目標分布とのワッサースタイン-1距離が強化学習タスクに有効に活用できるかどうかを検討する。
我々のアプローチは、AIM (Adversarial Intrinsic Motivation) と呼ばれ、このワッサーシュタイン-1距離をその双対目的を通して推定し、補足報酬関数を計算する。
論文 参考訳(メタデータ) (2021-05-27T17:51:34Z) - Provably Efficient Algorithms for Multi-Objective Competitive RL [54.22598924633369]
エージェントの報酬がベクトルとして表現される多目的強化学習(RL)について検討する。
エージェントが相手と競合する設定では、その平均戻りベクトルから目標セットまでの距離によってその性能を測定する。
統計的および計算学的に効率的なアルゴリズムを開発し、関連するターゲットセットにアプローチする。
論文 参考訳(メタデータ) (2021-02-05T14:26:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。