論文の概要: Training Environment for High Performance Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.01953v1
- Date: Sun, 04 May 2025 01:09:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.350776
- Title: Training Environment for High Performance Reinforcement Learning
- Title(参考訳): 高性能強化学習のための学習環境
- Authors: Greg Search,
- Abstract要約: トンネルは高性能航空機のための強化学習環境である。
F16の非線形飛行ダイナミクスをOpenAI Gymnasium pythonパッケージに統合する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: This paper presents Tunnel, a simple, open source, reinforcement learning training environment for high performance aircraft. It integrates the F16 3D nonlinear flight dynamics into OpenAI Gymnasium python package. The template includes primitives for boundaries, targets, adversaries and sensing capabilities that may vary depending on operational need. This offers mission planners a means to rapidly respond to evolving environments, sensor capabilities and adversaries for autonomous air combat aircraft. It offers researchers access to operationally relevant aircraft physics. Tunnel code base is accessible to anyone familiar with Gymnasium and/or those with basic python skills. This paper includes a demonstration of a week long trade study that investigated a variety of training methods, observation spaces, and threat presentations. This enables increased collaboration between researchers and mission planners which can translate to a national military advantage. As warfare becomes increasingly reliant upon automation, software agility will correlate with decision advantages. Airmen must have tools to adapt to adversaries in this context. It may take months for researchers to develop skills to customize observation, actions, tasks and training methodologies in air combat simulators. In Tunnel, this can be done in a matter of days.
- Abstract(参考訳): 本稿では,高性能航空機のための簡易かつオープンソースの強化学習環境であるTunnelについて述べる。
F16の非線形飛行ダイナミクスをOpenAI Gymnasium pythonパッケージに統合する。
テンプレートには、バウンダリ、ターゲット、敵、センシング機能のためのプリミティブが含まれており、運用ニーズによって異なる可能性がある。
これにより、ミッションプランナーは進化する環境、センサー能力、自律飛行航空機の敵に迅速に対応できる。
研究者は、運用上の関連する航空機物理学にアクセスすることができる。
トンネルのコードベースは、Gymnasiumに詳しい人や、基本的なピソンスキルを持っている人なら誰でもアクセスできる。
本稿は、様々なトレーニング方法、観測空間、脅威提示について1週間にわたる貿易研究のデモンストレーションを含む。
これにより、研究者とミッションプランナーの協力関係が強化され、国家の軍事的優位性に繋がる。
戦争が自動化にますます依存するようになると、ソフトウェアアジリティは意思決定の利点と相関するでしょう。
この文脈では、飛行士は敵に適応するための道具を持っていなければならない。
研究者が航空戦闘シミュレーターで観察、行動、タスク、訓練方法をカスタマイズする技術を開発するには数ヶ月かかるかもしれない。
トンネルでは、数日でこれを行うことができる。
関連論文リスト
- SPIRE: Synergistic Planning, Imitation, and Reinforcement Learning for Long-Horizon Manipulation [58.14969377419633]
タスクをより小さな学習サブプロブレムに分解し、第2に模倣と強化学習を組み合わせてその強みを最大化するシステムであるspireを提案する。
我々は、模倣学習、強化学習、計画を統合する従来の手法よりも平均タスク性能が35%から50%向上していることを発見した。
論文 参考訳(メタデータ) (2024-10-23T17:42:07Z) - An Imitative Reinforcement Learning Framework for Autonomous Dogfight [18.782465158163543]
無人戦闘空母(UCAV)は、空戦において決定的な役割を担っている。
本稿では,自律的な探索を可能にしつつ,専門家データを効率的に活用する,新しい擬似強化学習フレームワークを提案する。
提案した枠組みは,UCAVの「プール・ロック・ローンチ」におけるドッグファイト・ポリシーを成功に導くことができる。
論文 参考訳(メタデータ) (2024-06-17T13:59:52Z) - Rethinking Closed-loop Training for Autonomous Driving [82.61418945804544]
本研究は,学習エージェントの成功に対する異なるトレーニングベンチマーク設計の影響を分析した最初の実証的研究である。
複数ステップのルックアヘッドで計画を行うRLベースの駆動エージェントであるtrajectory value learning (TRAVL)を提案する。
実験の結果,TRAVLはすべてのベースラインと比較してより速く学習でき,安全な操作が可能であることがわかった。
論文 参考訳(メタデータ) (2023-06-27T17:58:39Z) - Learning and Adapting Agile Locomotion Skills by Transferring Experience [71.8926510772552]
本稿では,既存のコントローラから新しいタスクを学習するために経験を移譲することで,複雑なロボティクススキルを訓練するためのフレームワークを提案する。
提案手法は,複雑なアジャイルジャンプ行動の学習,後肢を歩いたまま目標地点への移動,新しい環境への適応を可能にする。
論文 参考訳(メタデータ) (2023-04-19T17:37:54Z) - Autonomous Agent for Beyond Visual Range Air Combat: A Deep
Reinforcement Learning Approach [0.2578242050187029]
本研究は, 遠近視域(BVR)空戦シミュレーション環境において動作可能な深層強化学習に基づくエージェントの開発に寄与する。
本稿では,BVR戦闘におけるその役割を学習し,改善することができる高性能戦闘機のエージェント構築の概要について述べる。
また、仮想シミュレーションを用いて実際のパイロットの能力を調べ、訓練されたエージェントと同じ環境で対話し、パフォーマンスを比較することを望んでいる。
論文 参考訳(メタデータ) (2023-04-19T13:54:37Z) - Self-Inspection Method of Unmanned Aerial Vehicles in Power Plants Using
Deep Q-Network Reinforcement Learning [0.0]
本研究は,UAV自律ナビゲーションとDQN強化学習を取り入れた発電所検査システムを提案する。
訓練されたモデルは、UAVが困難な環境で単独で移動できるようにすることで、検査戦略が実際に適用される可能性が高い。
論文 参考訳(メタデータ) (2023-03-16T00:58:50Z) - The eyes and hearts of UAV pilots: observations of physiological
responses in real-life scenarios [64.0476282000118]
民間機や軍用機では、パイロットはリアルなシミュレーターで自分の反応や反射を調整できる。
この作業は、現場でパイロットの行動を収集し、パフォーマンスを向上させるソリューションを提供することを目的としています。
論文 参考訳(メタデータ) (2022-10-26T14:16:56Z) - Harfang3D Dog-Fight Sandbox: A Reinforcement Learning Research Platform
for the Customized Control Tasks of Fighter Aircrafts [0.0]
本研究では,戦闘機用の半現実的な飛行シミュレーション環境であるHarfang3D Dog-Fight Sandboxを提案する。
強化学習を用いた航空研究における主な課題を調査するための柔軟なツールボックスである。
ソフトウェアはまた、ボット航空機の配備とマルチエージェントタスクの開発を可能にする。
論文 参考訳(メタデータ) (2022-10-13T18:18:09Z) - Automating Privilege Escalation with Deep Reinforcement Learning [71.87228372303453]
本研究では,エージェントの訓練に深層強化学習を用いることで,悪意あるアクターの潜在的な脅威を実証する。
本稿では,最先端の強化学習アルゴリズムを用いて,局所的な特権エスカレーションを行うエージェントを提案する。
我々のエージェントは、実際の攻撃センサーデータを生成し、侵入検知システムの訓練と評価に利用できる。
論文 参考訳(メタデータ) (2021-10-04T12:20:46Z) - Emergent Real-World Robotic Skills via Unsupervised Off-Policy
Reinforcement Learning [81.12201426668894]
報奨関数を使わずに多様なスキルを習得し,これらのスキルを下流のタスクに再利用する効率的な強化学習手法を開発した。
提案アルゴリズムは学習効率を大幅に向上させ,報酬のない実世界のトレーニングを実現する。
また,学習スキルは,目標指向ナビゲーションのためのモデル予測制御を用いて,追加のトレーニングを伴わずに構成可能であることも実証した。
論文 参考訳(メタデータ) (2020-04-27T17:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。