論文の概要: Leveraging High-Fidelity Digital Models and Reinforcement Learning for Mission Engineering: A Case Study of Aerial Firefighting Under Perfect Information
- arxiv url: http://arxiv.org/abs/2512.20589v2
- Date: Mon, 29 Dec 2025 20:24:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 13:52:31.588539
- Title: Leveraging High-Fidelity Digital Models and Reinforcement Learning for Mission Engineering: A Case Study of Aerial Firefighting Under Perfect Information
- Title(参考訳): ミッションエンジニアリングのための高忠実度ディジタルモデルと強化学習の活用:完全情報による空中消火を事例として
- Authors: İbrahim Oğuz Çetinkaya, Sajad Khodadadian, Taylan G. Topcu,
- Abstract要約: ミッション環境は不確実であり、動的であり、ミッションの成果は、ミッション資産がこの環境とどのように相互作用するかの直接的な機能である。
本稿では、デジタルミッションモデルと強化学習(RL)を統合したインテリジェントなミッションコーディネート手法を提案する。
- 参考スコア(独自算出の注目度): 1.0832844764942349
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As systems engineering (SE) objectives evolve from design and operation of monolithic systems to complex System of Systems (SoS), the discipline of Mission Engineering (ME) has emerged which is increasingly being accepted as a new line of thinking for the SE community. Moreover, mission environments are uncertain, dynamic, and mission outcomes are a direct function of how the mission assets will interact with this environment. This proves static architectures brittle and calls for analytically rigorous approaches for ME. To that end, this paper proposes an intelligent mission coordination methodology that integrates digital mission models with Reinforcement Learning (RL), that specifically addresses the need for adaptive task allocation and reconfiguration. More specifically, we are leveraging a Digital Engineering (DE) based infrastructure that is composed of a high-fidelity digital mission model and agent-based simulation; and then we formulate the mission tactics management problem as a Markov Decision Process (MDP), and employ an RL agent trained via Proximal Policy Optimization. By leveraging the simulation as a sandbox, we map the system states to actions, refining the policy based on realized mission outcomes. The utility of the RL-based intelligent mission coordinator is demonstrated through an aerial firefighting case study. Our findings indicate that the RL-based intelligent mission coordinator not only surpasses baseline performance but also significantly reduces the variability in mission performance. Thus, this study serves as a proof of concept demonstrating that DE-enabled mission simulations combined with advanced analytical tools offer a mission-agnostic framework for improving ME practice; which can be extended to more complicated fleet design and selection problems in the future from a mission-first perspective.
- Abstract(参考訳): システムエンジニアリング(SE)の目標がモノリシックシステムの設計と運用から複雑なシステムシステム(SoS)へと進化するにつれ、ミッションエンジニアリング(ME)の規律が出現し、SEコミュニティの新たな考え方として受け入れられている。
さらに、ミッション環境は不確実であり、動的であり、ミッション成果は、ミッション資産がこの環境とどのように相互作用するかの直接的な機能である。
これは静的アーキテクチャの脆さを証明し、MEに対して分析的に厳密なアプローチを要求する。
そこで本稿では,デジタルミッションモデルと強化学習(Reinforcement Learning, RL)を統合したインテリジェントなミッションコーディネート手法を提案する。
具体的には、高忠実度デジタルミッションモデルとエージェントベースシミュレーションで構成されたデジタルエンジニアリング(DE)ベースのインフラを活用し、その上で、ミッション戦術管理問題をマルコフ決定プロセス(MDP)として定式化し、プロキシポリシー最適化を通じて訓練されたRLエージェントを採用する。
シミュレーションをサンドボックスとして活用することにより、システム状態を行動にマッピングし、実際のミッション結果に基づいてポリシーを精査する。
RLをベースとしたインテリジェントミッションコーディネータの有用性は、空中消火ケーススタディを通じて実証される。
その結果,RLをベースとしたインテリジェントミッションコーディネータは,ベースライン性能を上回るだけでなく,ミッション性能のばらつきを著しく低減できることがわかった。
そこで本研究では,DEC対応ミッションシミュレーションと高度な分析ツールを組み合わせることで,ME実践を改善するためのミッション非依存のフレームワークが提供されることを示す概念実証として,ミッションファーストの観点から,より複雑な艦隊設計や選択問題にまで拡張可能であることを示す。
関連論文リスト
- EmbodiedBrain: Expanding Performance Boundaries of Task Planning for Embodied Intelligence [17.644658293987955]
身体的AIエージェントは、物理的環境における堅牢な空間認識、効果的なタスク計画、適応実行を行うことができる。
現在の大規模言語モデル (LLMs) とマルチモーダルLLM (MLLMs) の具体化タスクは、重要な制約に悩まされている。
EmbodiedBrain は 7B と 32B のパラメータサイズで利用できる新しい視覚言語基盤モデルである。
論文 参考訳(メタデータ) (2025-10-23T14:05:55Z) - The Landscape of Agentic Reinforcement Learning for LLMs: A Survey [103.32591749156416]
エージェント強化学習(Agentic RL)の出現は、大規模言語モデル(LLM RL)に適用された従来の強化学習からパラダイムシフトを示している。
本研究では, LLM-RLの縮退した単段階マルコフ決定過程(MDPs)と, エージェントRLを定義する部分可観測マルコフ決定過程(POMDPs)とを対比することにより, この概念シフトを定式化する。
論文 参考訳(メタデータ) (2025-09-02T17:46:26Z) - Integrating Symbolic RL Planning into a BDI-based Autonomous UAV Framework: System Integration and SIL Validation [3.5966087153300057]
本稿では,自律ミッションエージェント・フォー・ドローン(AMAD)認知マルチエージェントアーキテクチャの拡張版を提案する。
我々は、ハードウェア・イン・ザ・ループ・シミュレーション(HILS)プラットフォームと同じ構成のSoftware-in-the-Loop(SIL)環境で、我々のフレームワークを検証した。
実験の結果、モジュールの安定な統合と相互運用、BDI駆動と象徴的なRL駆動の計画フェーズ間の遷移の成功、一貫したミッション性能が示された。
論文 参考訳(メタデータ) (2025-08-16T03:27:26Z) - UAS Visual Navigation in Large and Unseen Environments via a Meta Agent [0.13654846342364302]
本研究では,大規模都市環境下でのナビゲーションを効率的に学習するためのメタカリキュラムトレーニング手法を提案する。
トレーニングカリキュラムを階層的に整理し,エージェントを粗い状態から目標タスクへ誘導する。
特定のタスクに対するポリシーの獲得に焦点を当てた従来の強化学習(RL)とは対照的に、MRLは、新しいタスクへの高速転送能力を持つポリシーを学習することを目的としている。
論文 参考訳(メタデータ) (2025-03-20T01:44:59Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - Probabilistic Mission Design in Neuro-Symbolic Systems [19.501311018760177]
Probabilistic Mission Design (ProMis)は、地理空間と感覚データを宣言型ハイブリッド確率論理プログラム(HPLP)に結びつけるシステムアーキテクチャである。
ProMisは確率的ミッションランドスケープ(Probabilistic Mission Landscapes, PML)を生成する。
本稿では,Large Language Models(LLM)やTransformerベースの視覚モデルなど,強力な機械学習モデルとの統合について述べる。
論文 参考訳(メタデータ) (2024-12-25T11:04:00Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - Hierarchical Reinforcement Learning Framework for Stochastic Spaceflight
Campaign Design [5.381116150823982]
本稿では,宇宙飛行計画のための階層的強化学習アーキテクチャを不確実性下で開発する。
本手法は,不確実な資源利用(ISRU)性能を有する,月面探査の一連のシナリオに適用する。
論文 参考訳(メタデータ) (2021-03-16T11:17:02Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。