Fugu-MT 論文翻訳(概要): Smart Commander: A Hierarchical Reinforcement Learning Framework for Fleet-Level PHM Decision Optimization

論文の概要: Smart Commander: A Hierarchical Reinforcement Learning Framework for Fleet-Level PHM Decision Optimization

arxiv url: http://arxiv.org/abs/2604.07171v1
Date: Wed, 08 Apr 2026 15:00:12 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-09 17:30:51.595999
Title: Smart Commander: A Hierarchical Reinforcement Learning Framework for Fleet-Level PHM Decision Optimization
Title（参考訳）: Smart Commander: フリートレベルPHM決定最適化のための階層的強化学習フレームワーク
Authors: Yong Si, Mingfei Lu, Jing Li, Yang Hu, Guijiang Li, Yueheng Song, Zhaokui Wang,
Abstract要約: 本稿では,シーケンシャルなメンテナンスとロジスティクスの決定を最適化する新しい階層強化学習(HRL)フレームワークであるSmart Commanderを提案する。このフレームワークは、複雑な制御問題を2階層の階層に分解する: 戦略総司令官は、艦隊レベルの可用性とコスト目標を管理し、戦術作戦コマンドは、ソート生成、メンテナンススケジューリング、リソース割り当てのための特定のアクションを実行する。実証的な評価によると、Smart Commanderは従来のモノリシックなDeepReinforcement Learning(DRL)とルールベースのベースラインを大きく上回っている。
参考スコア（独自算出の注目度）: 6.029264044194714
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Decision-making in military aviation Prognostics and Health Management (PHM) faces significant challenges due to the "curse of dimensionality" in large-scale fleet operations, combined with sparse feedback and stochastic mission profiles. To address these issues, this paper proposes Smart Commander, a novel Hierarchical Reinforcement Learning (HRL) framework designed to optimize sequential maintenance and logistics decisions. The framework decomposes the complex control problem into a two-tier hierarchy: a strategic General Commander manages fleet-level availability and cost objectives, while tactical Operation Commanders execute specific actions for sortie generation, maintenance scheduling, and resource allocation. The proposed approach is validated within a custom-built, high-fidelity discrete-event simulation environment that captures the dynamics of aircraft configuration and support logistics.By integrating layered reward shaping with planning-enhanced neural networks, the method effectively addresses the difficulty of sparse and delayed rewards. Empirical evaluations demonstrate that Smart Commander significantly outperforms conventional monolithic Deep Reinforcement Learning (DRL) and rule-based baselines. Notably, it achieves a substantial reduction in training time while demonstrating superior scalability and robustness in failure-prone environments. These results highlight the potential of HRL as a reliable paradigm for next-generation intelligent fleet management.
Abstract（参考訳）: 軍用航空の診断・健康管理(PHM)における意思決定は、大規模な艦隊作戦における「次元の計算」と、まばらなフィードバックと確率的な任務プロファイルが組み合わさって大きな課題に直面している。これらの課題に対処するために, シーケンシャルなメンテナンスとロジスティクスの決定を最適化する新しい階層型強化学習(HRL)フレームワークであるSmart Commanderを提案する。このフレームワークは、複雑な制御問題を2階層の階層に分解する: 戦略総司令官は、艦隊レベルの可用性とコスト目標を管理し、戦術作戦コマンドは、ソート生成、メンテナンススケジューリング、リソース割り当てのための特定のアクションを実行する。提案手法は、航空機構成のダイナミクスを捉え、ロジスティクスをサポートするカスタムビルドされた高忠実な離散イベントシミュレーション環境において検証され、層状報酬形成と計画強化ニューラルネットワークを統合することにより、スパースと遅延報酬の難しさを効果的に解決する。実証的な評価では、Smart Commanderは従来のモノリシックなDeep Reinforcement Learning(DRL)とルールベースのベースラインを大きく上回っている。特に、障害が発生しやすい環境で優れたスケーラビリティと堅牢性を示しながら、トレーニング時間の大幅な削減を実現しています。これらの結果は、次世代のインテリジェントフリート管理のための信頼性の高いパラダイムとしてのHRLの可能性を強調している。

関連論文リスト

Intent-Context Synergy Reinforcement Learning for Autonomous UAV Decision-Making in Air Combat [2.9612776591672443]
本稿では、競合環境における自律型UAV侵入のためのIntent-Context Synergy Reinforcement Learning(ICS-RL)フレームワークを提案する。 LSTMベースのIntent Prediction Moduleは、将来の敵ユニットの軌跡を予測し、決定パラダイムをリアクティブ回避から積極的に計画に変換する。コンテキスト分析合成機構は、ミッションを階層的なサブタスク(安全なクルーズ、ステルス計画、敵対的なブレークスルー)に分解する Max-Advantage値に基づく動的スイッチングコントローラはこれらのエージェントをシームレスに統合し、UAVはハードコードされたルールなしで最適なポリシーを適応的に選択できる。
論文参考訳（メタデータ） (2026-03-01T08:05:32Z)
PILOT: Planning via Internalized Latent Optimization Trajectories for Large Language Models [51.43746425777865]
大規模言語モデル(LLM)は、しばしばグローバル戦略を定式化する能力に欠けており、長い水平タスクにおけるエラーの伝播につながる。 PILOTは,大規模モデルの戦略的監視を本質的な潜伏誘導に内部化するためのフレームワークである。
論文参考訳（メタデータ） (2026-01-07T12:38:56Z)
Emergent Hierarchical Reasoning in LLMs through Reinforcement Learning [56.496001894673235]
強化学習(RL)は,大規模言語モデル(LLM)の複雑な推論能力の向上に有効であることが証明された。解析の結果,アハモーメント,長さスケーリング,エントロピーのダイナミクスといったファズリング現象は異なる現象ではなく,創発的推論階層の目印であることがわかった。
論文参考訳（メタデータ） (2025-09-03T18:52:49Z)
Integrating Symbolic RL Planning into a BDI-based Autonomous UAV Framework: System Integration and SIL Validation [3.5966087153300057]
本稿では,自律ミッションエージェント・フォー・ドローン(AMAD)認知マルチエージェントアーキテクチャの拡張版を提案する。我々は、ハードウェア・イン・ザ・ループ・シミュレーション(HILS)プラットフォームと同じ構成のSoftware-in-the-Loop(SIL)環境で、我々のフレームワークを検証した。実験の結果、モジュールの安定な統合と相互運用、BDI駆動と象徴的なRL駆動の計画フェーズ間の遷移の成功、一貫したミッション性能が示された。
論文参考訳（メタデータ） (2025-08-16T03:27:26Z)
Reinforcement Learning for Decision-Level Interception Prioritization in Drone Swarm Defense [51.736723807086385]
本稿では,この課題に対処する上で,強化学習の実践的メリットを示すケーススタディを提案する。本研究では,現実的な運用制約を捉えた高忠実度シミュレーション環境を提案する。エージェントは最適なインターセプション優先順位付けのために複数のエフェクターを調整することを学ぶ。我々は、何百ものシミュレートされた攻撃シナリオにおいて、手作りルールベースのベースラインに対する学習ポリシーを評価する。
論文参考訳（メタデータ） (2025-08-01T13:55:39Z)
Divide and Conquer: Grounding LLMs as Efficient Decision-Making Agents via Offline Hierarchical Reinforcement Learning [32.260964481673085]
大規模言語モデル(LLM)は、不十分な探索と長期クレジット割り当てのために、長期的な意思決定タスクに苦しむ。本稿では, LLMポリシーにパラメータ効率が高く, 一般に適用可能な階層構造を導入する, 革新的なフレームワークを提案する。我々は,低レベル制御器を抽象的なステップバイステップ計画で制御し,高レベル制御器で学習・指導する手法を開発した。
論文参考訳（メタデータ） (2025-05-26T09:43:40Z)
Enhancing Aerial Combat Tactics through Hierarchical Multi-Agent Reinforcement Learning [38.15185397658309]
本研究は,模擬空戦シナリオを解析するための階層型多エージェント強化学習フレームワークを提案する。目的は、予め設定されたシミュレーションでミッションの成功につながる効果的な行動コースを特定することである。
論文参考訳（メタデータ） (2025-05-13T22:13:48Z)
An Automated Reinforcement Learning Reward Design Framework with Large Language Model for Cooperative Platoon Coordination [10.669043457982404]
強化学習(RL)は小隊調整問題において優れた意思決定可能性を示した。複雑な小隊調整問題を解くためにRL訓練を指導する優れた性能報酬関数を見つけることは依然として困難である。報奨関数発見を体系的に自動化するLarge Language Model (LLM) ベースのPlatoon coordinate Reward Design (PCRD) フレームワークを提案する。
論文参考訳（メタデータ） (2025-04-28T04:41:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。