論文の概要: Diffusion-RL Based Air Traffic Conflict Detection and Resolution Method
- arxiv url: http://arxiv.org/abs/2509.03550v1
- Date: Tue, 02 Sep 2025 23:17:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:09.92103
- Title: Diffusion-RL Based Air Traffic Conflict Detection and Resolution Method
- Title(参考訳): 拡散RLに基づく空気交通衝突検出と分解法
- Authors: Tonghe Li, Jixin Liu, Weili Zeng, Hao Jiang,
- Abstract要約: 本稿では,Diffusion-ACという新たな自律的紛争解決フレームワークを提案する。
我々のフレームワークは、その方針を値関数で導かれる逆の認知過程としてモデル化し、リッチで高品質でマルチモーダルな行動分布を生成する。
大規模なシミュレーション実験により,提案手法は最先端のDRLベンチマークを著しく上回る結果を得た。
- 参考スコア(独自算出の注目度): 5.477141500588868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the context of continuously rising global air traffic, efficient and safe Conflict Detection and Resolution (CD&R) is paramount for air traffic management. Although Deep Reinforcement Learning (DRL) offers a promising pathway for CD&R automation, existing approaches commonly suffer from a "unimodal bias" in their policies. This leads to a critical lack of decision-making flexibility when confronted with complex and dynamic constraints, often resulting in "decision deadlocks." To overcome this limitation, this paper pioneers the integration of diffusion probabilistic models into the safety-critical task of CD&R, proposing a novel autonomous conflict resolution framework named Diffusion-AC. Diverging from conventional methods that converge to a single optimal solution, our framework models its policy as a reverse denoising process guided by a value function, enabling it to generate a rich, high-quality, and multimodal action distribution. This core architecture is complemented by a Density-Progressive Safety Curriculum (DPSC), a training mechanism that ensures stable and efficient learning as the agent progresses from sparse to high-density traffic environments. Extensive simulation experiments demonstrate that the proposed method significantly outperforms a suite of state-of-the-art DRL benchmarks. Most critically, in the most challenging high-density scenarios, Diffusion-AC not only maintains a high success rate of 94.1% but also reduces the incidence of Near Mid-Air Collisions (NMACs) by approximately 59% compared to the next-best-performing baseline, significantly enhancing the system's safety margin. This performance leap stems from its unique multimodal decision-making capability, which allows the agent to flexibly switch to effective alternative maneuvers.
- Abstract(参考訳): グローバルな航空交通が継続的に増加する中では、効率よく安全な衝突検知・解決(CD&R)が航空交通管理において最重要である。
Deep Reinforcement Learning (DRL) はCD&R自動化のための有望なパスを提供するが、既存のアプローチは一般的に、彼らの方針において「一元的バイアス」に悩まされる。
このことは、複雑で動的な制約に直面した時に意思決定の柔軟性が欠如し、しばしば「決定のデッドロック」となる。
この制限を克服するために,拡散確率モデルをCD&Rの安全クリティカルタスクに統合し,Diffusion-ACという新たな自律的紛争解決フレームワークを提案する。
一つの最適解に収束する従来の手法から切り離され、我々のフレームワークは、値関数によって導かれる逆偏極過程としてポリシーをモデル化し、リッチで高品質でマルチモーダルな行動分布を生成する。
このコアアーキテクチャは、エージェントがスパースから高密度の交通環境に進むにつれて、安定かつ効率的な学習を保証するためのトレーニングメカニズムである、密度プログレッシブ・セーフティ・カリキュラム(DPSC)によって補完される。
大規模なシミュレーション実験により,提案手法は最先端のDRLベンチマークを著しく上回る結果を得た。
最も重要なことは、最も困難な高密度のシナリオにおいて、拡散ACは94.1%の高い成功率を維持するだけでなく、次のパフォーマンスのベースラインと比較して、近中空衝突(NMAC)の発生率を約59%減少させ、システムの安全性を著しく向上させる。
この性能の飛躍は、エージェントが柔軟な代替操作に柔軟に切り替えることのできる、独特のマルチモーダルな意思決定能力に起因している。
関連論文リスト
- Robust Policy Switching for Antifragile Reinforcement Learning for UAV Deconfliction in Adversarial Environments [6.956559003734227]
無人航空機(UAV)は、強化学習(RL)の脆弱性を利用する敵の攻撃にさらされている。
本稿では,より広範な分布シフトへの適応性を高めるための反フレジブルRLフレームワークを提案する。
より優れた性能を発揮し、短い航法路の長さと衝突のない航法軌道の速度を示す。
論文 参考訳(メタデータ) (2025-06-26T10:06:29Z) - Efficient Beam Selection for ISAC in Cell-Free Massive MIMO via Digital Twin-Assisted Deep Reinforcement Learning [37.540612510652174]
我々は、誤報率制約の下で複数の受信APに対して共同目標検出確率の分布を導出する。
次に、マルコフ決定過程(MDP)としてビーム選択手順を定式化する。
リアルタイムエージェント環境相互作用の高コスト化とそれに伴うリスクを解消するために,新しいディジタルツイン(DT)支援オフラインDRL手法を提案する。
論文 参考訳(メタデータ) (2025-06-23T12:17:57Z) - Distributionally Robust Constrained Reinforcement Learning under Strong Duality [37.76993170360821]
分布ロバスト制約付きRL(DRC-RL)の問題点について検討する。
目標は、環境分布の変化や制約の対象となる報酬を最大化することである。
本稿では, 第一の効率的かつ証明可能な解を可能にする, 強双対性に基づくアルゴリズムフレームワークを開発する。
論文 参考訳(メタデータ) (2024-06-22T08:51:57Z) - DiveR-CT: Diversity-enhanced Red Teaming Large Language Model Assistants with Relaxing Constraints [68.82294911302579]
DiveR-CTを導入し、目的と意味の報酬に対する従来の制約を緩和し、多様性を高める政策により大きな自由を与える。
実験では,1)様々な攻撃成功率の多様な多様性指標において優れたデータを生成すること,2)収集したデータに基づく安全性チューニングによる青チームモデルのレジリエンスの向上,3)信頼性と制御可能な攻撃成功率に対する目標重みの動的制御,3)報酬過大化に対する感受性の低下など,ベースラインよりも優れたDiveR-CTの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2024-05-29T12:12:09Z) - Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - Multi-agent deep reinforcement learning with centralized training and
decentralized execution for transportation infrastructure management [0.0]
本稿では,大規模交通インフラシステムをライフサイクル上で管理するための多エージェント深層強化学習(DRL)フレームワークを提案する。
このようなエンジニアリングシステムのライフサイクル管理は計算集約的な作業であり、適切なシーケンシャルな検査とメンテナンスの決定を必要とする。
論文 参考訳(メタデータ) (2024-01-23T02:52:36Z) - Safe Model-Based Multi-Agent Mean-Field Reinforcement Learning [48.667697255912614]
平均場強化学習は、同一エージェントの無限集団と相互作用する代表エージェントのポリシーに対処する。
モデルベースの平均場強化学習アルゴリズムであるSafe-M$3$-UCRLを提案する。
本アルゴリズムは,低需要領域におけるサービスアクセシビリティを確保しつつ,重要な領域における需要を効果的に満たす。
論文 参考訳(メタデータ) (2023-06-29T15:57:07Z) - Relative Distributed Formation and Obstacle Avoidance with Multi-agent
Reinforcement Learning [20.401609420707867]
マルチエージェント強化学習(MARL)に基づく分散生成・障害物回避手法を提案する。
提案手法は, 障害物回避における生成誤差, 生成収束率, オンパー成功率に関して, ベースラインと比較して高い性能を実現する。
論文 参考訳(メタデータ) (2021-11-14T13:02:45Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。