論文の概要: Diffusion-RL Based Air Traffic Conflict Detection and Resolution Method
- arxiv url: http://arxiv.org/abs/2509.03550v1
- Date: Tue, 02 Sep 2025 23:17:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:09.92103
- Title: Diffusion-RL Based Air Traffic Conflict Detection and Resolution Method
- Title(参考訳): 拡散RLに基づく空気交通衝突検出と分解法
- Authors: Tonghe Li, Jixin Liu, Weili Zeng, Hao Jiang,
- Abstract要約: 本稿では,Diffusion-ACという新たな自律的紛争解決フレームワークを提案する。
我々のフレームワークは、その方針を値関数で導かれる逆の認知過程としてモデル化し、リッチで高品質でマルチモーダルな行動分布を生成する。
大規模なシミュレーション実験により,提案手法は最先端のDRLベンチマークを著しく上回る結果を得た。
- 参考スコア(独自算出の注目度): 5.477141500588868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the context of continuously rising global air traffic, efficient and safe Conflict Detection and Resolution (CD&R) is paramount for air traffic management. Although Deep Reinforcement Learning (DRL) offers a promising pathway for CD&R automation, existing approaches commonly suffer from a "unimodal bias" in their policies. This leads to a critical lack of decision-making flexibility when confronted with complex and dynamic constraints, often resulting in "decision deadlocks." To overcome this limitation, this paper pioneers the integration of diffusion probabilistic models into the safety-critical task of CD&R, proposing a novel autonomous conflict resolution framework named Diffusion-AC. Diverging from conventional methods that converge to a single optimal solution, our framework models its policy as a reverse denoising process guided by a value function, enabling it to generate a rich, high-quality, and multimodal action distribution. This core architecture is complemented by a Density-Progressive Safety Curriculum (DPSC), a training mechanism that ensures stable and efficient learning as the agent progresses from sparse to high-density traffic environments. Extensive simulation experiments demonstrate that the proposed method significantly outperforms a suite of state-of-the-art DRL benchmarks. Most critically, in the most challenging high-density scenarios, Diffusion-AC not only maintains a high success rate of 94.1% but also reduces the incidence of Near Mid-Air Collisions (NMACs) by approximately 59% compared to the next-best-performing baseline, significantly enhancing the system's safety margin. This performance leap stems from its unique multimodal decision-making capability, which allows the agent to flexibly switch to effective alternative maneuvers.
- Abstract(参考訳): グローバルな航空交通が継続的に増加する中では、効率よく安全な衝突検知・解決(CD&R)が航空交通管理において最重要である。
Deep Reinforcement Learning (DRL) はCD&R自動化のための有望なパスを提供するが、既存のアプローチは一般的に、彼らの方針において「一元的バイアス」に悩まされる。
このことは、複雑で動的な制約に直面した時に意思決定の柔軟性が欠如し、しばしば「決定のデッドロック」となる。
この制限を克服するために,拡散確率モデルをCD&Rの安全クリティカルタスクに統合し,Diffusion-ACという新たな自律的紛争解決フレームワークを提案する。
一つの最適解に収束する従来の手法から切り離され、我々のフレームワークは、値関数によって導かれる逆偏極過程としてポリシーをモデル化し、リッチで高品質でマルチモーダルな行動分布を生成する。
このコアアーキテクチャは、エージェントがスパースから高密度の交通環境に進むにつれて、安定かつ効率的な学習を保証するためのトレーニングメカニズムである、密度プログレッシブ・セーフティ・カリキュラム(DPSC)によって補完される。
大規模なシミュレーション実験により,提案手法は最先端のDRLベンチマークを著しく上回る結果を得た。
最も重要なことは、最も困難な高密度のシナリオにおいて、拡散ACは94.1%の高い成功率を維持するだけでなく、次のパフォーマンスのベースラインと比較して、近中空衝突(NMAC)の発生率を約59%減少させ、システムの安全性を著しく向上させる。
この性能の飛躍は、エージェントが柔軟な代替操作に柔軟に切り替えることのできる、独特のマルチモーダルな意思決定能力に起因している。
関連論文リスト
- Intent-Context Synergy Reinforcement Learning for Autonomous UAV Decision-Making in Air Combat [2.9612776591672443]
本稿では、競合環境における自律型UAV侵入のためのIntent-Context Synergy Reinforcement Learning(ICS-RL)フレームワークを提案する。
LSTMベースのIntent Prediction Moduleは、将来の敵ユニットの軌跡を予測し、決定パラダイムをリアクティブ回避から積極的に計画に変換する。
コンテキスト分析合成機構は、ミッションを階層的なサブタスク(安全なクルーズ、ステルス計画、敵対的なブレークスルー)に分解する
Max-Advantage値に基づく動的スイッチングコントローラはこれらのエージェントをシームレスに統合し、UAVはハードコードされたルールなしで最適なポリシーを適応的に選択できる。
論文 参考訳(メタデータ) (2026-03-01T08:05:32Z) - Fuz-RL: A Fuzzy-Guided Robust Framework for Safe Reinforcement Learning under Uncertainty [22.020160934935493]
Fuz-RLは安全なRLのためのファジィ測度誘導型ロバストフレームワークである。
本稿では,Fuz-RLが既存の安全なRLベースラインをモデルフリーで効果的に統合できることを示す。
論文 参考訳(メタデータ) (2026-02-24T09:50:17Z) - BarrierSteer: LLM Safety via Learning Barrier Steering [83.12893815611052]
BarrierSteerは、学習した非線形安全性制約を直接モデルの潜在表現空間に埋め込むことで、安全性を形式化する新しいフレームワークである。
BarrierSteerは、敵の成功率を大幅に低下させ、安全でない世代を減少させ、既存の手法より優れていることを示す。
論文 参考訳(メタデータ) (2026-02-23T18:19:46Z) - Safe Reinforcement Learning via Recovery-based Shielding with Gaussian Process Dynamics Models [57.006252510102506]
強化学習(Reinforcement Learning, RL)は、最適な意思決定と制御のための強力なフレームワークである。
本稿では,未知および非線形連続力学系に対する安全性を低くした安全RLを実現するための新しい回復型遮蔽フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-12T22:03:35Z) - SecDiff: Diffusion-Aided Secure Deep Joint Source-Channel Coding Against Adversarial Attacks [73.41290017870097]
SecDiffは、プラグイン・アンド・プレイの拡散支援デコーディングフレームワークである。
対向無線環境下での深部JSCCの安全性と堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2025-11-03T11:24:06Z) - Adversarial Diffusion for Robust Reinforcement Learning [46.44328012099217]
我々はロバスト強化学習(AD-RRL)のための逆拡散を導入する。
AD-RRLは拡散過程を導出し、トレーニング中に最悪の場合の軌跡を生成し、累積リターンの条件値(CVaR)を効果的に最適化する。
標準ベンチマークにおける実験結果から、AD-RRLは既存のロバストなRL法と比較して、優れたロバスト性と性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-09-28T12:34:35Z) - The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward [57.56453588632619]
Reinforcement Learning with Verifiable Reward (RLVR) を用いた細調整大型言語モデル(LLM)における中心的パラドックスは、多目的性能の頻繁な劣化である。
これはしばしば破滅的な忘れが伴い、モデルが以前獲得したスキルを失う。
我々は,標準RLVR目標には知識保持のための重要なメカニズムが欠如していると主張している。
論文 参考訳(メタデータ) (2025-09-09T06:34:32Z) - Robust Policy Switching for Antifragile Reinforcement Learning for UAV Deconfliction in Adversarial Environments [6.956559003734227]
無人航空機(UAV)は、強化学習(RL)の脆弱性を利用する敵の攻撃にさらされている。
本稿では,より広範な分布シフトへの適応性を高めるための反フレジブルRLフレームワークを提案する。
より優れた性能を発揮し、短い航法路の長さと衝突のない航法軌道の速度を示す。
論文 参考訳(メタデータ) (2025-06-26T10:06:29Z) - Efficient Beam Selection for ISAC in Cell-Free Massive MIMO via Digital Twin-Assisted Deep Reinforcement Learning [37.540612510652174]
我々は、誤報率制約の下で複数の受信APに対して共同目標検出確率の分布を導出する。
次に、マルコフ決定過程(MDP)としてビーム選択手順を定式化する。
リアルタイムエージェント環境相互作用の高コスト化とそれに伴うリスクを解消するために,新しいディジタルツイン(DT)支援オフラインDRL手法を提案する。
論文 参考訳(メタデータ) (2025-06-23T12:17:57Z) - Distributionally Robust Constrained Reinforcement Learning under Strong Duality [37.76993170360821]
分布ロバスト制約付きRL(DRC-RL)の問題点について検討する。
目標は、環境分布の変化や制約の対象となる報酬を最大化することである。
本稿では, 第一の効率的かつ証明可能な解を可能にする, 強双対性に基づくアルゴリズムフレームワークを開発する。
論文 参考訳(メタデータ) (2024-06-22T08:51:57Z) - DiveR-CT: Diversity-enhanced Red Teaming Large Language Model Assistants with Relaxing Constraints [68.82294911302579]
DiveR-CTを導入し、目的と意味の報酬に対する従来の制約を緩和し、多様性を高める政策により大きな自由を与える。
実験では,1)様々な攻撃成功率の多様な多様性指標において優れたデータを生成すること,2)収集したデータに基づく安全性チューニングによる青チームモデルのレジリエンスの向上,3)信頼性と制御可能な攻撃成功率に対する目標重みの動的制御,3)報酬過大化に対する感受性の低下など,ベースラインよりも優れたDiveR-CTの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2024-05-29T12:12:09Z) - Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - Multi-agent deep reinforcement learning with centralized training and
decentralized execution for transportation infrastructure management [0.0]
本稿では,大規模交通インフラシステムをライフサイクル上で管理するための多エージェント深層強化学習(DRL)フレームワークを提案する。
このようなエンジニアリングシステムのライフサイクル管理は計算集約的な作業であり、適切なシーケンシャルな検査とメンテナンスの決定を必要とする。
論文 参考訳(メタデータ) (2024-01-23T02:52:36Z) - Safe Model-Based Multi-Agent Mean-Field Reinforcement Learning [48.667697255912614]
平均場強化学習は、同一エージェントの無限集団と相互作用する代表エージェントのポリシーに対処する。
モデルベースの平均場強化学習アルゴリズムであるSafe-M$3$-UCRLを提案する。
本アルゴリズムは,低需要領域におけるサービスアクセシビリティを確保しつつ,重要な領域における需要を効果的に満たす。
論文 参考訳(メタデータ) (2023-06-29T15:57:07Z) - Relative Distributed Formation and Obstacle Avoidance with Multi-agent
Reinforcement Learning [20.401609420707867]
マルチエージェント強化学習(MARL)に基づく分散生成・障害物回避手法を提案する。
提案手法は, 障害物回避における生成誤差, 生成収束率, オンパー成功率に関して, ベースラインと比較して高い性能を実現する。
論文 参考訳(メタデータ) (2021-11-14T13:02:45Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。