論文の概要: Online Action-Stacking Improves Reinforcement Learning Performance for Air Traffic Control
- arxiv url: http://arxiv.org/abs/2601.04287v1
- Date: Wed, 07 Jan 2026 14:28:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:52.864945
- Title: Online Action-Stacking Improves Reinforcement Learning Performance for Air Traffic Control
- Title(参考訳): オンラインアクションスタックによる航空交通制御のための強化学習性能の向上
- Authors: Ben Carvell, George De Ath, Eseoghene Benjamin, Richard Everson,
- Abstract要約: オンラインアクションスタックは、強化学習ポリシーのための推論時ラッパーである。
現実的な航空交通管制コマンドを生成し、より小さな個別の行動空間での訓練を可能にする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce online action-stacking, an inference-time wrapper for reinforcement learning policies that produces realistic air traffic control commands while allowing training on a much smaller discrete action space. Policies are trained with simple incremental heading or level adjustments, together with an action-damping penalty that reduces instruction frequency and leads agents to issue commands in short bursts. At inference, online action-stacking compiles these bursts of primitive actions into domain-appropriate compound clearances. Using Proximal Policy Optimisation and the BluebirdDT digital twin platform, we train agents to navigate aircraft along lateral routes, manage climb and descent to target flight levels, and perform two-aircraft collision avoidance under a minimum separation constraint. In our lateral navigation experiments, action stacking greatly reduces the number of issued instructions relative to a damped baseline and achieves comparable performance to a policy trained with a 37-dimensional action space, despite operating with only five actions. These results indicate that online action-stacking helps bridge a key gap between standard reinforcement learning formulations and operational ATC requirements, and provides a simple mechanism for scaling to more complex control scenarios.
- Abstract(参考訳): より小さな離散的な行動空間でのトレーニングを可能にしつつ、現実的な航空交通制御コマンドを生成する強化学習ポリシーのための推論時ラッパーであるオンラインアクションスタッキングを導入する。
ポリシーは、単純なインクリメンタルな方向調整やレベル調整、命令の頻度を減らし、エージェントが短いバーストでコマンドを発行するアクション減衰ペナルティで訓練される。
オンラインアクションスタッキングは、これらの原始的なアクションのバーストをドメインに適した複合クリアランスにコンパイルする。
近接政策最適化とBluebirdDTデジタルツインプラットフォームを用いて、エージェントに横方向のルートに沿って航空機を操縦し、目標の飛行レベルへの上昇と降下を管理し、最小の分離制約の下で二航空機衝突回避を行うよう訓練する。
横方向のナビゲーション実験では,5つのアクションでのみ動作するにもかかわらず,ダンプされたベースラインに対する命令数を大幅に削減し,37次元のアクション空間で訓練されたポリシーに匹敵する性能を実現している。
これらの結果から,オンラインアクションスタッキングは,標準的な強化学習の定式化と運用ATC要件の主なギャップを埋める上で有効であり,より複雑な制御シナリオにスケールアップするためのシンプルなメカニズムを提供する。
関連論文リスト
- Dexplore: Scalable Neural Control for Dexterous Manipulation from Reference-Scoped Exploration [58.4036440289082]
ハンドオブジェクトモーションキャプチャ(MoCap)は、大規模でコンタクトに富んだデモと、器用なロボットスコープの約束を提供する。
Dexploreは、リポジトリとトラッキングを実行し、MoCapから直接ロボット制御ポリシーを学習する、統一された単一ループ最適化である。
論文 参考訳(メタデータ) (2025-09-11T17:59:07Z) - Action-Constrained Imitation Learning [12.316546911223263]
行動制約下での政策学習は、様々なロボット制御や資源配分アプリケーションにおいて、安全な行動を保証する上で中心的な役割を果たす。
本稿では,行動制約付き模倣者がより広い行動空間を持つ実証的専門家から学習することを目的とした,行動制約付き模倣学習(ACIL)と呼ばれる新たな課題について検討する。
我々は、このミスマッチをテキストトラジェクトリアライメント(textittrajectory alignment)を通じて解決し、従来の専門家によるデモンストレーションを、アクション制約に固執しながら、同様の状態軌跡に従うサロゲートデータセットに置き換えるDTWILを提案する。
論文 参考訳(メタデータ) (2025-08-20T03:19:07Z) - Reinforcement Learning for Decision-Level Interception Prioritization in Drone Swarm Defense [51.736723807086385]
本稿では,この課題に対処する上で,強化学習の実践的メリットを示すケーススタディを提案する。
本研究では,現実的な運用制約を捉えた高忠実度シミュレーション環境を提案する。
エージェントは最適なインターセプション優先順位付けのために複数のエフェクターを調整することを学ぶ。
我々は、何百ものシミュレートされた攻撃シナリオにおいて、手作りルールベースのベースラインに対する学習ポリシーを評価する。
論文 参考訳(メタデータ) (2025-08-01T13:55:39Z) - Action Space Reduction Strategies for Reinforcement Learning in Autonomous Driving [0.0]
強化学習(RL)は自動運転のための有望なフレームワークを提供する。
きめ細かい制御を支援するためにしばしば使われる大型で高次元のアクションスペースは、訓練の効率を阻害し、探査コストを増大させる。
我々は、自律運転におけるRLのための2つの新しい構造化された行動空間修正戦略を導入し、評価する。
論文 参考訳(メタデータ) (2025-07-07T17:58:08Z) - Enhancing Aerial Combat Tactics through Hierarchical Multi-Agent Reinforcement Learning [38.15185397658309]
本研究は,模擬空戦シナリオを解析するための階層型多エージェント強化学習フレームワークを提案する。
目的は、予め設定されたシミュレーションでミッションの成功につながる効果的な行動コースを特定することである。
論文 参考訳(メタデータ) (2025-05-13T22:13:48Z) - Towards Deviation-Robust Agent Navigation via Perturbation-Aware
Contrastive Learning [125.61772424068903]
視覚言語ナビゲーション(VLN)は、エージェントに与えられた言語命令に従って実際の3D環境をナビゲートするように要求する。
本稿では,既存のVLNエージェントの一般化能力を高めるために,PROPER(Progressive Perturbation-aware Contrastive Learning)と呼ばれるモデルに依存しない学習パラダイムを提案する。
論文 参考訳(メタデータ) (2024-03-09T02:34:13Z) - Let Offline RL Flow: Training Conservative Agents in the Latent Space of
Normalizing Flows [58.762959061522736]
オフライン強化学習は、追加の環境相互作用なしに、事前に記録された、固定されたデータセット上でポリシーをトレーニングすることを目的としている。
我々は、最近、潜在行動空間における学習ポリシーを基礎として、生成モデルの構築に正規化フローの特別な形式を用いる。
提案手法が最近提案したアルゴリズムより優れていることを示すため,様々な移動タスクとナビゲーションタスクについて評価を行った。
論文 参考訳(メタデータ) (2022-11-20T21:57:10Z) - Learning Pneumatic Non-Prehensile Manipulation with a Mobile Blower [30.032847855193864]
管制官は 常に 行動の予期せぬ変化に 適応しなければならない。
本稿では,空間行動マップフレームワークのマルチ周波数バージョンを紹介する。
これにより、高レベルの計画と低レベルのクローズドループ制御を効果的に組み合わせたビジョンベースのポリシーの効率的な学習が可能になる。
論文 参考訳(メタデータ) (2022-04-05T17:55:58Z) - ReLMoGen: Leveraging Motion Generation in Reinforcement Learning for
Mobile Manipulation [99.2543521972137]
ReLMoGenは、サブゴールを予測するための学習されたポリシーと、これらのサブゴールに到達するために必要な動作を計画し実行するためのモーションジェネレータを組み合わせたフレームワークである。
本手法は,フォトリアリスティック・シミュレーション環境における7つのロボットタスクの多種多様なセットをベンチマークする。
ReLMoGenは、テスト時に異なるモーションジェネレータ間で顕著な転送可能性を示し、実際のロボットに転送する大きな可能性を示している。
論文 参考訳(メタデータ) (2020-08-18T08:05:15Z) - Whole-Body Control of a Mobile Manipulator using End-to-End
Reinforcement Learning [31.150823782805283]
WBC(Whole-Body Control)に対するエンドツーエンド強化学習(RL)アプローチを提案する。
シミュレーションでは,学習したコントローラを最先端のサンプリングベース手法と比較し,全体のミッションタイムを高速化した。
論文 参考訳(メタデータ) (2020-02-25T21:21:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。