論文の概要: Fine-Tuning Large Language Models for Cooperative Tactical Deconfliction of Small Unmanned Aerial Systems
- arxiv url: http://arxiv.org/abs/2603.28561v1
- Date: Mon, 30 Mar 2026 15:22:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.473969
- Title: Fine-Tuning Large Language Models for Cooperative Tactical Deconfliction of Small Unmanned Aerial Systems
- Title(参考訳): 小型無人航空システムの協調的戦術分割のための微調整大言語モデル
- Authors: Iman Sharifi, Alex Zongo, Peng Wei,
- Abstract要約: 低高度空域における小型無人航空システム(SUAS)は、安全臨界条件下での信頼性の高い戦術的不信の必要性を高めている。
本稿では, 大規模言語モデル (LLMs) を, 微調整戦略を用いた協調的マルチエージェント・戦術デコンフリクションの意思決定者として検討する。
- 参考スコア(独自算出の注目度): 3.3091223236295213
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The growing deployment of small Unmanned Aerial Systems (sUASs) in low-altitude airspaces has increased the need for reliable tactical deconfliction under safety-critical constraints. Tactical deconfliction involves short-horizon decision-making in dense, partially observable, and heterogeneous multi-agent environments, where both cooperative separation assurance and operational efficiency must be maintained. While Large Language Models (LLMs) exhibit strong reasoning capabilities, their direct application to air traffic control remains limited by insufficient domain grounding and unpredictable output inconsistency. This paper investigates LLMs as decision-makers in cooperative multi-agent tactical deconfliction using fine-tuning strategies that align model outputs to human operator heuristics. We propose a simulation-to-language data generation pipeline based on the BlueSky air traffic simulator that produces rule-consistent deconfliction datasets reflecting established safety practices. A pretrained Qwen-Math-7B model is fine-tuned using two parameter-efficient strategies: supervised fine-tuning with Low-Rank Adaptation (LoRA) and preference-based fine-tuning combining LoRA with Group-Relative Policy Optimization (GRPO). Experimental results on validation datasets and closed-loop simulations demonstrate that supervised LoRA fine-tuning substantially improves decision accuracy, consistency, and separation performance compared to the pretrained LLM, with significant reductions in near mid-air collisions. GRPO provides additional coordination benefits but exhibits reduced robustness when interacting with heterogeneous agent policies.
- Abstract(参考訳): 低高度空域における小型無人航空システム(sUAS)の展開は、安全に制約のある制約下での信頼性の高い戦術的不信の必要性を高めている。
戦術的デコンフリクションは、協調的な分離保証と運用効率の両方を維持する必要がある、密集した部分的に観測可能で異質なマルチエージェント環境における短期水平決定を伴う。
LLM(Large Language Models)は強い推論能力を持つが、その航空交通制御への直接的な適用は、不十分な領域の接地と予測不可能な出力の不整合によって制限されている。
本稿では、モデル出力を人間の操作的ヒューリスティックスに整合させる微調整戦略を用いて、協調的マルチエージェント戦術分割における意思決定者としてのLCMについて検討する。
そこで我々は,ブルースカイの航空交通シミュレータをベースとして,既存の安全プラクティスを反映したルール一貫性のデコンフリクションデータセットを生成する,シミュレーションから言語へのデータ生成パイプラインを提案する。
事前訓練されたQwen-Math-7Bモデルは、LoRA(Lo-Rank Adaptation)を用いた教師付き微調整と、GRPO(Group-Relative Policy Optimization)とLoRAを組み合わせた嗜好に基づく微調整という2つのパラメータ効率の戦略を用いて微調整される。
検証データセットとクローズドループシミュレーションによる実験結果から,教師付きLORA微調整により,事前訓練したLCMと比較して決定精度,一貫性,分離性能が大幅に向上し,空中衝突の低減が図られた。
GRPOは追加の協調効果を提供するが、不均一なエージェントポリシーと相互作用する際のロバスト性は低下する。
関連論文リスト
- TopoCurate:Modeling Interaction Topology for Tool-Use Agent Training [53.93696896939915]
訓練用ツール使用エージェントは一般的に、パスレート選択されたタスクに対して、軌道変更の成功と強化学習(RL)に依存している。
TopoCurateは,同一タスクから多段階的なロールアウトを統一的な意味的商トポロジに投影する対話型フレームワークである。
TopoCurateは最先端のベースラインに対して4.2%(SFT)と6.9%(RL)という一貫したゲインを達成している。
論文 参考訳(メタデータ) (2026-03-02T10:38:54Z) - OmniVL-Guard: Towards Unified Vision-Language Forgery Detection and Grounding via Balanced RL [63.388513841293616]
既存の偽造検出手法は、現実世界の誤報に多いインターリーブされたテキスト、画像、ビデオを扱うのに失敗する。
このギャップを埋めるため,本論文では,オムニバス・ビジョン言語による偽造検出と接地のための統一フレームワークの開発を目標としている。
我々は、OmniVL-Guardという、オムニバス視覚言語による偽造検出と接地のためのバランスの取れた強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-11T09:41:36Z) - Large Language Model-Empowered Decision Transformer for UAV-Enabled Data Collection [71.84636717632206]
空間分散デバイスからの信頼性とエネルギー効率のよいデータ収集のための無人航空機(UAV)は、IoT(Internet of Things)アプリケーションをサポートする上で大きな可能性を秘めている。
有効なUAV制御ポリシーを学習するための共同言語モデル(LLM)を提案する。
LLM-CRDTは、現在の最先端DTアプローチよりも最大36.7%高いエネルギー効率を達成し、オンラインおよびオフラインメソッドのベンチマークより優れている。
論文 参考訳(メタデータ) (2025-09-17T13:05:08Z) - LLM Meets the Sky: Heuristic Multi-Agent Reinforcement Learning for Secure Heterogeneous UAV Networks [57.27815890269697]
この研究は、エネルギー制約下での不均一なUAVネットワーク(HetUAVN)における機密率の最大化に焦点を当てている。
本稿では,Large Language Model (LLM) を用いたマルチエージェント学習手法を提案する。
その結果,本手法は機密性やエネルギー効率において,既存のベースラインよりも優れていた。
論文 参考訳(メタデータ) (2025-07-23T04:22:57Z) - AirLLM: Diffusion Policy-based Adaptive LoRA for Remote Fine-Tuning of LLM over the Air [14.089748643405498]
AirLLMは、コミュニケーションを意識したLoRA適応のための階層的な拡散ポリシーフレームワークである。
AirLLMは、送信コストを大幅に削減しつつ、微調整性能を継続的に向上させる。
論文 参考訳(メタデータ) (2025-07-15T17:36:37Z) - Integrated Sensing and Communications for Low-Altitude Economy: A Deep Reinforcement Learning Approach [20.36806314683902]
低高度経済(LAE)のための統合センシング・通信(ISAC)システムについて検討する。
所定の飛行期間における通信総和レートは、GBSとUAVの軌道でのビームフォーミングを共同最適化することにより最大化する。
本稿では, 深部強化学習(DRL)技術を活用して, 深部LAE-ISAC(Deep LAE-ISAC)と呼ばれる新しいLEE指向ISAC方式を提案する。
論文 参考訳(メタデータ) (2024-12-05T11:12:46Z) - Towards Robust and Efficient Federated Low-Rank Adaptation with Heterogeneous Clients [6.570712059945705]
低ランク適応(LoRA)は解法として提案されているが、連合学習におけるその応用は集約の不一致によって複雑である。
この不一致に対処する既存の手法は、不均一なデータ設定で低いランクでの性能劣化に悩まされることが多い。
LoRA-A$2$を導入し、低いランクと高いデータ不均一性を持つ挑戦的な設定において堅牢性を示す。
論文 参考訳(メタデータ) (2024-10-30T08:48:21Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。