論文の概要: UAV-CodeAgents: Scalable UAV Mission Planning via Multi-Agent ReAct and Vision-Language Reasoning
- arxiv url: http://arxiv.org/abs/2505.07236v1
- Date: Mon, 12 May 2025 05:23:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.262611
- Title: UAV-CodeAgents: Scalable UAV Mission Planning via Multi-Agent ReAct and Vision-Language Reasoning
- Title(参考訳): UAV-CodeAgents: Multi-Agent ReAsoningとVision-Language ReasoningによるスケーラブルなUAVミッションプランニング
- Authors: Oleg Sautenkov, Yasheerah Yaqoot, Muhammad Ahsan Mustafa, Faryal Batool, Jeffrin Sam, Artem Lykov, Chih-Yung Wen, Dzmitry Tsetserukou,
- Abstract要約: 自律型UAVミッション生成のためのスケーラブルなマルチエージェントフレームワークであるUAV-CodeAgentsを提案する。
コアコンポーネントは、空の地図上のセマンティックターゲットの正確な位置決めを可能にする、視覚的に座屈したピクセルポインティング機構である。
より低い復号温度(0.5)は、平均ミッション作成時間96.96秒、成功率93%で、高い計画信頼性と実行時間の短縮をもたらすことを示す。
- 参考スコア(独自算出の注目度): 2.0094541584885426
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present UAV-CodeAgents, a scalable multi-agent framework for autonomous UAV mission generation, built on large language and vision-language models (LLMs/VLMs). The system leverages the ReAct (Reason + Act) paradigm to interpret satellite imagery, ground high-level natural language instructions, and collaboratively generate UAV trajectories with minimal human supervision. A core component is a vision-grounded, pixel-pointing mechanism that enables precise localization of semantic targets on aerial maps. To support real-time adaptability, we introduce a reactive thinking loop, allowing agents to iteratively reflect on observations, revise mission goals, and coordinate dynamically in evolving environments. UAV-CodeAgents is evaluated on large-scale mission scenarios involving industrial and environmental fire detection. Our results show that a lower decoding temperature (0.5) yields higher planning reliability and reduced execution time, with an average mission creation time of 96.96 seconds and a success rate of 93%. We further fine-tune Qwen2.5VL-7B on 9,000 annotated satellite images, achieving strong spatial grounding across diverse visual categories. To foster reproducibility and future research, we will release the full codebase and a novel benchmark dataset for vision-language-based UAV planning.
- Abstract(参考訳): UAV-CodeAgentsは,大規模言語と視覚言語モデル(LLMs/VLMs)に基づいて構築された,自律型UAVミッション生成のためのスケーラブルなマルチエージェントフレームワークである。
このシステムはReAct(Reason + Act)パラダイムを利用して、衛星画像、地上の高水準自然言語命令を解釈し、人間の監督を最小限に抑えたUAV軌道を共同で生成する。
コアコンポーネントは、空の地図上のセマンティックターゲットの正確な位置決めを可能にする、視覚的に座屈したピクセルポインティング機構である。
リアルタイム適応性を支援するために,エージェントが観測を反復的に反映し,ミッション目標を修正し,進化する環境下で動的に協調する,リアクティブな思考ループを導入する。
UAV-CodeAgentsは、産業と環境の火災検知を含む大規模なミッションシナリオで評価される。
以上の結果から,より低い復号温度 (0.5) では計画信頼性が高く, 実行時間が短縮され, 平均ミッション生成時間は96.96秒, 成功率は93%であった。
さらに、9000個の注釈付き衛星画像上にQwen2.5VL-7Bを微調整し、多様な視覚カテゴリーにわたって強力な空間接地を実現する。
再現性と今後の研究を促進するため、視覚言語に基づくUAV計画のためのコードベースと新しいベンチマークデータセットをリリースする。
関連論文リスト
- More Clear, More Flexible, More Precise: A Comprehensive Oriented Object Detection benchmark for UAV [58.89234732689013]
CODroneは、現実の状況を正確に反映した、UAVのための包括的なオブジェクト指向オブジェクト検出データセットである。
また、下流のタスク要求に合わせて設計された新しいベンチマークとしても機能する。
我々は、CODroneを厳格に評価するために、22の古典的またはSOTA法に基づく一連の実験を行う。
論文 参考訳(メタデータ) (2025-04-28T17:56:02Z) - Towards Realistic UAV Vision-Language Navigation: Platform, Benchmark, and Methodology [38.2096731046639]
UAV視覚言語ナビゲーションにおける最近の取り組みは、主に地上ベースのVLN設定を採用する。
プラットフォーム,ベンチマーク,方法論という3つの観点からのソリューションを提案する。
論文 参考訳(メタデータ) (2024-10-09T17:29:01Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - Aerial View Goal Localization with Reinforcement Learning [6.165163123577484]
本稿では,実際のUAVへのアクセスを必要とせずに,SAR(Search-and-Rescue)のようなセットアップをエミュレートするフレームワークを提案する。
この枠組みでは、エージェントが空中画像(探索領域のプロキシ)上で動作し、視覚的手がかりとして記述されたゴールのローカライズを行う。
AiRLocは、探索(遠方目標探索)と搾取(近方目標の局所化)を分離する強化学習(RL)に基づくモデルである。
論文 参考訳(メタデータ) (2022-09-08T10:27:53Z) - Think Global, Act Local: Dual-scale Graph Transformer for
Vision-and-Language Navigation [87.03299519917019]
本稿では,2次元グラフ変換器 (DUET) を提案する。
我々は,グローバルな行動空間における効率的な探索を可能にするために,トポロジカルマップをオンザフライで構築する。
提案手法であるDUETは、目標指向の視覚・言語ナビゲーションベンチマークにおいて最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-02-23T19:06:53Z) - Vision-Based UAV Self-Positioning in Low-Altitude Urban Environments [20.69412701553767]
無人航空機(UAV)は安定した位置決めのために衛星システムに依存している。
このような状況下では、視覚に基づく技術が代替手段として機能し、UAVの自己配置能力を確実にする。
本稿では,UAV自己配置タスク用に設計された最初の公開データセットであるDenseUAVを提案する。
論文 参考訳(メタデータ) (2022-01-23T07:18:55Z) - Large-scale Autonomous Flight with Real-time Semantic SLAM under Dense
Forest Canopy [48.51396198176273]
本研究では,大規模自律飛行とリアルタイムセマンティックマッピングを,挑戦的なアンダーキャノピー環境下で実現可能な統合システムを提案する。
我々は、スキャン全体で関連付けられ、木のトランクモデルと同様にロボットのポーズを制約するために使用されるLiDARデータから、木の幹と地面の平面を検出し、モデル化する。
ドリフト補償機構は、プランナー最適性とコントローラ安定性を維持しつつ、セマンティックSLAM出力を用いたドリフトをリアルタイムで最小化するように設計されている。
論文 参考訳(メタデータ) (2021-09-14T07:24:53Z) - A Multi-UAV System for Exploration and Target Finding in Cluttered and
GPS-Denied Environments [68.31522961125589]
複雑なGPSを用いた複雑な環境において,UAVのチームが協調して目標を探索し,発見するための枠組みを提案する。
UAVのチームは自律的にナビゲートし、探索し、検出し、既知の地図で散らばった環境でターゲットを見つける。
その結果, 提案方式は, 時間的コスト, 調査対象地域の割合, 捜索・救助ミッションの成功率などの面で改善されていることがわかった。
論文 参考訳(メタデータ) (2021-07-19T12:54:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。