論文の概要: AirVista-II: An Agentic System for Embodied UAVs Toward Dynamic Scene Semantic Understanding
- arxiv url: http://arxiv.org/abs/2504.09583v1
- Date: Sun, 13 Apr 2025 14:06:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:50:10.173227
- Title: AirVista-II: An Agentic System for Embodied UAVs Toward Dynamic Scene Semantic Understanding
- Title(参考訳): AirVista-II:ダイナミックシーンのセマンティック理解に向けたUAVエージェントシステム
- Authors: Fei Lin, Yonglin Tian, Tengchao Zhang, Jun Huang, Sangtian Guan, Fei-Yue Wang,
- Abstract要約: AirVista-IIは、UAVのエンドツーエンドのエージェントシステムである。
システムはエージェントベースのタスク識別とスケジューリング、マルチモーダル認識機構、および区別された抽出戦略を統合する。
- 参考スコア(独自算出の注目度): 16.405658563770757
- License:
- Abstract: Unmanned Aerial Vehicles (UAVs) are increasingly important in dynamic environments such as logistics transportation and disaster response. However, current tasks often rely on human operators to monitor aerial videos and make operational decisions. This mode of human-machine collaboration suffers from significant limitations in efficiency and adaptability. In this paper, we present AirVista-II -- an end-to-end agentic system for embodied UAVs, designed to enable general-purpose semantic understanding and reasoning in dynamic scenes. The system integrates agent-based task identification and scheduling, multimodal perception mechanisms, and differentiated keyframe extraction strategies tailored for various temporal scenarios, enabling the efficient capture of critical scene information. Experimental results demonstrate that the proposed system achieves high-quality semantic understanding across diverse UAV-based dynamic scenarios under a zero-shot setting.
- Abstract(参考訳): 無人航空機(UAV)は、輸送輸送や災害対応といった動的環境においてますます重要になっている。
しかしながら、現在のタスクは、しばしば人間のオペレーターに頼り、空中ビデオを監視し、運用上の決定を行う。
この人間と機械のコラボレーションの様式は、効率性と適応性の重大な限界に悩まされている。
本稿では,動的シーンにおける汎用的な意味理解と推論を可能にするために,UAVを具現化したエンドツーエンドのエージェントシステムであるAirVista-IIを提案する。
エージェントベースのタスク識別とスケジューリング、マルチモーダル認識機構、および様々な時間シナリオに適したキーフレーム抽出戦略を統合し、重要なシーン情報の効率的な取得を可能にする。
実験により, 提案システムは, ゼロショット設定下で, 多様なUAVベースの動的シナリオに対して, 高品質なセマンティック理解を実現することを示す。
関連論文リスト
- CSAOT: Cooperative Multi-Agent System for Active Object Tracking [1.384468678066823]
Active Object Tracking (AOT) は、複雑な環境で移動対象との視覚的接触を維持するために、コントローラエージェントが視点を積極的に調整する必要がある。
既存のAOTソリューションは主にシングルエージェントベースで、動的で複雑なシナリオに苦しむ。
我々は,複数のエージェントがひとつのデバイス上で動作できるようにするために,CSAOT(Collaborative System for Active Object Tracking)を導入する。
論文 参考訳(メタデータ) (2025-01-23T10:44:35Z) - Task Delay and Energy Consumption Minimization for Low-altitude MEC via Evolutionary Multi-objective Deep Reinforcement Learning [52.64813150003228]
無人航空機や他の航空機による低高度経済(LAE)は、輸送、農業、環境監視といった分野に革命をもたらした。
今後の6世代(6G)時代において、UAV支援移動エッジコンピューティング(MEC)は特に山岳や災害に遭った地域のような困難な環境において重要である。
タスクオフロード問題は、主にタスク遅延の最小化とUAVのエネルギー消費のトレードオフに対処するUAV支援MECの重要な問題の一つである。
論文 参考訳(メタデータ) (2025-01-11T02:32:42Z) - UAVs Meet LLMs: Overviews and Perspectives Toward Agentic Low-Altitude Mobility [33.73170899086857]
無人航空機(UAV)に代表される低高度機動性は、様々な領域に変革をもたらす。
本稿では,大規模言語モデル(LLM)とUAVの統合について検討する。
UAVとLLMが収束する主要なタスクとアプリケーションシナリオを分類し分析する。
論文 参考訳(メタデータ) (2025-01-04T17:32:12Z) - A Cross-Scene Benchmark for Open-World Drone Active Tracking [54.235808061746525]
Drone Visual Active Trackingは、視覚的な観察に基づいてモーションシステムを制御することで、対象物を自律的に追跡することを目的としている。
DATと呼ばれるオープンワールドドローンアクティブトラッキングのためのクロスシーンクロスドメインベンチマークを提案する。
また、R-VATと呼ばれる強化学習に基づくドローン追跡手法を提案する。
論文 参考訳(メタデータ) (2024-12-01T09:37:46Z) - VipAct: Visual-Perception Enhancement via Specialized VLM Agent Collaboration and Tool-use [74.39058448757645]
視覚言語モデル(VLM)を強化するエージェントフレームワークであるVipActを提案する。
VipActは、タスク要求の分析、計画、調整を管理するオーケストレータエージェントと、特定のタスクを処理する専門エージェントで構成される。
様々な視覚認知タスクを特徴とするベンチマーク上でのVipActの評価を行い,実験結果から大幅な性能向上が得られた。
論文 参考訳(メタデータ) (2024-10-21T18:10:26Z) - NEUSIS: A Compositional Neuro-Symbolic Framework for Autonomous Perception, Reasoning, and Planning in Complex UAV Search Missions [41.87952703626145]
現実的なシナリオにおけるUAV探索とナビゲーションの解釈を目的とした合成ニューロシンボリックシステムであるNEUSISを提案する。
NEUSISは、ニューロシンボリックな視覚知覚、推論、接地(GRiD)を統合して生の感覚入力を処理し、環境表現のための確率論的世界モデルを維持し、効率的な経路計画のために階層的計画コンポーネント(SNaC)を使用する。
AirSimとUnreal Engineを用いた都市探索のシミュレーション実験の結果、NEUSISは成功率、検索効率において最先端(SOTA)ビジョン言語モデルとSOTA検索計画モデルより優れていることが示された。
論文 参考訳(メタデータ) (2024-09-16T11:42:15Z) - Cooperative Cognitive Dynamic System in UAV Swarms: Reconfigurable Mechanism and Framework [80.39138462246034]
UAVスワムの管理を最適化するための協調認知力学システム(CCDS)を提案する。
CCDSは階層的かつ協調的な制御構造であり、リアルタイムのデータ処理と意思決定を可能にする。
さらに、CCDSは、UAVスワムのタスクを効率的に割り当てるための生体模倣機構と統合することができる。
論文 参考訳(メタデータ) (2024-05-18T12:45:00Z) - SAFE-SIM: Safety-Critical Closed-Loop Traffic Simulation with Diffusion-Controllable Adversaries [94.84458417662407]
制御可能なクローズドループ安全クリティカルシミュレーションフレームワークであるSAFE-SIMを紹介する。
提案手法は,1)現実の環境を深く反映した現実的な長距離安全クリティカルシナリオの生成,2)より包括的でインタラクティブな評価のための制御可能な敵行動の提供,の2つの利点をもたらす。
複数のプランナにまたがるnuScenesとnuPlanデータセットを使用して、我々のフレームワークを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文 参考訳(メタデータ) (2023-12-31T04:14:43Z) - SGDViT: Saliency-Guided Dynamic Vision Transformer for UAV Tracking [12.447854608181833]
本研究は、UAV追跡のための新しいサリエンシ誘導動的視覚変換器(SGDViT)を提案する。
提案手法は,クロスコリレーション操作を洗練させるために,タスク固有の新たなオブジェクト・サリエンシ・マイニング・ネットワークを設計する。
軽量な塩分フィルタリング変換器は、さらに塩分情報を洗練し、外観情報に焦点を当てる。
論文 参考訳(メタデータ) (2023-03-08T05:01:00Z) - Advanced Algorithms of Collision Free Navigation and Flocking for
Autonomous UAVs [0.0]
本報告は,マルチUAVシステムの自律走行及び運動調整のためのUAV制御の最先端化に寄与する。
本報告の前半は単UAVシステムを扱うもので, 未知・動的環境における3次元(3次元)衝突フリーナビゲーションの複雑な問題に対処する。
本報告では, マルチUAVシステムの安全ナビゲーションについて述べるとともに, フラッキングと3次元領域カバレッジのための多UAVシステムの分散動作調整手法を開発した。
論文 参考訳(メタデータ) (2021-10-30T03:51:40Z) - Artificial Intelligence Aided Next-Generation Networks Relying on UAVs [140.42435857856455]
動的環境において,人工知能(AI)による無人航空機(UAV)による次世代ネットワーク支援が提案されている。
AI対応のUAV支援無線ネットワーク(UAWN)では、複数のUAVが航空基地局として使用され、ダイナミックな環境に迅速に適応することができる。
AIフレームワークの利点として、従来のUAWNのいくつかの課題が回避され、ネットワークパフォーマンスが向上し、信頼性が向上し、アジャイル適応性が向上する。
論文 参考訳(メタデータ) (2020-01-28T15:10:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。