論文の概要: General-Purpose Aerial Intelligent Agents Empowered by Large Language Models
- arxiv url: http://arxiv.org/abs/2503.08302v1
- Date: Tue, 11 Mar 2025 11:13:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:41:46.946538
- Title: General-Purpose Aerial Intelligent Agents Empowered by Large Language Models
- Title(参考訳): 大規模言語モデルを用いた汎用航空インテリジェントエージェント
- Authors: Ji Zhao, Xiao Lin,
- Abstract要約: 本稿では,オープンワールドタスク実行が可能な,初の航空知的エージェントを提案する。
私たちのハードウェアとソフトウェアの共同設計システムは、2つの基本的な制限に対処します。
本システムは,コミュニケーション制約のある環境におけるタスク計画とシーン理解の信頼性を示す。
- 参考スコア(独自算出の注目度): 9.603293922137965
- License:
- Abstract: The emergence of large language models (LLMs) opens new frontiers for unmanned aerial vehicle (UAVs), yet existing systems remain confined to predefined tasks due to hardware-software co-design challenges. This paper presents the first aerial intelligent agent capable of open-world task execution through tight integration of LLM-based reasoning and robotic autonomy. Our hardware-software co-designed system addresses two fundamental limitations: (1) Onboard LLM operation via an edge-optimized computing platform, achieving 5-6 tokens/sec inference for 14B-parameter models at 220W peak power; (2) A bidirectional cognitive architecture that synergizes slow deliberative planning (LLM task planning) with fast reactive control (state estimation, mapping, obstacle avoidance, and motion planning). Validated through preliminary results using our prototype, the system demonstrates reliable task planning and scene understanding in communication-constrained environments, such as sugarcane monitoring, power grid inspection, mine tunnel exploration, and biological observation applications. This work establishes a novel framework for embodied aerial artificial intelligence, bridging the gap between task planning and robotic autonomy in open environments.
- Abstract(参考訳): 大型言語モデル(LLM)の出現は無人航空機(UAV)の新しいフロンティアを開放するが、既存のシステムはハードウェアとソフトウェアの共同設計の課題のために未定義のタスクに限定されている。
本稿では, LLMに基づく推論とロボット自律性の緊密な統合により, オープンワールドのタスク実行を可能にする, 初の航空知的エージェントを提案する。
ハードウェアとソフトウェアが共同設計したシステムでは,(1)エッジ最適化コンピューティングプラットフォームによるLCMのオンボード動作,(2)高速な反応制御(状態推定,マッピング,障害物回避,動作計画)と遅い検討計画(LLMタスク計画)を相乗化する双方向認知アーキテクチャ,の2つの基本的制約に対処している。
試作機を用いて予備実験を行い,サトウキビモニタリング,電力グリッド検査,地雷トンネル探査,生物観測など,コミュニケーションに制約のある環境におけるタスクプランニングとシーン理解の信頼性を実証した。
この研究は、オープン環境におけるタスク計画とロボット自律性の間のギャップを埋める、航空人工知能を具現化する新しい枠組みを確立する。
関連論文リスト
- An Integrated Artificial Intelligence Operating System for Advanced Low-Altitude Aviation Applications [4.62967829580797]
本稿では,低高度航空に適した高性能人工知能オペレーティングシステムを提案する。
リアルタイムタスク実行、計算効率、シームレスなモジュールコラボレーションといった重要な課題に対処する。
論文 参考訳(メタデータ) (2024-11-28T01:24:16Z) - Exploring the Adversarial Vulnerabilities of Vision-Language-Action Models in Robotics [68.36528819227641]
本稿では,VLAに基づくロボットシステムのロバスト性を体系的に評価する。
本研究では,ロボット行動の不安定化に空間的基盤を活用する2つの未目標攻撃目標と,ロボット軌道を操作する目標攻撃目標を導入する。
我々は、カメラの視野に小さなカラフルなパッチを配置し、デジタルと物理の両方の環境で効果的に攻撃を実行する逆パッチ生成アプローチを設計する。
論文 参考訳(メタデータ) (2024-11-18T01:52:20Z) - LLM Agents as 6G Orchestrator: A Paradigm for Task-Oriented Physical-Layer Automation [1.128193862264227]
本稿では,タスク指向型6G LLMエージェント構築のための包括的アプローチを提案する。
まず,フィールド基本モデルを構築するための2段階の事前学習と微調整方式を提案する。
物理層分解などの模範課題の実験結果から,提案手法の有効性と有効性を示す。
論文 参考訳(メタデータ) (2024-09-21T05:08:29Z) - A Meta-Engine Framework for Interleaved Task and Motion Planning using Topological Refinements [51.54559117314768]
タスク・アンド・モーション・プランニング(タスク・アンド・モーション・プランニング、TAMP)は、自動化された計画問題の解決策を見つけるための問題である。
本稿では,TAMP問題のモデル化とベンチマークを行うための,汎用的でオープンソースのフレームワークを提案する。
移動エージェントと複数のタスク状態依存障害を含むTAMP問題を解決する革新的なメタ技術を導入する。
論文 参考訳(メタデータ) (2024-08-11T14:57:57Z) - Real-Time Anomaly Detection and Reactive Planning with Large Language Models [18.57162998677491]
例えば、大規模な言語モデル(LLM)は、インターネットスケールのデータに基づいて訓練され、ゼロショット機能を持つ。
本稿では,潜在的な異常に関する判断を安全な制御フレームワークに組み込む2段階の推論フレームワークを提案する。
これにより、モニターは、四輪車や自動運転車のような動的ロボットシステムの信頼性を向上させることができる。
論文 参考訳(メタデータ) (2024-07-11T17:59:22Z) - Synergising Human-like Responses and Machine Intelligence for Planning in Disaster Response [10.294618771570985]
デュアルプロセス理論(DPT)にインスパイアされた注意に基づく認知アーキテクチャを提案する。
このフレームワークは、高速だが(人間のような)応答と、遅いが最適化されたマシンインテリジェンスの計画能力を統合する。
論文 参考訳(メタデータ) (2024-04-15T15:47:08Z) - AlphaBlock: Embodied Finetuning for Vision-Language Reasoning in Robot
Manipulation [50.737355245505334]
本稿では,ロボット操作タスクにおける高レベル認知能力を学習するための新しいフレームワークを提案する。
得られたデータセットAlphaBlockは、多段階のテキストプランとペア観測による35の包括的なハイレベルタスクで構成されている。
論文 参考訳(メタデータ) (2023-05-30T09:54:20Z) - Autonomous Aerial Robot for High-Speed Search and Intercept Applications [86.72321289033562]
高速物体把握のための完全自律飛行ロボットが提案されている。
追加のサブタスクとして、我々のシステムは、表面に近い極にある気球を自律的にピアスすることができる。
我々のアプローチは、挑戦的な国際競争で検証され、優れた結果が得られました。
論文 参考訳(メタデータ) (2021-12-10T11:49:51Z) - Safe-Critical Modular Deep Reinforcement Learning with Temporal Logic
through Gaussian Processes and Control Barrier Functions [3.5897534810405403]
強化学習(Reinforcement Learning, RL)は,現実のアプリケーションに対して限られた成功を収める,有望なアプローチである。
本稿では,複数の側面からなる学習型制御フレームワークを提案する。
ECBFをベースとしたモジュラーディープRLアルゴリズムは,ほぼ完全な成功率を達成し,高い確率で安全性を保護することを示す。
論文 参考訳(メタデータ) (2021-09-07T00:51:12Z) - SABER: Data-Driven Motion Planner for Autonomously Navigating
Heterogeneous Robots [112.2491765424719]
我々は、データ駆動型アプローチを用いて、異種ロボットチームをグローバルな目標に向けてナビゲートする、エンドツーエンドのオンラインモーションプランニングフレームワークを提案する。
モデル予測制御(SMPC)を用いて,ロボット力学を満たす制御入力を計算し,障害物回避時の不確実性を考慮した。
リカレントニューラルネットワークは、SMPC有限時間地平線解における将来の状態の不確かさを素早く推定するために用いられる。
ディープQ学習エージェントがハイレベルパスプランナーとして機能し、SMPCにロボットを望ましいグローバルな目標に向けて移動させる目標位置を提供する。
論文 参考訳(メタデータ) (2021-08-03T02:56:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。