論文の概要: Chat with UAV -- Human-UAV Interaction Based on Large Language Models
- arxiv url: http://arxiv.org/abs/2512.08145v1
- Date: Tue, 09 Dec 2025 00:55:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.772855
- Title: Chat with UAV -- Human-UAV Interaction Based on Large Language Models
- Title(参考訳): 大規模言語モデルに基づくUAVと人間-UAVの相互作用
- Authors: Haoran Wang, Zhuohang Chen, Guang Li, Bo Ma, Chuanghuang Li,
- Abstract要約: UAVインタラクションシステムの未来は、エンジニア駆動からユーザ駆動へと進化しています。
本稿では,新しいデュアルエージェントHuman-UAVインタラクションフレームワークを提案する。
- 参考スコア(独自算出の注目度): 6.041434126017702
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The future of UAV interaction systems is evolving from engineer-driven to user-driven, aiming to replace traditional predefined Human-UAV Interaction designs. This shift focuses on enabling more personalized task planning and design, thereby achieving a higher quality of interaction experience and greater flexibility, which can be used in many fileds, such as agriculture, aerial photography, logistics, and environmental monitoring. However, due to the lack of a common language between users and the UAVs, such interactions are often difficult to be achieved. The developments of Large Language Models possess the ability to understand nature languages and Robots' (UAVs') behaviors, marking the possibility of personalized Human-UAV Interaction. Recently, some HUI frameworks based on LLMs have been proposed, but they commonly suffer from difficulties in mixed task planning and execution, leading to low adaptability in complex scenarios. In this paper, we propose a novel dual-agent HUI framework. This framework constructs two independent LLM agents (a task planning agent, and an execution agent) and applies different Prompt Engineering to separately handle the understanding, planning, and execution of tasks. To verify the effectiveness and performance of the framework, we have built a task database covering four typical application scenarios of UAVs and quantified the performance of the HUI framework using three independent metrics. Meanwhile different LLM models are selected to control the UAVs with compared performance. Our user study experimental results demonstrate that the framework improves the smoothness of HUI and the flexibility of task execution in the tasks scenario we set up, effectively meeting users' personalized needs.
- Abstract(参考訳): UAVインタラクションシステムの将来は、エンジニア主導からユーザ主導へと進化し、従来のヒューマン-UAVインタラクション設計を置き換えることを目指している。
このシフトは、よりパーソナライズされたタスク計画と設計を可能にすることに焦点を当てており、それによって、農業、航空写真、ロジスティクス、環境監視など、多くの出願で使用可能な、より高品質なインタラクションエクスペリエンスと柔軟性を達成することができる。
しかし、ユーザとUAV間の共通言語が欠如しているため、このような対話は困難であることが多い。
大規模言語モデルの開発には、自然言語とロボットの振る舞いを理解する能力があり、パーソナライズされたUAVインタラクションの可能性を示している。
近年,LLMに基づいたHUIフレームワークが提案されているが,複雑なシナリオにおいて,複雑なタスク計画と実行の難しさに悩まされることが多い。
本稿では,新しいデュアルエージェントHUIフレームワークを提案する。
このフレームワークは、2つの独立したLLMエージェント(タスク計画エージェントと実行エージェント)を構築し、タスクの理解、計画、実行を個別に処理するために異なるPrompt Engineeringを適用します。
フレームワークの有効性と性能を検証するため、UAVの4つの典型的なアプリケーションシナリオをカバーするタスクデータベースを構築し、3つの独立したメトリクスを使用してHUIフレームワークの性能を定量化した。
一方、異なるLLMモデルは、比較性能でUAVを制御するために選択される。
本研究では,HUIのスムーズさと,設定したタスクシナリオにおけるタスク実行の柔軟性を改善し,ユーザのパーソナライズされたニーズを効果的に満たしていることを示す。
関連論文リスト
- TACOS: Task Agnostic COordinator of a multi-drone System [41.99844472131922]
TACOS(Task-Agnostic Coordinator of a multi-drone System)は、マルチUAVシステムの高レベル自然言語制御を可能にする統合フレームワークである。
直感的なユーザインタラクションのための1対多の自然言語インターフェース、ユーザ意図を構造化されたタスクプランに変換するインテリジェントコーディネータ、現実世界と対話するプランを実行する自律エージェントである。
論文 参考訳(メタデータ) (2025-10-02T10:21:35Z) - Generative Interfaces for Language Models [70.25765232527762]
ユーザインタフェース(UI)を積極的に生成することにより,大規模言語モデル(LLM)がユーザクエリに応答するパラダイムを提案する。
本フレームワークは,ユーザクエリをタスク固有のUIに変換するために,構造化インターフェース固有の表現と反復的洗練を活用している。
その結果、生成的インタフェースは人間の嗜好を最大72%改善し、会話的インタフェースよりも一貫して優れていた。
論文 参考訳(メタデータ) (2025-08-26T17:43:20Z) - AppAgent v2: Advanced Agent for Flexible Mobile Interactions [57.98933460388985]
本研究は,モバイル機器向けの新しいLLMベースのマルチモーダルエージェントフレームワークを提案する。
我々のエージェントは、様々なアプリケーションにまたがる適応性を高めるフレキシブルなアクション空間を構築する。
本研究は,実世界のシナリオにおいて,フレームワークの優れた性能を実証し,その有効性を確認した。
論文 参考訳(メタデータ) (2024-08-05T06:31:39Z) - MEIA: Multimodal Embodied Perception and Interaction in Unknown Environments [82.67236400004826]
本稿では,自然言語で表現されたハイレベルなタスクを実行可能なアクションのシーケンスに変換するための,MEIA(Multimodal Embodied Interactive Agent)を提案する。
MEMモジュールは、多様な要件とロボットの能力に基づいて、MEIAが実行可能なアクションプランを生成することを可能にする。
論文 参考訳(メタデータ) (2024-02-01T02:43:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。