論文の概要: HoverAI: An Embodied Aerial Agent for Natural Human-Drone Interaction
- arxiv url: http://arxiv.org/abs/2601.13801v1
- Date: Tue, 20 Jan 2026 09:59:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.863558
- Title: HoverAI: An Embodied Aerial Agent for Natural Human-Drone Interaction
- Title(参考訳): HoverAI: 自然界と人体との相互作用を司るエアリアルエージェント
- Authors: Yuhua Jin, Nikita Kuzmin, Georgii Demianchuk, Mariya Lezina, Fawad Mehboob, Issatay Tokmurziyev, Miguel Altamirano Cabrera, Muhammad Ahsan Mustafa, Dzmitry Tsetserukou,
- Abstract要約: HoverAIは、ドローンモビリティ、インフラストラクチャ非依存の視覚投影、リアルタイムの会話AIを統合プラットフォームに統合する、実施済みの航空エージェントである。
HoverAIは、視覚と音声を通じてユーザを知覚し、ユーザ人口に適応するリップシンクアバターを介して応答する。
- 参考スコア(独自算出の注目度): 2.6822193190929444
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Drones operating in human-occupied spaces suffer from insufficient communication mechanisms that create uncertainty about their intentions. We present HoverAI, an embodied aerial agent that integrates drone mobility, infrastructure-independent visual projection, and real-time conversational AI into a unified platform. Equipped with a MEMS laser projector, onboard semi-rigid screen, and RGB camera, HoverAI perceives users through vision and voice, responding via lip-synced avatars that adapt appearance to user demographics. The system employs a multimodal pipeline combining VAD, ASR (Whisper), LLM-based intent classification, RAG for dialogue, face analysis for personalization, and voice synthesis (XTTS v2). Evaluation demonstrates high accuracy in command recognition (F1: 0.90), demographic estimation (gender F1: 0.89, age MAE: 5.14 years), and speech transcription (WER: 0.181). By uniting aerial robotics with adaptive conversational AI and self-contained visual output, HoverAI introduces a new class of spatially-aware, socially responsive embodied agents for applications in guidance, assistance, and human-centered interaction.
- Abstract(参考訳): 有人空間で運用されているドローンは、意図に不確実性をもたらすコミュニケーションメカニズムが不十分である。
HoverAIは、ドローンモビリティ、インフラストラクチャ非依存の視覚投影、リアルタイムの会話AIを統合プラットフォームに統合する、実施済みの航空エージェントである。
MEMSレーザープロジェクター、オンボードのセミリグッドスクリーン、RGBカメラを備えたHoverAIは、視覚と音声を通じてユーザーを知覚し、ユーザーの人口に適応する唇同期アバターを介して応答する。
このシステムは、VAD、ASR(Whisper)、LLMに基づく意図分類、対話のためのRAG、パーソナライゼーションのための顔分析、音声合成(XTTS v2)を組み合わせたマルチモーダルパイプラインを使用する。
評価は、コマンド認識において高い精度(F1: 0.90)、人口統計学的推定(F1: 0.89)、年齢MAE: 5.14年)、音声書き起こし(WER: 0.181)を示す。
適応的な対話型AIと自己完結型視覚出力を備えた航空ロボットを結合することにより、HoverAIは新しい種類の空間認識型、社会的に応答するエンボディエージェントを導入し、ガイダンス、アシスト、人間中心のインタラクションに応用する。
関連論文リスト
- Robotic Grasping and Placement Controlled by EEG-Based Hybrid Visual and Motor Imagery [64.82869118243723]
本稿では,脳波に基づく視覚・運動画像(VI/MI)とロボット制御を統合し,リアルタイム・意図駆動型把握・配置を実現するフレームワークを提案する。
このシステムは、BCI駆動のロボット工学の約束に感銘を受けて、オフラインで事前訓練されたデコーダをゼロショットで展開することによって、ニューラルネットワークを物理的制御でブリッジする。
論文 参考訳(メタデータ) (2026-03-03T17:41:42Z) - An Approach to Combining Video and Speech with Large Language Models in Human-Robot Interaction [0.0]
本研究は,高度な視覚言語モデル,音声処理,ファジィ論理を組み合わせた新しいHRIフレームワークを提案する。
提案システムは,物体検出のためのFlorence-2,自然言語理解のためのLlama 3.1,音声認識のためのWhisperを統合した。
コンシューマグレードハードウェアで行った実験の結果,コマンド実行精度は75%であった。
論文 参考訳(メタデータ) (2026-02-23T09:05:15Z) - DroneVLA: VLA based Aerial Manipulation [2.1645011609137295]
本研究は,高レベルの自然言語コマンドを解釈してオブジェクトを検索し,人間の手に届ける,自律航空操作システムという新しい概念を導入する。
このシステムは、Grounding DINOとVision-Language-Actionモデルに基づくMediaPipeと、1-DOFグリップとIntel RealSense RGB-Dカメラを備えたカスタムドローンを統合することを意図している。
実世界におけるローカライゼーションとナビゲーションの実証実験により,最大0.164m,0.070m,0.084m,平均ユークリッド,ルート平均2乗のシステムの有効性を実証した。
論文 参考訳(メタデータ) (2026-01-20T10:08:00Z) - The ICASSP 2026 HumDial Challenge: Benchmarking Human-like Spoken Dialogue Systems in the LLM Era [95.35748535806744]
我々はICASSP 2026で最初のヒューマンライクな音声対話システムチャレンジ(HumDial)を開催する。
本稿では,データセット,トラック構成,最終結果について概説する。
論文 参考訳(メタデータ) (2026-01-09T06:32:30Z) - Perceiving and Acting in First-Person: A Dataset and Benchmark for Egocentric Human-Object-Human Interactions [110.43343503158306]
本稿では、手動支援タスクを視覚言語アクションフレームワークに組み込み、そのアシスタントは、自我中心のビジョンとコマンドに従ってインストラクターにサービスを提供する。
この設定の下で、我々は、マルチモーダルデータの11.4時間1.2Mフレームを持つ、最初の大規模人・物・人間のインタラクションデータセットであるInterVLAを達成した。
我々は,エゴセントリックな人の動き推定,相互作用合成,および包括的分析による相互作用予測に関する新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2025-08-06T17:46:23Z) - Recognizing Actions from Robotic View for Natural Human-Robot Interaction [52.00935005918032]
自然人-ロボットインタラクション(Natural Human-Robot Interaction, N-HRI)は、ロボット自身が動いているか静止しているかに関わらず、ロボットが様々な距離と状態で人間の行動を認識することを要求する。
N-HRIの既存のベンチマークは、限られたデータ、モダリティ、タスクカテゴリ、主題や環境の多様性のために、N-HRIのユニークな複雑さに対処できない。
モバイルサービスロボットで広く使われている知覚中心ロボットビューのための大規模データセット(Action from Robotic View)を紹介する。
論文 参考訳(メタデータ) (2025-07-30T09:48:34Z) - Multi-model fusion for Aerial Vision and Dialog Navigation based on
human attention aids [69.98258892165767]
本稿では,2023年ICCV会話史のための航空航法課題について述べる。
本稿では,人間注意支援型トランスフォーマモデル(HAA-Transformer)と人間注意支援型LSTMモデル(HAA-LSTM)の融合訓練方法を提案する。
論文 参考訳(メタデータ) (2023-08-27T10:32:52Z) - Can Visual Context Improve Automatic Speech Recognition for an Embodied
Agent? [3.7311680121118345]
本稿では,視覚的コンテキストを取り入れた新しいデコーダバイアス手法を提案する。
修正されていないASRシステムからWERを59%削減する。
論文 参考訳(メタデータ) (2022-10-21T11:16:05Z) - Self-supervised reinforcement learning for speaker localisation with the
iCub humanoid robot [58.2026611111328]
人の顔を見ることは、ノイズの多い環境での音声のフィルタリングに人間が依存するメカニズムの1つである。
スピーカーに目を向けるロボットを持つことは、挑戦的な環境でのASRのパフォーマンスに恩恵をもたらす可能性がある。
本稿では,人間の初期発達に触発された自己指導型強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-12T18:02:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。