論文の概要: DroneVLA: VLA based Aerial Manipulation
- arxiv url: http://arxiv.org/abs/2601.13809v1
- Date: Tue, 20 Jan 2026 10:08:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.259421
- Title: DroneVLA: VLA based Aerial Manipulation
- Title(参考訳): DroneVLA: VLAベースのエアリアルマニピュレーション
- Authors: Fawad Mehboob, Monijesu James, Amir Habel, Jeffrin Sam, Miguel Altamirano Cabrera, Dzmitry Tsetserukou,
- Abstract要約: 本研究は,高レベルの自然言語コマンドを解釈してオブジェクトを検索し,人間の手に届ける,自律航空操作システムという新しい概念を導入する。
このシステムは、Grounding DINOとVision-Language-Actionモデルに基づくMediaPipeと、1-DOFグリップとIntel RealSense RGB-Dカメラを備えたカスタムドローンを統合することを意図している。
実世界におけるローカライゼーションとナビゲーションの実証実験により,最大0.164m,0.070m,0.084m,平均ユークリッド,ルート平均2乗のシステムの有効性を実証した。
- 参考スコア(独自算出の注目度): 2.1645011609137295
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As aerial platforms evolve from passive observers to active manipulators, the challenge shifts toward designing intuitive interfaces that allow non-expert users to command these systems naturally. This work introduces a novel concept of autonomous aerial manipulation system capable of interpreting high-level natural language commands to retrieve objects and deliver them to a human user. The system is intended to integrate a MediaPipe based on Grounding DINO and a Vision-Language-Action (VLA) model with a custom-built drone equipped with a 1-DOF gripper and an Intel RealSense RGB-D camera. VLA performs semantic reasoning to interpret the intent of a user prompt and generates a prioritized task queue for grasping of relevant objects in the scene. Grounding DINO and dynamic A* planning algorithm are used to navigate and safely relocate the object. To ensure safe and natural interaction during the handover phase, the system employs a human-centric controller driven by MediaPipe. This module provides real-time human pose estimation, allowing the drone to employ visual servoing to maintain a stable, distinct position directly in front of the user, facilitating a comfortable handover. We demonstrate the system's efficacy through real-world experiments for localization and navigation, which resulted in a 0.164m, 0.070m, and 0.084m of max, mean euclidean, and root-mean squared errors, respectively, highlighting the feasibility of VLA for aerial manipulation operations.
- Abstract(参考訳): 空中プラットフォームが受動的オブザーバからアクティブなマニピュレータへと進化するにつれて、非専門家が自然にこれらのシステムを操作できるように直感的なインターフェースの設計へとシフトする。
本研究は,高レベルの自然言語コマンドを解釈してオブジェクトを検索し,人間の手に届ける,自律航空操作システムという新しい概念を導入する。
このシステムは、Grounding DINOとVision-Language-Action(VLA)モデルに基づくMediaPipeと、1-DOFグリップとIntel RealSense RGB-Dカメラを備えたカスタムドローンを統合することを意図している。
VLAは、ユーザプロンプトの意図を解釈するためのセマンティック推論を行い、シーン内の関連オブジェクトを把握するための優先順位付けされたタスクキューを生成する。
DINOと動的A*計画アルゴリズムは、オブジェクトのナビゲートと安全な移動に使用される。
ハンドオーバフェーズにおける安全性と自然なインタラクションを確保するため、MediaPipeによって駆動される人間中心のコントローラを採用している。
このモジュールは、リアルタイムで人間のポーズを推定し、視覚サーボを使ってユーザーの前で安定した位置を保ち、快適なハンドオーバを容易にする。
実世界の局地化・航法実験により, 最大0.164m, 0.070m, 0.084m, 平均ユークリッド, ルート平均二乗誤差が得られた。
関連論文リスト
- AerialMind: Towards Referring Multi-Object Tracking in UAV Scenarios [64.51320327698231]
UAVシナリオにおける最初の大規模RMOTベンチマークであるAerialMindを紹介する。
我々は、革新的な半自動協調型エージェントベースラベリングアシスタントフレームワークを開発した。
また,視覚言語表現学習を協調的に強化する新しい手法であるHawkEyeTrackを提案する。
論文 参考訳(メタデータ) (2025-11-26T04:44:27Z) - AnywhereVLA: Language-Conditioned Exploration and Mobile Manipulation [1.8266092127796327]
AnywhereVLAは、モバイル操作のためのモジュラーフレームワークである。
テキストプロンプトはエントリポイントとして機能し、構造化されたタスクグラフに解析される。
相互作用のためには、コンパクトなSmolVLA操作ヘッドをプラットフォームピックとプレーストラジェクトリに微調整する。
論文 参考訳(メタデータ) (2025-09-25T11:04:44Z) - NOVA: Navigation via Object-Centric Visual Autonomy for High-Speed Target Tracking in Unstructured GPS-Denied Environments [56.35569661650558]
我々はNOVAというオブジェクト中心のフレームワークを導入し、ロバストな目標追跡と衝突認識ナビゲーションを可能にした。
グローバルマップを構築するのではなく、NOVAはターゲットの参照フレーム内での知覚、推定、制御を定式化する。
我々は,都市迷路や森林の小道,間欠的なGPS損失を伴う建物内の繰り返し遷移など,現実の挑戦的なシナリオにまたがってNOVAを検証する。
論文 参考訳(メタデータ) (2025-06-23T14:28:30Z) - Grounded Vision-Language Navigation for UAVs with Open-Vocabulary Goal Understanding [1.280979348722635]
ビジョン・アンド・ランゲージナビゲーション(VLN)は、自律ロボット工学における長年にわたる課題であり、複雑な環境をナビゲートしながら、エージェントに人間の指示に従う能力を与えることを目的としている。
本研究では,無人航空機(UAV)に適した言語誘導飛行を行うフレームワークであるビジョン・ランゲージ・フライ(VLFly)を提案する。
論文 参考訳(メタデータ) (2025-06-12T14:40:50Z) - Humanoid-VLA: Towards Universal Humanoid Control with Visual Integration [28.825612240280822]
本稿では,言語理解,エゴセントリックなシーン認識,モーションコントロールを統合し,普遍的なヒューマノイド制御を実現する新しいフレームワークを提案する。
Humanoid-VLAは、テキスト記述と組み合わせた非エゴセントリックな人間の動きデータセットを使用して、言語運動の事前アライメントから始まる。
そして、パラメータを効率よくビデオコンディショニングすることで、エゴセントリックな視覚コンテキストを取り入れ、コンテキスト認識モーション生成を可能にする。
論文 参考訳(メタデータ) (2025-02-20T18:17:11Z) - Navigation World Models [68.58459393846461]
本稿では,過去の観測とナビゲーション行動に基づいて,将来の視覚観測を予測できる制御可能な映像生成モデルを提案する。
慣れ親しんだ環境では、NWMはナビゲーションの軌道をシミュレートし、目的を達成するかどうかを評価することで計画することができる。
実験は、スクラッチからの軌道計画や、外部ポリシーからサンプリングされた軌道のランク付けにおいて、その効果を実証する。
論文 参考訳(メタデータ) (2024-12-04T18:59:45Z) - Multi-model fusion for Aerial Vision and Dialog Navigation based on
human attention aids [69.98258892165767]
本稿では,2023年ICCV会話史のための航空航法課題について述べる。
本稿では,人間注意支援型トランスフォーマモデル(HAA-Transformer)と人間注意支援型LSTMモデル(HAA-LSTM)の融合訓練方法を提案する。
論文 参考訳(メタデータ) (2023-08-27T10:32:52Z) - Virtual Reality via Object Poses and Active Learning: Realizing
Telepresence Robots with Aerial Manipulation Capabilities [39.29763956979895]
本稿では,動的・非構造環境下での空中操作を進展させる新しいテレプレゼンスシステムを提案する。
提案システムは触覚デバイスだけでなく、ロボットのワークスペースのリアルタイム3Dディスプレイを提供する仮想現実(VR)インターフェースも備えている。
DLRケーブル・サスペンド・エアリアルマニピュレータ(SAM)によるピック・アンド・プレイス、フォース・アプリケーション、ペグ・イン・ホールの70以上の堅牢な実行を示す。
論文 参考訳(メタデータ) (2022-10-18T08:42:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。