Fugu-MT 論文翻訳(概要): Grounded Vision-Language Navigation for UAVs with Open-Vocabulary Goal Understanding

論文の概要: Grounded Vision-Language Navigation for UAVs with Open-Vocabulary Goal Understanding

arxiv url: http://arxiv.org/abs/2506.10756v1
Date: Thu, 12 Jun 2025 14:40:50 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-13 15:37:22.784953
Title: Grounded Vision-Language Navigation for UAVs with Open-Vocabulary Goal Understanding
Title（参考訳）: オープンボキャブラリゴール理解によるUAVの地上視線ナビゲーション
Authors: Yuhang Zhang, Haosheng Yu, Jiaping Xiao, Mir Feroskhan,
Abstract要約: ビジョン・アンド・ランゲージナビゲーション(VLN)は、自律ロボット工学における長年にわたる課題であり、複雑な環境をナビゲートしながら、エージェントに人間の指示に従う能力を与えることを目的としている。本研究では,無人航空機(UAV)に適した言語誘導飛行を行うフレームワークであるビジョン・ランゲージ・フライ(VLFly)を提案する。
参考スコア（独自算出の注目度）: 1.280979348722635
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-and-language navigation (VLN) is a long-standing challenge in autonomous robotics, aiming to empower agents with the ability to follow human instructions while navigating complex environments. Two key bottlenecks remain in this field: generalization to out-of-distribution environments and reliance on fixed discrete action spaces. To address these challenges, we propose Vision-Language Fly (VLFly), a framework tailored for Unmanned Aerial Vehicles (UAVs) to execute language-guided flight. Without the requirement for localization or active ranging sensors, VLFly outputs continuous velocity commands purely from egocentric observations captured by an onboard monocular camera. The VLFly integrates three modules: an instruction encoder based on a large language model (LLM) that reformulates high-level language into structured prompts, a goal retriever powered by a vision-language model (VLM) that matches these prompts to goal images via vision-language similarity, and a waypoint planner that generates executable trajectories for real-time UAV control. VLFly is evaluated across diverse simulation environments without additional fine-tuning and consistently outperforms all baselines. Moreover, real-world VLN tasks in indoor and outdoor environments under direct and indirect instructions demonstrate that VLFly achieves robust open-vocabulary goal understanding and generalized navigation capabilities, even in the presence of abstract language input.
Abstract（参考訳）: ビジョン・アンド・ランゲージナビゲーション(VLN)は、自律ロボット工学における長年にわたる課題であり、複雑な環境をナビゲートしながら、エージェントに人間の指示に従う能力を与えることを目的としている。この分野では、分配外環境への一般化と固定された離散的な作用空間への依存という2つの主要なボトルネックが残っている。これらの課題に対処するため,無人航空機(UAV)に適した言語誘導飛行を行うフレームワークであるVision-Language Fly (VLFly)を提案する。ローカライゼーションやアクティブレンジセンサーの必要なしに、VLFlyは単眼カメラで捉えた自我中心の観測から、連続速度コマンドを純粋に出力する。 VLFlyは3つのモジュールを統合している: 大規模言語モデル(LLM)に基づく命令エンコーダで、高レベル言語を構造化プロンプトに再構成する。 VLFlyは様々なシミュレーション環境において、追加の微調整なしで評価され、全てのベースラインを一貫して上回る。さらに、直接的および間接的な指示の下での屋内および屋外環境における実世界のVLNタスクは、抽象言語入力が存在する場合でも、VLFlyが堅牢なオープン語彙目標理解と一般化されたナビゲーション能力を達成することを示す。

関連論文リスト

OpenFrontier: General Navigation with Visual-Language Grounded Frontiers [54.661157616245966]
オープンワールドナビゲーションでは、複雑な日常環境においてロボットが意思決定を行う必要がある。近年の視覚-言語ナビゲーション(VLN)と視覚-言語-アクション(VLA)モデルは、自然言語で条件付けられたエンドツーエンドのポリシーを実現する。多様な視覚をシームレスに統合するトレーニングフリーナビゲーションフレームワークであるOpenFrontierを提案する。
論文参考訳（メタデータ） (2026-03-05T17:02:22Z)
VLN-Pilot: Large Vision-Language Model as an Autonomous Indoor Drone Operator [1.4878644292213625]
VLN-Pilot(VLN-Pilot)は、大型のビジョン・アンド・ランゲージ・モデル(Vision-and-Language Model)が屋内ドローンナビゲーションにおいて人間のパイロットの役割を担っているフレームワークである。我々のフレームワークは、言語による意味理解と視覚的知覚を統合し、文脈認識、高レベルの飛行行動を可能にする。
論文参考訳（メタデータ） (2026-02-05T11:23:11Z)
Youtu-VL: Unleashing Visual Potential via Unified Vision-Language Supervision [79.06371915084833]
本稿では,VLUAS(Vision-Language Unified Autoregressive Supervision)パラダイムを活用するフレームワークであるYoutu-VLを紹介する。 Youtu-VLは視覚的詳細と言語的内容の両方に統一的な自己回帰的監督を適用している。我々は、このパラダイムを視覚中心のタスクに拡張し、標準のVLMがタスク固有の追加なしで視覚中心のタスクを実行できるようにした。
論文参考訳（メタデータ） (2026-01-27T17:01:16Z)
AerialMind: Towards Referring Multi-Object Tracking in UAV Scenarios [64.51320327698231]
UAVシナリオにおける最初の大規模RMOTベンチマークであるAerialMindを紹介する。我々は、革新的な半自動協調型エージェントベースラベリングアシスタントフレームワークを開発した。また,視覚言語表現学習を協調的に強化する新しい手法であるHawkEyeTrackを提案する。
論文参考訳（メタデータ） (2025-11-26T04:44:27Z)
OmniVLA: An Omni-Modal Vision-Language-Action Model for Robot Navigation [49.66156306240961]
視覚に基づくナビゲーションのためのオムニモーダル目標条件付けを可能にするロボット基礎モデルのトレーニングフレームワークを提案する。提案手法は,高容量な視覚-言語-アクションバックボーンと,3つの主要目標モードを持つトレーニングを利用する。我々は、OmniVLAが、モダリティにまたがるスペシャリストのベースラインを上回り、新しいモダリティやタスクに微調整するための柔軟な基盤を提供することを示した。
論文参考訳（メタデータ） (2025-09-23T18:40:29Z)
UAV-ON: A Benchmark for Open-World Object Goal Navigation with Aerial Agents [5.414995940540323]
UAV-ONは、オープンワールド環境における航空エージェントによる大規模目標航法(NavObject)のベンチマークである。多様な意味領域と複雑な空間レイアウトを備えた14の高忠実なUnreal Engine環境で構成されている。 1270のアノテートされたターゲットオブジェクトを定義し、それぞれがカテゴリ、物理フットプリント、視覚ディスクリプタをエンコードするインスタンスレベルの命令によって特徴付けられる。
論文参考訳（メタデータ） (2025-08-01T03:23:06Z)
VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning [77.34267241692706]
Vision-Language Navigation(VLN)は、エージェントが自然言語命令を使用して現実世界の環境をナビゲートする必要がある、AIの実施における中核的な課題である。本稿では、LVLM(Large Vision-Language Models)を利用して、エゴセントリックな動画ストリームを連続的なナビゲーションアクションに変換するエンドツーエンドフレームワークであるVLN-R1を提案する。
論文参考訳（メタデータ） (2025-06-20T17:59:59Z)
Hierarchical Instruction-aware Embodied Visual Tracking [35.73851196966425]
User-Centric Embodied Visual Tracking (UC-EVT)は、強化学習に基づくモデルにおいて、新しい課題を提示している。我々は,テキスト空間目標を仲介として利用する命令理解と行動生成を橋渡しする,テキストbfインストラクションを意識した身体的視覚追跡(HIEVT)エージェントを提案する。
論文参考訳（メタデータ） (2025-05-27T04:36:26Z)
UAV-VLN: End-to-End Vision Language guided Navigation for UAVs [0.0]
AI誘導の自律性における中核的な課題は、エージェントが以前見えなかった環境で現実的で効果的にナビゲートできるようにすることである。 UAV-VLNは無人航空機(UAV)のための新しいエンドツーエンドビジョンランゲージナビゲーションフレームワークである。本システムでは,自由形式の自然言語命令を解釈し,視覚的観察に利用し,多様な環境下で実現可能な航空軌道を計画する。
論文参考訳（メタデータ） (2025-04-30T08:40:47Z)
OTTER: A Vision-Language-Action Model with Text-Aware Visual Feature Extraction [95.6266030753644]
Vision-Language-Action(VLA)モデルは、視覚的な観察と言語指示に基づいてロボット行動を予測することを目的としている。既存のアプローチでは、視覚的特徴と言語的特徴が独立して下流ポリシーに供給されるため、微調整済みの視覚言語モデル(VLM)が必要である。本稿では,テキスト認識による視覚的特徴抽出によって既存のアライメントを活用する新しいVLAアーキテクチャOTTERを提案する。
論文参考訳（メタデータ） (2025-03-05T18:44:48Z)
UnitedVLN: Generalizable Gaussian Splatting for Continuous Vision-Language Navigation [71.97405667493477]
我々は,UnitedVLNと呼ばれる,新しい汎用3DGSベースの事前学習パラダイムを導入する。エージェントは、高忠実度360度ビジュアルイメージとセマンティック特徴を統一してレンダリングすることで、将来の環境をよりよく探索することができる。 UnitedVLNは既存のVLN-CEベンチマークで最先端の手法より優れている。
論文参考訳（メタデータ） (2024-11-25T02:44:59Z)
Towards Realistic UAV Vision-Language Navigation: Platform, Benchmark, and Methodology [38.2096731046639]
UAV視覚言語ナビゲーションにおける最近の取り組みは、主に地上ベースのVLN設定を採用する。プラットフォーム,ベンチマーク,方法論という3つの観点からのソリューションを提案する。
論文参考訳（メタデータ） (2024-10-09T17:29:01Z)
Mobility VLA: Multimodal Instruction Navigation with Long-Context VLMs and Topological Graphs [95.8010627763483]
モビリティVLAは、環境理解と長文VLMの常識推論能力を組み合わせた、階層的なビジョン・ランゲージ・アクション(VLA)ナビゲーションポリシーである。従来未解決であったマルチモーダル命令に対して,モビリティVLAはエンドツーエンドの成功率が高いことを示す。
論文参考訳（メタデータ） (2024-07-10T15:49:07Z)
Vision and Language Navigation in the Real World via Online Visual Language Mapping [18.769171505280127]
視覚・言語ナビゲーション(VLN)法は主にシミュレーションで評価される。実世界のVLN課題に対処する新しい枠組みを提案する。未確認実験環境において,Interbotix LoCoBot WX250を用いたパイプラインの評価を行った。
論文参考訳（メタデータ） (2023-10-16T20:44:09Z)
LangNav: Language as a Perceptual Representation for Navigation [63.90602960822604]
視覚・言語ナビゲーション(VLN)における知覚表現としての言語の利用について検討する。提案手法では,画像キャプションや物体検出に市販の視覚システムを用いて,エージェントのエゴセントリックなパノラマビューを各ステップで自然言語記述に変換する。
論文参考訳（メタデータ） (2023-10-11T20:52:30Z)
LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language, Vision, and Action [76.71101507291473]
本稿では,無注釈の大規模軌跡データに対するトレーニングの恩恵を享受するロボットナビゲーションシステムLM-Navを提案する。本研究では,ナビゲーション(ViNG),画像言語アソシエーション(CLIP),言語モデリング(GPT-3)の事前学習モデルから構築可能なシステムについて述べる。
論文参考訳（メタデータ） (2022-07-10T10:41:50Z)
Think Global, Act Local: Dual-scale Graph Transformer for Vision-and-Language Navigation [87.03299519917019]
本稿では,2次元グラフ変換器 (DUET) を提案する。我々は,グローバルな行動空間における効率的な探索を可能にするために,トポロジカルマップをオンザフライで構築する。提案手法であるDUETは、目標指向の視覚・言語ナビゲーションベンチマークにおいて最先端の手法を著しく上回っている。
論文参考訳（メタデータ） (2022-02-23T19:06:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。