論文の概要: FreeFly-Thinking : Aligning Chain-of-Thought Reasoning with Continuous UAV Navigation
- arxiv url: http://arxiv.org/abs/2603.07181v2
- Date: Wed, 11 Mar 2026 04:44:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 14:12:44.05726
- Title: FreeFly-Thinking : Aligning Chain-of-Thought Reasoning with Continuous UAV Navigation
- Title(参考訳): FreeFly-Thinking : 連続UAVナビゲーションによるChain-of-Thought Reasoningの調整
- Authors: Jiaxu Zhou, Shaobo Wang, Zhiyuan Yang, Zhenjun Yu, Tao Li,
- Abstract要約: Vision-Language Navigationは、エージェントが自然言語の指示を理解し、現実世界の環境で適切なナビゲーションアクションを実行できるようにすることを目的としている。
我々は,UAVエージェントのエゴセントリックなイメージと言語命令を一連のアクションに変換する,エンドツーエンドのVLNフレームワークであるFreeFly-thinkingを紹介する。
- 参考スコア(独自算出の注目度): 7.371250078156987
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Navigation aims to enable agents to understand natural language instructions and carry out appropriate navigation actions in real-world environments. Most work focuses on indoor settings, with little research in complex outdoor scenes. Current UAV Vision-and-Language Navigation models typically act as black boxes without explicit reasoning. We introduce FreeFly-thinking, an end-to-end VLN framework that converts the UAV agent's egocentric images and language instructions into a series of actions, inspired by environment of urban architecture proposed by OpenFly. We first construct a UAV dataset for navigation task, and then performing natural language chain of thought. We adopt a two-stage training strategy: Supervised fine-tuning and Reinforcement fine-tuning. Experiments on unseen test demonstrate a strong performance, presenting robustness and efficiency in UAV navigation issue.
- Abstract(参考訳): Vision-Language Navigationは、エージェントが自然言語の指示を理解し、現実世界の環境で適切なナビゲーションアクションを実行できるようにすることを目的としている。
ほとんどの作品は屋内設定に焦点を当てており、複雑な屋外シーンの研究はほとんどない。
現在のUAVビジョン・アンド・ランゲージナビゲーションモデルは通常、明確な推論なしでブラックボックスとして機能する。
我々は,UAVエージェントのエゴセントリックなイメージと言語命令を,OpenFlyによって提案された都市アーキテクチャの環境にインスパイアされた一連のアクションに変換する,エンドツーエンドのVLNフレームワークであるFreeFly-thinkingを紹介する。
まず、ナビゲーションタスクのためのUAVデータセットを構築し、その後、思考の自然言語連鎖を実行する。
私たちは2段階のトレーニング戦略を採用しています。
未確認試験の実験は、UAV航法問題における堅牢性と効率性を示す強い性能を示す。
関連論文リスト
- IndoorUAV: Benchmarking Vision-Language UAV Navigation in Continuous Indoor Environments [21.821075450697027]
Vision-IndoorLanguage Navigation (VLN)は、視覚的な観察に基づく自然言語命令に従うことで、エージェントが複雑な環境でのナビゲーションを可能にする。
室内のUAVベースのVLNは、検査、配送、捜索・救助といった現実世界の応用に関係があるにもかかわらず、未調査のままである。
室内UAVを用いたVLNに適した新しいベンチマークと手法である textbfIndoorUAV を紹介する。
論文 参考訳(メタデータ) (2025-12-22T04:42:35Z) - AerialMind: Towards Referring Multi-Object Tracking in UAV Scenarios [64.51320327698231]
UAVシナリオにおける最初の大規模RMOTベンチマークであるAerialMindを紹介する。
我々は、革新的な半自動協調型エージェントベースラベリングアシスタントフレームワークを開発した。
また,視覚言語表現学習を協調的に強化する新しい手法であるHawkEyeTrackを提案する。
論文 参考訳(メタデータ) (2025-11-26T04:44:27Z) - SkyVLN: Vision-and-Language Navigation and NMPC Control for UAVs in Urban Environments [7.251041314934871]
無人航空機(UAV)は、移動性と適応性によって、様々な分野にまたがって多用途のツールとして登場した。
本稿では,複雑な都市環境下でのUAV自律性を高めるために,VLNとモデル予測制御(NMPC)を統合した新しいフレームワークであるSkyVLNを紹介する。
論文 参考訳(メタデータ) (2025-07-09T05:38:32Z) - VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning [77.34267241692706]
Vision-Language Navigation(VLN)は、エージェントが自然言語命令を使用して現実世界の環境をナビゲートする必要がある、AIの実施における中核的な課題である。
本稿では、LVLM(Large Vision-Language Models)を利用して、エゴセントリックな動画ストリームを連続的なナビゲーションアクションに変換するエンドツーエンドフレームワークであるVLN-R1を提案する。
論文 参考訳(メタデータ) (2025-06-20T17:59:59Z) - Grounded Vision-Language Navigation for UAVs with Open-Vocabulary Goal Understanding [1.280979348722635]
ビジョン・アンド・ランゲージナビゲーション(VLN)は、自律ロボット工学における長年にわたる課題であり、複雑な環境をナビゲートしながら、エージェントに人間の指示に従う能力を与えることを目的としている。
本研究では,無人航空機(UAV)に適した言語誘導飛行を行うフレームワークであるビジョン・ランゲージ・フライ(VLFly)を提案する。
論文 参考訳(メタデータ) (2025-06-12T14:40:50Z) - UAV-VLN: End-to-End Vision Language guided Navigation for UAVs [0.0]
AI誘導の自律性における中核的な課題は、エージェントが以前見えなかった環境で現実的で効果的にナビゲートできるようにすることである。
UAV-VLNは無人航空機(UAV)のための新しいエンドツーエンドビジョンランゲージナビゲーションフレームワークである。
本システムでは,自由形式の自然言語命令を解釈し,視覚的観察に利用し,多様な環境下で実現可能な航空軌道を計画する。
論文 参考訳(メタデータ) (2025-04-30T08:40:47Z) - AerialVLN: Vision-and-Language Navigation for UAVs [23.40363176320464]
AerialVLNという,UAVをベースとした,屋外環境に向けた新しいタスクを提案する。
都市レベル25のシナリオをほぼリアルに表現した3次元シミュレータを開発した。
AerialVLNが新しい課題であることを示唆するベースラインモデルと人的パフォーマンスの間にはまだ大きなギャップがある。
論文 参考訳(メタデータ) (2023-08-13T09:55:04Z) - Diagnosing Vision-and-Language Navigation: What Really Matters [61.72935815656582]
視覚言語ナビゲーション(VLN)は、エージェントが自然言語の指示に従って視覚環境をナビゲートするマルチモーダルタスクである。
近年の研究では、室内および屋外のVLNタスクのパフォーマンス改善が鈍化している。
本研究では,ナビゲーション中のエージェントの焦点を明らかにするための一連の診断実験を行う。
論文 参考訳(メタデータ) (2021-03-30T17:59:07Z) - Active Visual Information Gathering for Vision-Language Navigation [115.40768457718325]
視覚言語ナビゲーション(VLN)は、エージェントがフォトリアリスティックな環境の中でナビゲーションの指示を行うためのタスクである。
VLNの重要な課題の1つは、曖昧な指示による不確実性を緩和し、環境の観察を不十分にすることで、堅牢なナビゲーションを行う方法である。
この研究は、人間のナビゲーション行動からインスピレーションを得て、よりインテリジェントなVLNポリシーのためのアクティブな情報収集能力を持つエージェントを提供する。
論文 参考訳(メタデータ) (2020-07-15T23:54:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。