論文の概要: LongFly: Long-Horizon UAV Vision-and-Language Navigation with Spatiotemporal Context Integration
- arxiv url: http://arxiv.org/abs/2512.22010v1
- Date: Fri, 26 Dec 2025 12:09:40 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 11:54:22.141203
- Title: LongFly: Long-Horizon UAV Vision-and-Language Navigation with Spatiotemporal Context Integration
- Title(参考訳): LongFly: 時空間統合による長距離UAVビジョン・ランゲージナビゲーション
- Authors: Wen Jiang, Li Wang, Kangyao Huang, Wei Fan, Jinyuan Liu, Shaoyu Liu, Hongwei Duan, Bin Xu, Xiangyang Ji,
- Abstract要約: LongFlyは、長距離UAV VLNのための履歴認識時間モデリングフレームワークである。
断片化され、冗長な履歴データを構造化され、コンパクトで表現力のある表現に変換する。
最先端のUAV VLNベースラインを7.89%、成功率6.33%で上回っている。
- 参考スコア(独自算出の注目度): 49.676794850174325
- License:
- Abstract: Unmanned aerial vehicles (UAVs) are crucial tools for post-disaster search and rescue, facing challenges such as high information density, rapid changes in viewpoint, and dynamic structures, especially in long-horizon navigation. However, current UAV vision-and-language navigation(VLN) methods struggle to model long-horizon spatiotemporal context in complex environments, resulting in inaccurate semantic alignment and unstable path planning. To this end, we propose LongFly, a spatiotemporal context modeling framework for long-horizon UAV VLN. LongFly proposes a history-aware spatiotemporal modeling strategy that transforms fragmented and redundant historical data into structured, compact, and expressive representations. First, we propose the slot-based historical image compression module, which dynamically distills multi-view historical observations into fixed-length contextual representations. Then, the spatiotemporal trajectory encoding module is introduced to capture the temporal dynamics and spatial structure of UAV trajectories. Finally, to integrate existing spatiotemporal context with current observations, we design the prompt-guided multimodal integration module to support time-based reasoning and robust waypoint prediction. Experimental results demonstrate that LongFly outperforms state-of-the-art UAV VLN baselines by 7.89\% in success rate and 6.33\% in success weighted by path length, consistently across both seen and unseen environments.
- Abstract(参考訳): 無人航空機(UAV)は、特に長距離航法において、高情報密度、視点の急激な変化、動的構造といった課題に直面している。
しかし、現在のUAVビジョン・アンド・ランゲージナビゲーション(VLN)手法は、複雑な環境下での長期時空間のモデル化に苦慮し、不正確なセマンティックアライメントと不安定な経路計画をもたらす。
この目的のために,長距離UAV VLNのための時空間モデリングフレームワークであるLongFlyを提案する。
LongFlyは、断片化された、冗長な歴史的なデータを構造化され、コンパクトで表現力のある表現に変換する、履歴対応の時空間モデリング戦略を提案する。
まず,複数視点の歴史的観測結果を固定長の文脈表現に動的に蒸留するスロットベース履歴画像圧縮モジュールを提案する。
そして、この時空間軌道符号化モジュールを導入し、UAV軌道の時空間ダイナミクスと空間構造を捉える。
最後に、既存の時空間コンテキストを現在の観測と統合するために、時間に基づく推論と堅牢なウェイポイント予測をサポートするために、プロンプト誘導型マルチモーダル統合モジュールを設計する。
実験の結果、LongFlyは現状のUAV VLNベースラインを7.89 %、成功率6.33 %で上回り、目に見える環境と見えない環境の両方で一貫して上回っていることがわかった。
関連論文リスト
- History-Enhanced Two-Stage Transformer for Aerial Vision-and-Language Navigation [64.51891404034164]
Aerial Vision-and-Language Navigation (AVLN) は、大規模都市環境でターゲットをローカライズするために無人航空機(UAV)のエージェントを必要とする。
既存のUAVエージェントは通常、これらの2つの側面のバランスに苦しむ単粒度フレームワークを採用する。
この研究は、粗いナビゲーションパイプラインを通じて2つの側面を統合するヒストリ強化2段階トランスフォーマー(HETT)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-16T09:16:07Z) - DARTs: A Dual-Path Robust Framework for Anomaly Detection in High-Dimensional Multivariate Time Series [22.29889788385778]
多次元時系列異常(MTSAD)は,大規模産業制御システムにおける複雑な異常パターンを正確に同定し,局所化することを目的としている。
既存のアプローチは、低表現下で異なるパターンを認識するのに優れていますが、高次元の時系列から学ぶ際には、長距離依存をしっかりと捉えることができません。
論文 参考訳(メタデータ) (2025-12-14T07:40:23Z) - Leveraging Multivariate Long-Term History Representation for Time Series Forecasting [6.661358934189792]
MTS予測のためのLMHR(Long-term Multivariate Representation)というフレームワークを提案する。
LMHRは、長期の歴史をセグメントレベルの文脈表現にエンコードし、ポイントレベルのノイズを低減する。
急速に変化するパターンのトップ10%で予測精度を9.8%向上させる。
論文 参考訳(メタデータ) (2025-05-20T03:46:36Z) - Long-RVOS: A Comprehensive Benchmark for Long-term Referring Video Object Segmentation [51.2732688481343]
本稿では,長期参照オブジェクトセグメンテーションのための大規模ベンチマークであるLongtextbf-RVOSを紹介する。
Long-RVOSには、平均時間60秒を超える2,000以上のビデオが含まれており、さまざまなオブジェクトをカバーしている。
フレーム単位の空間評価にのみ依存する従来のベンチマークとは異なり、時間的・時間的整合性を評価するために2つの指標を導入する。
論文 参考訳(メタデータ) (2025-05-19T04:52:31Z) - Multi-step Temporal Modeling for UAV Tracking [14.687636301587045]
MT-Track(MT-Track)は,UAV追跡の効率化を目的とした,効率的な多段階時間モデリングフレームワークである。
我々はテンプレートと検索領域の特徴間の相互作用を動的に評価するユニークな時間相関モジュールを公表する。
トラッキングシーケンスにおける時間的知識をモデル化することにより,過去のフレームと現在のフレームの相関マップを洗練するための相互変換モジュールを提案する。
論文 参考訳(メタデータ) (2024-03-07T09:48:13Z) - LEAP-VO: Long-term Effective Any Point Tracking for Visual Odometry [53.5449912019877]
本稿では,LEAP(Long-term Effective Any Point Tracking)モジュールについて述べる。
LEAPは、動的トラック推定のために、視覚的、トラック間、時間的キューと慎重に選択されたアンカーを革新的に組み合わせている。
これらの特徴に基づき,強靭な視力計測システムLEAP-VOを開発した。
論文 参考訳(メタデータ) (2024-01-03T18:57:27Z) - Efficient Long-Short Temporal Attention Network for Unsupervised Video
Object Segmentation [23.645412918420906]
Unsupervised Video Object (VOS) は、事前知識のないビデオにおいて、一次前景オブジェクトの輪郭を識別することを目的としている。
従来の手法では空間的文脈を完全には用いておらず、リアルタイムにこの課題に取り組むことができない。
これにより,教師なしVOSタスクを包括的視点から,効率的な長短テンポラルアテンションネットワーク(LSTA)を開発することができる。
論文 参考訳(メタデータ) (2023-09-21T01:09:46Z) - Dynamic Graph Convolutional Network with Attention Fusion for Traffic
Flow Prediction [10.3426659705376]
本稿では,同期時空間相関をモデル化するための注意融合型動的グラフ畳み込みネットワークを提案する。
我々は、4つの実世界の交通データセットにおいて、我々の手法が18のベースライン法と比較して最先端の性能を上回ることを示す広範な実験を行った。
論文 参考訳(メタデータ) (2023-02-24T12:21:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。