論文の概要: Lifting Vision: Ground to Aerial Localization with Reasoning Guided Planning
- arxiv url: http://arxiv.org/abs/2512.24404v1
- Date: Tue, 30 Dec 2025 18:36:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.461289
- Title: Lifting Vision: Ground to Aerial Localization with Reasoning Guided Planning
- Title(参考訳): リフティングビジョン: 推論誘導計画による航空局地化
- Authors: Soham Pahari, M. Srinivas,
- Abstract要約: 視覚表現のみを用いて、計画とローカライズを行う視覚推論(ViReLoc)を導入する。
提案フレームワークは,テキストに基づく推論が理解に苦しむ空間的依存関係と幾何学的関係を学習する。
多様なナビゲーションおよびローカライゼーションシナリオによる実験は、空間的推論精度とクロスビュー検索性能が一貫した改善を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal intelligence development recently show strong progress in visual understanding and high level reasoning. Though, most reasoning system still reply on textual information as the main medium for inference. This limit their effectiveness in spatial tasks such as visual navigation and geo-localization. This work discuss about the potential scope of this field and eventually propose an idea visual reasoning paradigm Geo-Consistent Visual Planning, our introduced framework called Visual Reasoning for Localization, or ViReLoc, which performs planning and localization using only visual representations. The proposed framework learns spatial dependencies and geometric relations that text based reasoning often suffer to understand. By encoding step by step inference in the visual domain and optimizing with reinforcement based objectives, ViReLoc plans routes between two given ground images. The system also integrates contrastive learning and adaptive feature interaction to align cross view perspectives and reduce viewpoint differences. Experiments across diverse navigation and localization scenarios show consistent improvements in spatial reasoning accuracy and cross view retrieval performance. These results establish visual reasoning as a strong complementary approach for navigation and localization, and show that such tasks can be performed without real time global positioning system data, leading to more secure navigation solutions.
- Abstract(参考訳): マルチモーダルインテリジェンス開発は、近年、視覚的理解とハイレベル推論の進歩を強く示している。
しかし、ほとんどの推論システムは、推論のメインメディアとしてテキスト情報に応答する。
これにより、視覚ナビゲーションやジオローカライゼーションといった空間的タスクにおける効率が制限される。
本稿では,視覚的推論パラダイムであるGeo-Consistent Visual Planningを提案するとともに,視覚的表現のみを用いた計画とローカライゼーションを行うVisual Reasoning for Localization(ViReLoc)を提案する。
提案フレームワークは,テキストに基づく推論が理解に苦しむ空間的依存関係と幾何学的関係を学習する。
視覚領域におけるステップバイステップの推論を符号化し、強化に基づく目的を最適化することにより、ViReLocは与えられた2つの地上画像間のルートを計画する。
また、コントラスト学習と適応的特徴相互作用を統合して、横断的な視点を整列させ、視点の違いを減らす。
多様なナビゲーションおよびローカライゼーションシナリオによる実験は、空間的推論精度とクロスビュー検索性能が一貫した改善を示す。
これらの結果は、ナビゲーションとローカライゼーションの強力な補完的アプローチとして視覚的推論を確立し、そのようなタスクをリアルタイムなグローバルな位置決めシステムデータなしで実行できることを示し、より安全なナビゲーションソリューションをもたらす。
関連論文リスト
- SATGround: A Spatially-Aware Approach for Visual Grounding in Remote Sensing [57.609801041296095]
視覚言語モデル(VLM)はリモートセンシングの強力なツールとして登場しつつある。
衛星画像におけるVLMに基づく視覚的グラウンド化を,新しい構造的局所化機構を提案することで促進する。
論文 参考訳(メタデータ) (2025-12-09T18:15:43Z) - Aerial Vision-Language Navigation with a Unified Framework for Spatial, Temporal and Embodied Reasoning [5.517595398768408]
本稿では,エゴ単分子RGB観測と自然言語命令のみで動作する航空VLNフレームワークを提案する。
このタスクは、低高度検査、サーチ・アンド・レスキュー、自律型空中輸送といった現実世界のアプリケーションに対して約束される。
論文 参考訳(メタデータ) (2025-12-09T14:25:24Z) - Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z) - Hierarchical Spatial Proximity Reasoning for Vision-and-Language Navigation [1.2473780585666772]
多くのVision-and-Language Navigation (VLN)アルゴリズムは、視覚的常識の欠如と限られた推論能力のために不正確な決定をする傾向がある。
本稿では,階層的空間近接の知識基盤構築を支援するために,階層的空間近接推論(HSPR)手法を提案する。
我々は、REVERIE、SOON、R2R、R4Rなどの公開データセットで実験を行い、我々のアプローチを検証する。
論文 参考訳(メタデータ) (2024-03-18T07:51:22Z) - Aligning Knowledge Graph with Visual Perception for Object-goal Navigation [16.32780793344835]
オブジェクトゴールナビゲーションのための視覚知覚付きアライニング知識グラフ(AKGVP)を提案する。
提案手法では,階層型シーンアーキテクチャの連続的モデリングを導入し,自然言語記述と視覚知覚との整合性を確保するために,視覚-言語事前学習を活用する。
継続的知識グラフアーキテクチャとマルチモーダル機能アライメントの統合により、ナビゲータは目覚ましいゼロショットナビゲーション能力を持つ。
論文 参考訳(メタデータ) (2024-02-29T06:31:18Z) - Learning Concept-Based Causal Transition and Symbolic Reasoning for Visual Planning [36.131648635051334]
ビジュアルプランニングは、人間が望ましい目標を達成するために意思決定する方法をシミュレートする。
本稿では,解釈可能で汎用的な視覚計画フレームワークを提案する。
我々のフレームワークは、未確認のタスクトラジェクトリ、未確認のオブジェクトカテゴリ、実世界のデータに一般化できることを示します。
論文 参考訳(メタデータ) (2023-10-05T05:41:21Z) - Think Global, Act Local: Dual-scale Graph Transformer for
Vision-and-Language Navigation [87.03299519917019]
本稿では,2次元グラフ変換器 (DUET) を提案する。
我々は,グローバルな行動空間における効率的な探索を可能にするために,トポロジカルマップをオンザフライで構築する。
提案手法であるDUETは、目標指向の視覚・言語ナビゲーションベンチマークにおいて最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-02-23T19:06:53Z) - Structured Scene Memory for Vision-Language Navigation [155.63025602722712]
視覚言語ナビゲーション(VLN)のための重要なアーキテクチャを提案する。
ナビゲーション中に知覚を正確に記憶できるほど区画化されている。
また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。
論文 参考訳(メタデータ) (2021-03-05T03:41:00Z) - Neural Topological SLAM for Visual Navigation [112.73876869904]
意味論を生かし、近似幾何学的推論を行う空間のトポロジ的表現を設計する。
本稿では,ノイズのあるアクティベーションの下でそのような表現を構築し,維持し,使用することができる教師付き学習ベースアルゴリズムについて述べる。
論文 参考訳(メタデータ) (2020-05-25T17:56:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。