論文の概要: OVerSeeC: Open-Vocabulary Costmap Generation from Satellite Images and Natural Language
- arxiv url: http://arxiv.org/abs/2602.18606v1
- Date: Fri, 20 Feb 2026 20:49:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.189005
- Title: OVerSeeC: Open-Vocabulary Costmap Generation from Satellite Images and Natural Language
- Title(参考訳): OVerSeeC: 衛星画像と自然言語によるオープン語彙のコストマップ生成
- Authors: Rwik Rana, Jesse Quattrociocchi, Dongmyeong Lee, Christian Ellis, Amanda Adkins, Adam Uccello, Garrett Warnell, Joydeep Biswas,
- Abstract要約: 本稿では,この問題をInterpret--Synthesize:iに分解するゼロショットモジュラーフレームワークを提案する。
我々はOVerSeeCがランク付けや構成の好みを処理し,多様な領域にまたがる人力トラジェクトリと整合した経路を生成することを示す。
- 参考スコア(独自算出の注目度): 11.384592553913778
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Aerial imagery provides essential global context for autonomous navigation, enabling route planning at scales inaccessible to onboard sensing. We address the problem of generating global costmaps for long-range planning directly from satellite imagery when entities and mission-specific traversal rules are expressed in natural language at test time. This setting is challenging since mission requirements vary, terrain entities may be unknown at deployment, and user prompts often encode compositional traversal logic. Existing approaches relying on fixed ontologies and static cost mappings cannot accommodate such flexibility. While foundation models excel at language interpretation and open-vocabulary perception, no single model can simultaneously parse nuanced mission directives, locate arbitrary entities in large-scale imagery, and synthesize them into an executable cost function for planners. We therefore propose OVerSeeC, a zero-shot modular framework that decomposes the problem into Interpret-Locate-Synthesize: (i) an LLM extracts entities and ranked preferences, (ii) an open-vocabulary segmentation pipeline identifies these entities from high-resolution imagery, and (iii) the LLM uses the user's natural language preferences and masks to synthesize executable costmap code. Empirically, OVerSeeC handles novel entities, respects ranked and compositional preferences, and produces routes consistent with human-drawn trajectories across diverse regions, demonstrating robustness to distribution shifts. This shows that modular composition of foundation models enables open-vocabulary, preference-aligned costmap generation for scalable, mission-adaptive global planning.
- Abstract(参考訳): 航空画像は、自律ナビゲーションに不可欠なグローバルなコンテキストを提供し、オンボードセンシングに到達できないスケールでのルート計画を可能にする。
本研究では、衛星画像から直接長距離計画のためのグローバルなコストマップを作成する際の問題に対処する。
この設定は、ミッション要求が異なるため、配置時にランドスケープエンティティが未知になり、ユーザはしばしば構成的トラバース論理をエンコードする。
固定オントロジーと静的コストマッピングに依存する既存のアプローチは、そのような柔軟性に対応できない。
基礎モデルは言語解釈やオープンボキャブラリ知覚に優れるが、単一モデルはニュアンスド・ミッション・ディレクティブを同時に解析し、大規模画像中の任意の実体を特定し、それらをプランナーの実行可能なコスト関数に合成することができない。
したがって、ゼロショットのモジュラーフレームワークであるOVerSeeCを提案し、この問題をInterpret-Locate-Synthesizeに分解する。
i) LLMは、エンティティを抽出し、ランク付けする。
(ii)開語彙分割パイプラインは、高解像度画像からこれらの実体を識別し、
三 LLMは、ユーザの自然言語の好みとマスクを用いて、実行可能なコストマップコードを合成する。
経験的に、OVerSeeCは、新しいエンティティを扱い、ランク付けと作曲の好みを尊重し、様々な領域にまたがる人引きトラジェクトリと整合したルートを生成し、分散シフトに対する堅牢性を示す。
このことは、ファンデーションモデルのモジュラー構成により、スケーラブルでミッション順応的なグローバルプランニングのためのオープンボキャブラリ、選好整合のコストマップ生成が可能になることを示している。
関連論文リスト
- SLAM-Free Visual Navigation with Hierarchical Vision-Language Perception and Coarse-to-Fine Semantic Topological Planning [20.12642476619467]
脚付きロボットナビゲーションのための視覚のみのSLAMフリーナビゲーションフレームワークを提案する。
階層的な視覚言語知覚モジュールは、シーンレベルのコンテキストとオブジェクトレベルの手がかりを融合して、堅牢なセマンティック推論を行う。
強化学習コントローラと統合されたこのフレームワークは、さまざまな脚を持つロボットプラットフォームにデプロイ可能である。
論文 参考訳(メタデータ) (2025-09-25T04:38:45Z) - Annotation-Free Open-Vocabulary Segmentation for Remote-Sensing Images [51.74614065919118]
本稿では,アノテーションのないRS画像のオープン語彙セグメンテーションのための最初のフレームワークであるSegEarth-OVを紹介する。
粗い特徴から高分解能空間の詳細を頑健に復元する普遍的なアップサンプラーであるSimFeatUpを提案する。
また、パッチ機能から固有のグローバルコンテキストを抽出するための、シンプルで効果的なグローバルバイアス緩和操作も提示する。
論文 参考訳(メタデータ) (2025-08-25T14:22:57Z) - TransLLM: A Unified Multi-Task Foundation Framework for Urban Transportation via Learnable Prompting [26.764515296168145]
大規模ディープラーニングモデルはタスクハングリーとデータハングリーであり、さまざまなシナリオにおける一般化性を制限する。
学習可能なプロンプト合成により,大規模言語モデルとモデリングを統合した統合フレームワークであるTransLLMを提案する。
提案手法は,拡張時間畳み込みと2つの隣接グラフアテンションネットワークによって複雑な依存関係をキャプチャする軽量エンコーダを備える。
論文 参考訳(メタデータ) (2025-08-20T15:27:49Z) - Hierarchical Language Models for Semantic Navigation and Manipulation in an Aerial-Ground Robotic System [8.88014241557266]
不均一なマルチロボットシステムは、協調的なハイブリッド協調を必要とする複雑なタスクにおいて大きな可能性を示す。
静的またはタスク固有のモデルに依存する既存のメソッドは、様々なタスクや動的環境にまたがる一般化性に欠けることが多い。
本稿では,大規模言語モデル (LLM) と微調整型視覚言語モデル (VLM) を統合した階層型マルチモーダルフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-05T13:27:41Z) - Towards Natural Language-Guided Drones: GeoText-1652 Benchmark with Spatial Relation Matching [60.645802236700035]
自然言語コマンドを通じてドローンをナビゲートすることは、アクセス可能なマルチモーダルデータセットが不足しているため、依然として難しい。
我々は新しい自然言語誘導ジオローカライゼーションベンチマークGeoText-1652を紹介する。
このデータセットは、インタラクティブなヒューマンコンピュータプロセスを通じて体系的に構築される。
論文 参考訳(メタデータ) (2023-11-21T17:52:30Z) - LAW-Diffusion: Complex Scene Generation by Diffusion with Layouts [107.11267074981905]
LAW拡散(LAW-Diffusion)と呼ばれる意味制御可能なレイアウト・AWare拡散モデルを提案する。
LAW拡散は、特にコヒーレントな対象関係を持つ最先端の生成性能をもたらすことを示す。
論文 参考訳(メタデータ) (2023-08-13T08:06:18Z) - Think Global, Act Local: Dual-scale Graph Transformer for
Vision-and-Language Navigation [87.03299519917019]
本稿では,2次元グラフ変換器 (DUET) を提案する。
我々は,グローバルな行動空間における効率的な探索を可能にするために,トポロジカルマップをオンザフライで構築する。
提案手法であるDUETは、目標指向の視覚・言語ナビゲーションベンチマークにおいて最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-02-23T19:06:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。