論文の概要: GOMAA-Geo: GOal Modality Agnostic Active Geo-localization
- arxiv url: http://arxiv.org/abs/2406.01917v1
- Date: Tue, 4 Jun 2024 02:59:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 20:13:20.294066
- Title: GOMAA-Geo: GOal Modality Agnostic Active Geo-localization
- Title(参考訳): GOMAA-Geo: GOAL Modality Agnostic Active Geo-localization
- Authors: Anindya Sarkar, Srikumar Sastry, Aleksis Pirinen, Chongjie Zhang, Nathan Jacobs, Yevgeniy Vorobeychik,
- Abstract要約: エージェントが空中ナビゲーション中に観測された一連の視覚的手がかりを用いて、複数の可能なモダリティによって特定されたターゲットを見つけるという、アクティブなジオローカライゼーション(AGL)の課題を考察する。
GOMAA-Geo は、ゴールモダリティ間のゼロショット一般化のためのゴールモダリティアクティブなジオローカライゼーションエージェントである。
- 参考スコア(独自算出の注目度): 49.599465495973654
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We consider the task of active geo-localization (AGL) in which an agent uses a sequence of visual cues observed during aerial navigation to find a target specified through multiple possible modalities. This could emulate a UAV involved in a search-and-rescue operation navigating through an area, observing a stream of aerial images as it goes. The AGL task is associated with two important challenges. Firstly, an agent must deal with a goal specification in one of multiple modalities (e.g., through a natural language description) while the search cues are provided in other modalities (aerial imagery). The second challenge is limited localization time (e.g., limited battery life, urgency) so that the goal must be localized as efficiently as possible, i.e. the agent must effectively leverage its sequentially observed aerial views when searching for the goal. To address these challenges, we propose GOMAA-Geo - a goal modality agnostic active geo-localization agent - for zero-shot generalization between different goal modalities. Our approach combines cross-modality contrastive learning to align representations across modalities with supervised foundation model pretraining and reinforcement learning to obtain highly effective navigation and localization policies. Through extensive evaluations, we show that GOMAA-Geo outperforms alternative learnable approaches and that it generalizes across datasets - e.g., to disaster-hit areas without seeing a single disaster scenario during training - and goal modalities - e.g., to ground-level imagery or textual descriptions, despite only being trained with goals specified as aerial views. Code and models are publicly available at https://github.com/mvrl/GOMAA-Geo/tree/main.
- Abstract(参考訳): エージェントが空中ナビゲーション中に観測された一連の視覚的手がかりを用いて、複数の可能なモダリティによって特定されたターゲットを見つけるという、アクティブなジオローカライゼーション(AGL)の課題を考察する。
これは、地域を航行する捜索救助活動に関わるUAVをエミュレートし、空中画像の流れを観察する。
AGLタスクは2つの重要な課題に関連付けられている。
まず、エージェントは複数のモダリティ(例えば自然言語による記述)の1つで目標仕様を扱い、検索キューは他のモダリティ(空中画像)で提供される。
第二の課題は、目標をできるだけ効率的にローカライズする必要があるように、限定的なローカライズ時間(例えば、バッテリー寿命、緊急性)であり、すなわち、エージェントはゴールを探す際に、そのシーケンシャルに観察された空中のビューを効果的に活用する必要がある。
これらの課題に対処するため、異なる目標モダリティ間のゼロショット一般化のためのゴールモダリティ非依存なアクティブなジオローカライゼーションエージェントであるGOMAA-Geoを提案する。
提案手法は,モダリティ間の相互比較学習と,教師付き基礎モデルの事前学習と強化学習を組み合わせることで,高度に効果的なナビゲーションとローカライゼーションポリシを実現する。
GOMAA-Geoは、学習可能な代替手法よりも優れており、例えば、訓練中に1つの災害シナリオを見ることなく、災害現場へ、そして目標モダリティ(例えば、地上レベルの画像やテキストによる記述)を一般化する。
コードとモデルはhttps://github.com/mvrl/GOMAA-Geo/tree/mainで公開されている。
関連論文リスト
- Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z) - Geo-Encoder: A Chunk-Argument Bi-Encoder Framework for Chinese
Geographic Re-Ranking [61.60169764507917]
中国の地理的再ランクタスクは、検索された候補者の中で最も関連性の高い住所を見つけることを目的としている。
そこで我々は,中国語の地理的意味論をより効果的に統合する,革新的なフレームワークであるGeo-Encoderを提案する。
論文 参考訳(メタデータ) (2023-09-04T13:44:50Z) - How To Not Train Your Dragon: Training-free Embodied Object Goal
Navigation with Semantic Frontiers [94.46825166907831]
Embodied AIにおけるオブジェクトゴールナビゲーション問題に対処するためのトレーニング不要のソリューションを提案する。
本手法は,古典的な視覚的同時ローカライゼーションとマッピング(V-SLAM)フレームワークに基づく,構造化されたシーン表現を構築する。
本手法は,言語先行情報とシーン統計に基づいてシーングラフのセマンティクスを伝搬し,幾何学的フロンティアに意味知識を導入する。
論文 参考訳(メタデータ) (2023-05-26T13:38:33Z) - Meta-Explore: Exploratory Hierarchical Vision-and-Language Navigation
Using Scene Object Spectrum Grounding [16.784045122994506]
本稿では,最近の行動の誤りを正すために,利用ポリシーをデプロイする階層的なナビゲーション手法を提案する。
本研究では,エージェントをローカルな目標に向かって移動させるエクスプロイトポリシーが,エージェントを以前訪問した状態に移動させる手法よりも優れていることを示す。
本稿では,検出対象のカテゴリワイド2次元フーリエ変換を行う,シーンオブジェクトスペクトル(SOS)と呼ばれる新しい視覚表現を提案する。
論文 参考訳(メタデータ) (2023-03-07T17:39:53Z) - Aerial View Goal Localization with Reinforcement Learning [6.165163123577484]
本稿では,実際のUAVへのアクセスを必要とせずに,SAR(Search-and-Rescue)のようなセットアップをエミュレートするフレームワークを提案する。
この枠組みでは、エージェントが空中画像(探索領域のプロキシ)上で動作し、視覚的手がかりとして記述されたゴールのローカライズを行う。
AiRLocは、探索(遠方目標探索)と搾取(近方目標の局所化)を分離する強化学習(RL)に基づくモデルである。
論文 参考訳(メタデータ) (2022-09-08T10:27:53Z) - A Gis Aided Approach for Geolocalizing an Unmanned Aerial System Using
Deep Learning [0.4297070083645048]
本稿では,GPS信号の劣化や拒否時にUASをジオローカライズする手法を提案する。
UASは、プラットフォームが飛ぶとリアルタイム画像を取得することができる、下向きのカメラをプラットフォーム上に備えているので、ジオローカライゼーションを実現するために、最新のディープラーニング技術を適用します。
我々は,OpenStreetMap (OSM) からGIS情報を抽出し,意味的に一致した特徴をビルディングクラスとランドスケープクラスに分割する。
論文 参考訳(メタデータ) (2022-08-25T17:51:15Z) - Think Global, Act Local: Dual-scale Graph Transformer for
Vision-and-Language Navigation [87.03299519917019]
本稿では,2次元グラフ変換器 (DUET) を提案する。
我々は,グローバルな行動空間における効率的な探索を可能にするために,トポロジカルマップをオンザフライで構築する。
提案手法であるDUETは、目標指向の視覚・言語ナビゲーションベンチマークにおいて最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-02-23T19:06:53Z) - Batch Exploration with Examples for Scalable Robotic Reinforcement
Learning [63.552788688544254]
BEE(Batch Exploration with Examples)は、重要状態の画像の少ない数の人間がガイドする状態空間の関連領域を探索する。
BEEは、シミュレーションと本物のフランカロボットの両方で、視覚ベースの操作に挑戦することができる。
論文 参考訳(メタデータ) (2020-10-22T17:49:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。