論文の概要: Towards Natural Language-Guided Drones: GeoText-1652 Benchmark with Spatial Relation Matching
- arxiv url: http://arxiv.org/abs/2311.12751v4
- Date: Wed, 31 Jul 2024 08:24:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-01 20:35:03.604725
- Title: Towards Natural Language-Guided Drones: GeoText-1652 Benchmark with Spatial Relation Matching
- Title(参考訳): 自然言語誘導型ドローンに向けて:空間関係マッチングを用いたGeoText-1652ベンチマーク
- Authors: Meng Chu, Zhedong Zheng, Wei Ji, Tingyu Wang, Tat-Seng Chua,
- Abstract要約: 自然言語コマンドを通じてドローンをナビゲートすることは、アクセス可能なマルチモーダルデータセットが不足しているため、依然として難しい。
我々は新しい自然言語誘導ジオローカライゼーションベンチマークGeoText-1652を紹介する。
このデータセットは、インタラクティブなヒューマンコンピュータプロセスを通じて体系的に構築される。
- 参考スコア(独自算出の注目度): 60.645802236700035
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Navigating drones through natural language commands remains challenging due to the dearth of accessible multi-modal datasets and the stringent precision requirements for aligning visual and textual data. To address this pressing need, we introduce GeoText-1652, a new natural language-guided geo-localization benchmark. This dataset is systematically constructed through an interactive human-computer process leveraging Large Language Model (LLM) driven annotation techniques in conjunction with pre-trained vision models. GeoText-1652 extends the established University-1652 image dataset with spatial-aware text annotations, thereby establishing one-to-one correspondences between image, text, and bounding box elements. We further introduce a new optimization objective to leverage fine-grained spatial associations, called blending spatial matching, for region-level spatial relation matching. Extensive experiments reveal that our approach maintains a competitive recall rate comparing other prevailing cross-modality methods. This underscores the promising potential of our approach in elevating drone control and navigation through the seamless integration of natural language commands in real-world scenarios.
- Abstract(参考訳): 自然言語コマンドを通じてドローンをナビゲートすることは、アクセス可能なマルチモーダルデータセットの欠如と、視覚的データとテキストデータの整列のための厳密な精度要件のため、依然として難しい。
このようなニーズに対処するため,新しい自然言語誘導ジオローカライゼーションベンチマークGeoText-1652を導入する。
このデータセットは、Large Language Model(LLM)駆動のアノテーション技術と事前学習された視覚モデルを利用する対話型ヒューマンコンピュータプロセスによって体系的に構築される。
GeoText-1652は、確立されたUniversity-1652イメージデータセットを空間対応のテキストアノテーションで拡張し、画像、テキスト、バウンディングボックス要素の1対1対応を確立する。
さらに、領域レベルの空間関係マッチングにおいて、混合空間マッチングと呼ばれる、きめ細かい空間関係を利用するための新しい最適化目標を導入する。
大規模な実験により,本手法は,他の一般的なクロスモダリティ手法と比較して,競争力のあるリコール率を維持していることが明らかとなった。
このことは、現実のシナリオにおける自然言語コマンドのシームレスな統合を通じて、ドローンの制御とナビゲーションを向上する我々のアプローチの有望な可能性を浮き彫りにしている。
関連論文リスト
- Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z) - Into the Unknown: Generating Geospatial Descriptions for New Environments [18.736071151303726]
レンデブー課題は、同心空間関係の推論を必要とする。
座標と組み合わせたオープンソース記述(例えばウィキペディア)を使用することで、トレーニングデータを提供するが、空間指向の限られたテキストに悩まされる。
新しい環境のための高品質な合成データを生成するための大規模拡張手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T14:56:21Z) - RTGen: Generating Region-Text Pairs for Open-Vocabulary Object Detection [20.630629383286262]
オープン・ボキャブラリ・オブジェクト検出は、地域-セマンティック関係のソリッド・モデリングを必要とする。
拡張性のあるオープン語彙領域-テキストペアを生成するRTGenを提案する。
論文 参考訳(メタデータ) (2024-05-30T09:03:23Z) - Think Global, Act Local: Dual-scale Graph Transformer for
Vision-and-Language Navigation [87.03299519917019]
本稿では,2次元グラフ変換器 (DUET) を提案する。
我々は,グローバルな行動空間における効率的な探索を可能にするために,トポロジカルマップをオンザフライで構築する。
提案手法であるDUETは、目標指向の視覚・言語ナビゲーションベンチマークにおいて最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-02-23T19:06:53Z) - Exploring Explicit and Implicit Visual Relationships for Image
Captioning [11.82805641934772]
本稿では,画像キャプションのための領域レベルの表現を豊かにするために,明示的かつ暗黙的な視覚関係を探索する。
具体的には、オブジェクトペア上にセマンティックグラフを構築し、ゲートグラフ畳み込みネットワーク(Gated GCN)を利用して、近隣住民の情報を選択的に集約する。
暗黙的に、我々は変圧器から領域ベースの双方向エンコーダ表現を介して検出されたオブジェクト間のグローバルな相互作用を描画する。
論文 参考訳(メタデータ) (2021-05-06T01:47:51Z) - Towards Natural Language Question Answering over Earth Observation
Linked Data using Attention-based Neural Machine Translation [0.0]
本稿では、自然言語問題からGeoSPARQLクエリへの変換に注意を払い、RNNベースのニューラルマシン翻訳の使用を研究および分析する。
Corine Land Cover (CLC) Linked Data上の自然言語問題からGeoSPARQLクエリへのマッピングからなるデータセットが作成され、ディープニューラルネットワークのトレーニングと検証が行われている。
論文 参考訳(メタデータ) (2021-01-23T06:12:20Z) - Geography-Aware Self-Supervised Learning [79.4009241781968]
異なる特徴により、標準ベンチマークにおけるコントラスト学習と教師あり学習の間には、非自明なギャップが持続していることが示される。
本稿では,リモートセンシングデータの空間的整合性を利用した新しいトレーニング手法を提案する。
提案手法は,画像分類,オブジェクト検出,セマンティックセグメンテーションにおけるコントラスト学習と教師あり学習のギャップを埋めるものである。
論文 参考訳(メタデータ) (2020-11-19T17:29:13Z) - SIRI: Spatial Relation Induced Network For Spatial Description
Resolution [64.38872296406211]
言語誘導型ローカライゼーションのための新しい関係誘導型ネットワーク(SIRI)を提案する。
提案手法は,80ピクセルの半径で測定した精度で,最先端手法よりも約24%優れていた。
提案手法は,Touchdownと同じ設定で収集した拡張データセットをうまく一般化する。
論文 参考訳(メタデータ) (2020-10-27T14:04:05Z) - Language and Visual Entity Relationship Graph for Agent Navigation [54.059606864535304]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従って現実世界の環境をナビゲートする必要がある。
テキストと視覚間のモーダル関係をモデル化するための新しい言語とビジュアルエンティティ関係グラフを提案する。
実験によって、私たちは最先端技術よりも改善できる関係を利用しています。
論文 参考訳(メタデータ) (2020-10-19T08:25:55Z) - Spatial Language Representation with Multi-Level Geocoding [15.376256625525391]
テキストと地理的位置を関連づける多段階ジオコーディングモデル(MLG)を提案する。
MLGは3つの英文データセットのトポニム分解能の最先端結果が得られることを示す。
論文 参考訳(メタデータ) (2020-08-21T00:05:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。