論文の概要: Towards Natural Language-Guided Drones: GeoText-1652 Benchmark with Spatial Relation Matching
- arxiv url: http://arxiv.org/abs/2311.12751v2
- Date: Thu, 14 Mar 2024 13:38:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-16 02:12:48.807055
- Title: Towards Natural Language-Guided Drones: GeoText-1652 Benchmark with Spatial Relation Matching
- Title(参考訳): 自然言語誘導型ドローンに向けて:空間関係マッチングを用いたGeoText-1652ベンチマーク
- Authors: Meng Chu, Zhedong Zheng, Wei Ji, Tingyu Wang, Tat-Seng Chua,
- Abstract要約: 自然言語コマンドを通じてドローンをナビゲートすることは、アクセス可能なマルチモーダルデータセットが不足しているため、依然として難しい。
我々は新しい自然言語誘導ジオローカライゼーションベンチマークGeoText-1652を紹介する。
このデータセットは、インタラクティブなヒューマンコンピュータプロセスを通じて体系的に構築される。
- 参考スコア(独自算出の注目度): 60.645802236700035
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Navigating drones through natural language commands remains challenging due to the dearth of accessible multi-modal datasets and the stringent precision requirements for aligning visual and textual data. To address this pressing need, we introduce GeoText-1652, a new natural language-guided geo-localization benchmark. This dataset is systematically constructed through an interactive human-computer process leveraging Large Language Model (LLM) driven annotation techniques in conjunction with pre-trained vision models. GeoText-1652 extends the established University-1652 image dataset with spatial-aware text annotations, thereby establishing one-to-one correspondences between image, text, and bounding box elements. We further introduce a new optimization objective to leverage fine-grained spatial associations, called blending spatial matching, for region-level spatial relation matching. Extensive experiments reveal that our approach maintains a competitive recall rate comparing other prevailing cross-modality methods. This underscores the promising potential of our approach in elevating drone control and navigation through the seamless integration of natural language commands in real-world scenarios.
- Abstract(参考訳): 自然言語コマンドを通じてドローンをナビゲートすることは、アクセス可能なマルチモーダルデータセットの欠如と、視覚的データとテキストデータの整列のための厳密な精度要件のため、依然として難しい。
このようなニーズに対処するため,新しい自然言語誘導ジオローカライゼーションベンチマークGeoText-1652を導入する。
このデータセットは、Large Language Model(LLM)駆動のアノテーション技術と事前学習された視覚モデルを利用する対話型ヒューマンコンピュータプロセスによって体系的に構築される。
GeoText-1652は、確立されたUniversity-1652イメージデータセットを空間対応のテキストアノテーションで拡張し、画像、テキスト、バウンディングボックス要素の1対1対応を確立する。
さらに、領域レベルの空間関係マッチングにおいて、混合空間マッチングと呼ばれる、きめ細かい空間関係を利用するための新しい最適化目標を導入する。
大規模な実験により,本手法は,他の一般的なクロスモダリティ手法と比較して,競争力のあるリコール率を維持していることが明らかとなった。
このことは、現実のシナリオにおける自然言語コマンドのシームレスな統合を通じて、ドローンの制御とナビゲーションを向上する我々のアプローチの有望な可能性を浮き彫りにしている。
関連論文リスト
- Tell, Don't Show!: Language Guidance Eases Transfer Across Domains in
Images and Videos [75.70284643815685]
ラベル付きソースから未ラベルのターゲットデータへの識別的知識の堅牢な移行をドメインシフトでガイドするフレームワークであるLaGTranを紹介する。
意味的にリッチなテキストモダリティがより好ましい転送特性を持つという我々の観察に触発された我々は、ソース学習されたテキスト分類器を用いて、ターゲットテキスト記述の予測を生成するための転送機構を考案した。
言語指導による私たちのアプローチは驚くほど簡単でシンプルですが、GeoNetやDomainNetといった挑戦的なデータセットに対する以前のアプローチよりもはるかに優れています。
論文 参考訳(メタデータ) (2024-03-08T18:58:46Z) - GeoLM: Empowering Language Models for Geospatially Grounded Language
Understanding [45.36562604939258]
本稿では,自然言語におけるジオテリティーの理解を深める言語モデルGeoLMを紹介する。
また、GeoLMは、トポノニム認識、トポノニムリンク、関係抽出、ジオエンタリティタイピングをサポートする有望な能力を示すことを示した。
論文 参考訳(メタデータ) (2023-10-23T01:20:01Z) - Think Global, Act Local: Dual-scale Graph Transformer for
Vision-and-Language Navigation [87.03299519917019]
本稿では,2次元グラフ変換器 (DUET) を提案する。
我々は,グローバルな行動空間における効率的な探索を可能にするために,トポロジカルマップをオンザフライで構築する。
提案手法であるDUETは、目標指向の視覚・言語ナビゲーションベンチマークにおいて最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-02-23T19:06:53Z) - Exploring Explicit and Implicit Visual Relationships for Image
Captioning [11.82805641934772]
本稿では,画像キャプションのための領域レベルの表現を豊かにするために,明示的かつ暗黙的な視覚関係を探索する。
具体的には、オブジェクトペア上にセマンティックグラフを構築し、ゲートグラフ畳み込みネットワーク(Gated GCN)を利用して、近隣住民の情報を選択的に集約する。
暗黙的に、我々は変圧器から領域ベースの双方向エンコーダ表現を介して検出されたオブジェクト間のグローバルな相互作用を描画する。
論文 参考訳(メタデータ) (2021-05-06T01:47:51Z) - Towards Natural Language Question Answering over Earth Observation
Linked Data using Attention-based Neural Machine Translation [0.0]
本稿では、自然言語問題からGeoSPARQLクエリへの変換に注意を払い、RNNベースのニューラルマシン翻訳の使用を研究および分析する。
Corine Land Cover (CLC) Linked Data上の自然言語問題からGeoSPARQLクエリへのマッピングからなるデータセットが作成され、ディープニューラルネットワークのトレーニングと検証が行われている。
論文 参考訳(メタデータ) (2021-01-23T06:12:20Z) - Geography-Aware Self-Supervised Learning [79.4009241781968]
異なる特徴により、標準ベンチマークにおけるコントラスト学習と教師あり学習の間には、非自明なギャップが持続していることが示される。
本稿では,リモートセンシングデータの空間的整合性を利用した新しいトレーニング手法を提案する。
提案手法は,画像分類,オブジェクト検出,セマンティックセグメンテーションにおけるコントラスト学習と教師あり学習のギャップを埋めるものである。
論文 参考訳(メタデータ) (2020-11-19T17:29:13Z) - SIRI: Spatial Relation Induced Network For Spatial Description
Resolution [64.38872296406211]
言語誘導型ローカライゼーションのための新しい関係誘導型ネットワーク(SIRI)を提案する。
提案手法は,80ピクセルの半径で測定した精度で,最先端手法よりも約24%優れていた。
提案手法は,Touchdownと同じ設定で収集した拡張データセットをうまく一般化する。
論文 参考訳(メタデータ) (2020-10-27T14:04:05Z) - Language and Visual Entity Relationship Graph for Agent Navigation [54.059606864535304]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従って現実世界の環境をナビゲートする必要がある。
テキストと視覚間のモーダル関係をモデル化するための新しい言語とビジュアルエンティティ関係グラフを提案する。
実験によって、私たちは最先端技術よりも改善できる関係を利用しています。
論文 参考訳(メタデータ) (2020-10-19T08:25:55Z) - Spatial Language Representation with Multi-Level Geocoding [15.376256625525391]
テキストと地理的位置を関連づける多段階ジオコーディングモデル(MLG)を提案する。
MLGは3つの英文データセットのトポニム分解能の最先端結果が得られることを示す。
論文 参考訳(メタデータ) (2020-08-21T00:05:08Z) - Robust and Interpretable Grounding of Spatial References with Relation
Networks [40.42540299023808]
自然言語による空間参照の表現を学習することは、自律的なナビゲーションやロボット操作といったタスクにおいて重要な課題である。
近年,空間概念のマルチモーダル表現を学習するための様々なニューラルアーキテクチャが研究されている。
我々は、頑健で解釈可能なテキストにおける空間参照を理解するための効果的なモデルを開発する。
論文 参考訳(メタデータ) (2020-05-02T04:11:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。