論文の概要: Towards Natural Language-Guided Drones: GeoText-1652 Benchmark with
Spatially Relation Matching
- arxiv url: http://arxiv.org/abs/2311.12751v1
- Date: Tue, 21 Nov 2023 17:52:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 23:38:27.489286
- Title: Towards Natural Language-Guided Drones: GeoText-1652 Benchmark with
Spatially Relation Matching
- Title(参考訳): 自然言語誘導ドローンに向けたgeotext-1652ベンチマーク
- Authors: Meng Chu, Zhedong Zheng, Wei Ji, Tat-Seng Chua
- Abstract要約: 自然言語コマンドによるドローンナビゲーションは、公開されているマルチモーダルデータセットが欠如しているため、依然として大きな課題である。
我々は,堅牢なLarge Language Model (LLM)ベースのデータ生成フレームワークを用いて,厳密にキュレートされたGeoText-1652という新しい人間-コンピュータインタラクションベンチマークを提案する。
- 参考スコア(独自算出の注目度): 70.7261881356032
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Drone navigation through natural language commands remains a significant
challenge due to the lack of publicly available multi-modal datasets and the
intricate demands of fine-grained visual-text alignment. In response to this
pressing need, we present a new human-computer interaction annotation benchmark
called GeoText-1652, meticulously curated through a robust Large Language Model
(LLM)-based data generation framework and the expertise of pre-trained vision
models. This new dataset seamlessly extends the existing image dataset, \ie,
University-1652, with spatial-aware text annotations, encompassing intricate
image-text-bounding box associations. Besides, we introduce a new optimization
objective to leverage fine-grained spatial associations, called blending
spatial matching, for region-level spatial relation matching. Extensive
experiments reveal that our approach maintains an exceptional recall rate under
varying description complexities. This underscores the promising potential of
our approach in elevating drone control and navigation through the seamless
integration of natural language commands in real-world scenarios.
- Abstract(参考訳): 公開されているマルチモーダルデータセットの欠如と、きめ細かいビジュアルテキストアライメントの複雑な要求のため、自然言語コマンドによるドローンナビゲーションは依然として大きな課題である。
そこで,本研究では,強固な大規模言語モデル(llm)ベースのデータ生成フレームワークと事前学習されたビジョンモデルの専門知識を用いて,ジオテキスト1652という新たなヒューマンコンピュータインタラクションアノテーションベンチマークを提案する。
このデータセットは、既存の画像データセットである \ie, University-1652 を、複雑な画像テキスト境界ボックスアソシエーションを含む空間認識テキストアノテーションでシームレスに拡張する。
また,領域レベルの空間関係マッチングのために,混合空間マッチングと呼ばれる細粒度空間相関を利用するための新しい最適化目標を提案する。
大規模な実験により,本手法は様々な記述複雑さの下で例外的なリコール率を維持していることが明らかとなった。
このことは、現実のシナリオにおける自然言語コマンドのシームレスな統合を通じて、ドローンの制御とナビゲーションを向上する我々のアプローチの有望な可能性を浮き彫りにしている。
関連論文リスト
- Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z) - Into the Unknown: Generating Geospatial Descriptions for New Environments [18.736071151303726]
レンデブー課題は、同心空間関係の推論を必要とする。
座標と組み合わせたオープンソース記述(例えばウィキペディア)を使用することで、トレーニングデータを提供するが、空間指向の限られたテキストに悩まされる。
新しい環境のための高品質な合成データを生成するための大規模拡張手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T14:56:21Z) - RTGen: Generating Region-Text Pairs for Open-Vocabulary Object Detection [20.630629383286262]
オープン・ボキャブラリ・オブジェクト検出は、地域-セマンティック関係のソリッド・モデリングを必要とする。
拡張性のあるオープン語彙領域-テキストペアを生成するRTGenを提案する。
論文 参考訳(メタデータ) (2024-05-30T09:03:23Z) - Think Global, Act Local: Dual-scale Graph Transformer for
Vision-and-Language Navigation [87.03299519917019]
本稿では,2次元グラフ変換器 (DUET) を提案する。
我々は,グローバルな行動空間における効率的な探索を可能にするために,トポロジカルマップをオンザフライで構築する。
提案手法であるDUETは、目標指向の視覚・言語ナビゲーションベンチマークにおいて最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-02-23T19:06:53Z) - Exploring Explicit and Implicit Visual Relationships for Image
Captioning [11.82805641934772]
本稿では,画像キャプションのための領域レベルの表現を豊かにするために,明示的かつ暗黙的な視覚関係を探索する。
具体的には、オブジェクトペア上にセマンティックグラフを構築し、ゲートグラフ畳み込みネットワーク(Gated GCN)を利用して、近隣住民の情報を選択的に集約する。
暗黙的に、我々は変圧器から領域ベースの双方向エンコーダ表現を介して検出されたオブジェクト間のグローバルな相互作用を描画する。
論文 参考訳(メタデータ) (2021-05-06T01:47:51Z) - Towards Natural Language Question Answering over Earth Observation
Linked Data using Attention-based Neural Machine Translation [0.0]
本稿では、自然言語問題からGeoSPARQLクエリへの変換に注意を払い、RNNベースのニューラルマシン翻訳の使用を研究および分析する。
Corine Land Cover (CLC) Linked Data上の自然言語問題からGeoSPARQLクエリへのマッピングからなるデータセットが作成され、ディープニューラルネットワークのトレーニングと検証が行われている。
論文 参考訳(メタデータ) (2021-01-23T06:12:20Z) - Geography-Aware Self-Supervised Learning [79.4009241781968]
異なる特徴により、標準ベンチマークにおけるコントラスト学習と教師あり学習の間には、非自明なギャップが持続していることが示される。
本稿では,リモートセンシングデータの空間的整合性を利用した新しいトレーニング手法を提案する。
提案手法は,画像分類,オブジェクト検出,セマンティックセグメンテーションにおけるコントラスト学習と教師あり学習のギャップを埋めるものである。
論文 参考訳(メタデータ) (2020-11-19T17:29:13Z) - SIRI: Spatial Relation Induced Network For Spatial Description
Resolution [64.38872296406211]
言語誘導型ローカライゼーションのための新しい関係誘導型ネットワーク(SIRI)を提案する。
提案手法は,80ピクセルの半径で測定した精度で,最先端手法よりも約24%優れていた。
提案手法は,Touchdownと同じ設定で収集した拡張データセットをうまく一般化する。
論文 参考訳(メタデータ) (2020-10-27T14:04:05Z) - Language and Visual Entity Relationship Graph for Agent Navigation [54.059606864535304]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従って現実世界の環境をナビゲートする必要がある。
テキストと視覚間のモーダル関係をモデル化するための新しい言語とビジュアルエンティティ関係グラフを提案する。
実験によって、私たちは最先端技術よりも改善できる関係を利用しています。
論文 参考訳(メタデータ) (2020-10-19T08:25:55Z) - Spatial Language Representation with Multi-Level Geocoding [15.376256625525391]
テキストと地理的位置を関連づける多段階ジオコーディングモデル(MLG)を提案する。
MLGは3つの英文データセットのトポニム分解能の最先端結果が得られることを示す。
論文 参考訳(メタデータ) (2020-08-21T00:05:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。