論文の概要: Where Do We Go from Here? Multi-scale Allocentric Relational Inference from Natural Spatial Descriptions
- arxiv url: http://arxiv.org/abs/2402.16364v2
- Date: Sun, 4 Aug 2024 08:36:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 23:36:13.543528
- Title: Where Do We Go from Here? Multi-scale Allocentric Relational Inference from Natural Spatial Descriptions
- Title(参考訳): ここからどこへ行くのか? 自然空間記述からの多スケール同心関係推論
- Authors: Tzuf Paz-Argaman, Sayali Kulkarni, John Palowitch, Jason Baldridge, Reut Tsarfaty,
- Abstract要約: 本稿では,Rendezvous (RVS) タスクとデータセットについて紹介する。
解析の結果、RVSは空間的同心関係のよりリッチな利用を示し、従来のテキストベースのナビゲーションベンチマークと比較すると、空間的関係を同時に解決する必要があることが明らかとなった。
- 参考スコア(独自算出の注目度): 18.736071151303726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When communicating routes in natural language, the concept of acquired spatial knowledge is crucial for geographic information retrieval (GIR) and in spatial cognitive research. However, NLP navigation studies often overlook the impact of such acquired knowledge on textual descriptions. Current navigation studies concentrate on egocentric local descriptions (e.g., `it will be on your right') that require reasoning over the agent's local perception. These instructions are typically given as a sequence of steps, with each action-step explicitly mentioning and being followed by a landmark that the agent can use to verify they are on the right path (e.g., `turn right and then you will see...'). In contrast, descriptions based on knowledge acquired through a map provide a complete view of the environment and capture its overall structure. These instructions (e.g., `it is south of Central Park and a block north of a police station') are typically non-sequential, contain allocentric relations, with multiple spatial relations and implicit actions, without any explicit verification. This paper introduces the Rendezvous (RVS) task and dataset, which includes 10,404 examples of English geospatial instructions for reaching a target location using map-knowledge. Our analysis reveals that RVS exhibits a richer use of spatial allocentric relations, and requires resolving more spatial relations simultaneously compared to previous text-based navigation benchmarks.
- Abstract(参考訳): 自然言語の経路を伝達する場合、取得された空間知識の概念は地理情報検索(GIR)や空間認知研究において重要である。
しかし、NLPナビゲーション研究は、そのような知識がテキスト記述に与える影響をしばしば見落としている。
現在のナビゲーション研究は、エージェントの局所的知覚に関する推論を必要とするエゴセントリックな局所的記述(例えば、'It will be on your right')に焦点を当てている。
これらの命令は、通常一連のステップとして与えられ、各アクションステップが明示的に言及され、次にエージェントが正しいパス(例: 'turn right, then you will see...')にあることを確認するランドマークが続く。
対照的に、地図を通して得られた知識に基づく記述は、環境の完全なビューを提供し、その全体構造をキャプチャする。
これらの指示(例:「中央公園の南、警察署の北のブロック」)は典型的には非順序的であり、複数の空間的関係と暗黙的な行動を持つ同心関係を含む。
本稿では,Rendezvous (RVS) タスクとデータセットについて紹介する。
解析の結果、RVSは空間的同心関係のよりリッチな利用を示し、従来のテキストベースのナビゲーションベンチマークと比較すると、空間的関係を同時に解決する必要があることが明らかとなった。
関連論文リスト
- Into the Unknown: Generating Geospatial Descriptions for New Environments [18.736071151303726]
レンデブー課題は、同心空間関係の推論を必要とする。
座標と組み合わせたオープンソース記述(例えばウィキペディア)を使用することで、トレーニングデータを提供するが、空間指向の限られたテキストに悩まされる。
新しい環境のための高品質な合成データを生成するための大規模拡張手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T14:56:21Z) - GeoGLUE: A GeoGraphic Language Understanding Evaluation Benchmark [56.08664336835741]
我々はGeoGLUEと呼ばれるGeoGraphic Language Understanding Evaluationベンチマークを提案する。
オープンソースの地理資源からデータを収集し、6つの自然言語理解タスクを導入する。
我々は,GeoGLUEベンチマークの有効性と意義を示す一般ベースラインの評価実験と解析を行った。
論文 参考訳(メタデータ) (2023-05-11T03:21:56Z) - KERM: Knowledge Enhanced Reasoning for Vision-and-Language Navigation [61.08389704326803]
VLN(Vision-and-Language Navigation)は、実シーンにおける自然言語命令に続く遠隔地への移動を可能にするタスクである。
以前のアプローチのほとんどは、ナビゲート可能な候補を表現するために、機能全体やオブジェクト中心の機能を利用している。
本稿では,知識を活用したエージェントナビゲーション能力向上のための知識強化推論モデル(KERM)を提案する。
論文 参考訳(メタデータ) (2023-03-28T08:00:46Z) - Weakly-Supervised Multi-Granularity Map Learning for Vision-and-Language
Navigation [87.52136927091712]
我々は,ロボットエージェントが言語指導によって記述された経路をたどって,環境の中をナビゲートするよう訓練する,現実的かつ困難な問題に対処する。
高精度かつ効率的なナビゲーションを実現するためには,環境オブジェクトの空間的位置と意味情報の両方を正確に表現した地図を構築することが重要である。
より包括的にオブジェクトを表現するために,オブジェクトの細粒度(色,テクスチャなど)とセマンティッククラスの両方を含む多粒度マップを提案する。
論文 参考訳(メタデータ) (2022-10-14T04:23:27Z) - What is Right for Me is Not Yet Right for You: A Dataset for Grounding
Relative Directions via Multi-Task Learning [16.538887534958555]
終端ニューラルネットワークによる相対方向の接地問題について検討する。
GRiD-3Dは、相対方向を特徴とし、既存の視覚的質問応答(VQA)データセットを補完する新しいデータセットである。
これらのサブタスクは、相対方向を処理する直感的なパイプラインのステップを反映した順序で学習される。
論文 参考訳(メタデータ) (2022-05-05T14:25:46Z) - SOON: Scenario Oriented Object Navigation with Graph-based Exploration [102.74649829684617]
人間のように3Dエンボディ環境のどこからでも言語ガイドされたターゲットに向かって移動する能力は、インテリジェントロボットの「聖杯」目標の1つです。
ほとんどのビジュアルナビゲーションベンチマークは、ステップバイステップの詳細な命令セットに導かれ、固定された出発点から目標に向かって移動することに焦点を当てている。
このアプローチは、人間だけが物体とその周囲がどのように見えるかを説明する現実世界の問題から逸脱し、ロボットにどこからでも航行を依頼する。
論文 参考訳(メタデータ) (2021-03-31T15:01:04Z) - SIRI: Spatial Relation Induced Network For Spatial Description
Resolution [64.38872296406211]
言語誘導型ローカライゼーションのための新しい関係誘導型ネットワーク(SIRI)を提案する。
提案手法は,80ピクセルの半径で測定した精度で,最先端手法よりも約24%優れていた。
提案手法は,Touchdownと同じ設定で収集した拡張データセットをうまく一般化する。
論文 参考訳(メタデータ) (2020-10-27T14:04:05Z) - From Topic Networks to Distributed Cognitive Maps: Zipfian Topic
Universes in the Area of Volunteered Geographic Information [59.0235296929395]
本研究では,テキストの話題レベルに関する地理情報のエンコードとネットワーク化について検討する。
本研究は,オンラインコミュニケーションにおいて地理的な場所が位置するテーマ宇宙のZipfian組織を示す。
互いに近いかどうかに関わらず、場所はトピックの宇宙における類似の作業にまたがる隣の場所にある。
論文 参考訳(メタデータ) (2020-02-04T18:31:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。