論文の概要: Spatial Language Understanding for Object Search in Partially Observed
Cityscale Environments
- arxiv url: http://arxiv.org/abs/2012.02705v1
- Date: Fri, 4 Dec 2020 16:27:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-23 02:42:14.227380
- Title: Spatial Language Understanding for Object Search in Partially Observed
Cityscale Environments
- Title(参考訳): 部分観測都市環境における物体探索のための空間言語理解
- Authors: Kaiyu Zheng, Deniz Bayazit, Rebecca Mathew, Ellie Pavlick, Stefanie
Tellex
- Abstract要約: 空間言語観測空間を導入し、部分観測可能なマルコフ決定プロセス(POMDP)の枠組みの下でモデルを定式化する。
本稿では,言語提供者の参照の相対的フレーム(FoR)の環境コンテキストを予測する畳み込みニューラルネットワークモデルを提案する。
本稿では,FOR予測モデルとオブジェクト探索システムの一般化可能性を示す。
- 参考スコア(独自算出の注目度): 21.528770932332474
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a system that enables robots to interpret spatial language as a
distribution over object locations for effective search in partially observable
cityscale environments. We introduce the spatial language observation space and
formulate a stochastic observation model under the framework of Partially
Observable Markov Decision Process (POMDP) which incorporates information
extracted from the spatial language into the robot's belief. To interpret
ambiguous, context-dependent prepositions (e.g.~front), we propose a
convolutional neural network model that learns to predict the language
provider's relative frame of reference (FoR) given environment context. We
demonstrate the generalizability of our FoR prediction model and object search
system through cross-validation over areas of five cities, each with a
40,000m$^2$ footprint. End-to-end experiments in simulation show that our
system achieves faster search and higher success rate compared to a
keyword-based baseline without spatial preposition understanding.
- Abstract(参考訳): 本研究では,ロボットが空間言語をオブジェクト位置上の分布として解釈し,部分観測可能な都市環境における効率的な探索を可能にするシステムを提案する。
本稿では,空間言語観測空間を紹介し,空間言語から抽出された情報をロボットの信念に取り入れた部分可観測マルコフ決定過程(pomdp)の枠組みに基づいて確率的観測モデルを作成する。
曖昧で文脈に依存した前置詞(例えば~前置詞)を解釈するために,言語提供者の環境コンテキストに対する相対的参照フレーム(FoR)の予測を学習する畳み込みニューラルネットワークモデルを提案する。
4万m$^2$の足跡を持つ5都市間の相互評価を通じて,予測モデルと対象探索システムの一般化可能性を示す。
シミュレーションによるエンド・ツー・エンド実験は,空間的前置詞理解を必要とせず,キーワードベースラインよりも検索速度が速く,高い成功率が得られることを示す。
関連論文リスト
- SPHERE: Unveiling Spatial Blind Spots in Vision-Language Models Through Hierarchical Evaluation [7.659514491338669]
現在の視覚言語モデルは、基本的な空間的手がかりを把握できるが、人間のような理解や現実世界の応用に必要な多次元空間的推論に苦慮している。
我々は,新しい人間注釈付きデータセットをサポートする階層的評価フレームワークであるSPHEREを開発した。
最先端モデルのベンチマーク評価では、特に距離と近接性についての推論において、重大な欠陥が示される。
これらの結果は、既存のモデルにおいて重要な盲点を明らかにし、より高度な空間推論技術の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-12-17T09:10:55Z) - Structured Spatial Reasoning with Open Vocabulary Object Detectors [2.089191490381739]
オブジェクト間の空間的関係に関する推論は多くの実世界のロボット作業において不可欠である。
我々は、リッチな3次元幾何学的特徴と最先端のオープンボキャブラリオブジェクト検出器を統合する構造的確率的アプローチを導入する。
この手法は、空間推論タスクにおける最先端ビジョン・言語モデル(VLM)のゼロショット性能を評価・比較する。
論文 参考訳(メタデータ) (2024-10-09T19:37:01Z) - Navigation with Large Language Models: Semantic Guesswork as a Heuristic
for Planning [73.0990339667978]
不慣れな環境でのナビゲーションは、ロボットにとって大きな課題となる。
言語モデルを用いて、新しい現実世界環境のバイアス探索を行う。
実環境におけるLFGの評価とシミュレーションベンチマークを行った。
論文 参考訳(メタデータ) (2023-10-16T06:21:06Z) - Language-EXtended Indoor SLAM (LEXIS): A Versatile System for Real-time
Visual Scene Understanding [0.0]
LEXISはリアルタイム屋内局地化マッピングシステムである。
大規模言語モデルのオープン語彙の性質を活用して、シーン理解と位置認識のための統一的なアプローチを作成する。
レイアウトや寸法の異なる部屋をうまく分類し、最先端のSOTA(State-of-the-art)より優れている。
論文 参考訳(メタデータ) (2023-09-26T16:50:20Z) - INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文 参考訳(メタデータ) (2021-08-25T07:35:21Z) - SIRI: Spatial Relation Induced Network For Spatial Description
Resolution [64.38872296406211]
言語誘導型ローカライゼーションのための新しい関係誘導型ネットワーク(SIRI)を提案する。
提案手法は,80ピクセルの半径で測定した精度で,最先端手法よりも約24%優れていた。
提案手法は,Touchdownと同じ設定で収集した拡張データセットをうまく一般化する。
論文 参考訳(メタデータ) (2020-10-27T14:04:05Z) - Learning Universal Representations from Word to Sentence [89.82415322763475]
この研究は普遍的な表現学習、すなわち一様ベクトル空間における言語単位の異なるレベルへの埋め込みを導入し、探求する。
本稿では, 単語, 句, 文の観点から, 類似したデータセットを構築するためのアプローチを提案する。
適切なトレーニング設定を組み込んだよく訓練されたトランスフォーマーモデルが、効果的に普遍的な表現が得られることを実証的に検証する。
論文 参考訳(メタデータ) (2020-09-10T03:53:18Z) - From Spatial Relations to Spatial Configurations [64.21025426604274]
空間関係言語は、推論に不可欠な、大きく包括的な空間概念の集合を表現することができる。
本稿では,既存の空間表現言語の機能を,セマンティクスのきめ細かい分解によって拡張する方法について述べる。
論文 参考訳(メタデータ) (2020-07-19T02:11:53Z) - Benchmarking Unsupervised Object Representations for Video Sequences [111.81492107649889]
ViMON, OP3, TBA, SCALORの4つのオブジェクト中心アプローチの知覚能力を比較した。
この結果から,制約のない潜在表現を持つアーキテクチャは,オブジェクト検出やセグメンテーション,トラッキングといった観点から,より強力な表現を学習できる可能性が示唆された。
我々のベンチマークは、より堅牢なオブジェクト中心のビデオ表現を学習するための実りあるガイダンスを提供するかもしれない。
論文 参考訳(メタデータ) (2020-06-12T09:37:24Z) - Robust and Interpretable Grounding of Spatial References with Relation
Networks [40.42540299023808]
自然言語による空間参照の表現を学習することは、自律的なナビゲーションやロボット操作といったタスクにおいて重要な課題である。
近年,空間概念のマルチモーダル表現を学習するための様々なニューラルアーキテクチャが研究されている。
我々は、頑健で解釈可能なテキストにおける空間参照を理解するための効果的なモデルを開発する。
論文 参考訳(メタデータ) (2020-05-02T04:11:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。