論文の概要: Text2Pos: Text-to-Point-Cloud Cross-Modal Localization
- arxiv url: http://arxiv.org/abs/2203.15125v1
- Date: Mon, 28 Mar 2022 22:06:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-30 12:22:36.381504
- Title: Text2Pos: Text-to-Point-Cloud Cross-Modal Localization
- Title(参考訳): Text2Pos: Text-to-Point-Cloudクロスモーダルローカライゼーション
- Authors: Manuel Kolmet, Qunjie Zhou, Aljosa Osep, Laura Leal-Taixe
- Abstract要約: モーダルなテキスト・ツー・ポイント・クラウドのローカライゼーションにより、車両のピックアップや配送の場所を指定できます。
本研究では,テキスト記述と局所化キューを粗い方法で整列する手法を学習するマルチモーダルなローカライゼーションモジュールであるText2Posを提案する。
実験の結果,テキストクエリの65%を15m以内でローカライズできることがわかった。
- 参考スコア(独自算出の注目度): 12.984256838490795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural language-based communication with mobile devices and home appliances
is becoming increasingly popular and has the potential to become natural for
communicating with mobile robots in the future. Towards this goal, we
investigate cross-modal text-to-point-cloud localization that will allow us to
specify, for example, a vehicle pick-up or goods delivery location. In
particular, we propose Text2Pos, a cross-modal localization module that learns
to align textual descriptions with localization cues in a coarse- to-fine
manner. Given a point cloud of the environment, Text2Pos locates a position
that is specified via a natural language-based description of the immediate
surroundings. To train Text2Pos and study its performance, we construct
KITTI360Pose, the first dataset for this task based on the recently introduced
KITTI360 dataset. Our experiments show that we can localize 65% of textual
queries within 15m distance to query locations for top-10 retrieved locations.
This is a starting point that we hope will spark future developments towards
language-based navigation.
- Abstract(参考訳): モバイル機器や家電機器との自然言語によるコミュニケーションがますます普及し、将来モバイルロボットとのコミュニケーションが自然になる可能性がある。
この目的に向けて,車両のピックアップや商品の配送場所などの指定が可能な,クロスモーダルなテキストからポイント・クラウドへのローカライズについて検討する。
特に,テキスト記述と局所化キューとの整合性を粗い方法で学習するクロスモーダルなローカライゼーションモジュールであるText2Posを提案する。
環境の点雲が与えられたとき、Text2Posは自然言語ベースの環境記述を通じて指定された位置を特定する。
Text2Posをトレーニングし、その性能を研究するために、最近導入されたKITTI360データセットに基づいて、このタスクのための最初のデータセットであるKITTI360Poseを構築した。
実験の結果,テキストクエリの65%を15m距離でローカライズできることが分かった。
これは言語ベースのナビゲーションに向けた今後の発展を期待する出発点です。
関連論文リスト
- Dataset and Benchmark for Urdu Natural Scenes Text Detection, Recognition and Visual Question Answering [50.52792174648067]
このイニシアチブは、テキストと視覚的理解のギャップを埋めようとしている。
そこで本研究では,1000以上の自然シーン画像からなるマルチタスクUrduシーンテキストデータセットを提案する。
テキストインスタンスの細かいアノテーションを提供し、以前のデータセットの制限に対処します。
論文 参考訳(メタデータ) (2024-05-21T06:48:26Z) - Instance-free Text to Point Cloud Localization with Relative Position Awareness [37.22900045434484]
テキスト・ツー・ポイント・クラウド クロスモーダル・ローカライゼーションは、未来のロボットと人間のコラボレーションにとって重要な視覚言語タスクである。
既存のアプローチの2つの重要な制限に対処する: 1) 地中実例への依存を入力とし、2) 潜在事例間の相対的な位置を無視する。
提案モデルは,テキストセル検索のための粗いステージと位置推定のための微細なステージを含む,2段階のパイプラインに従う。
論文 参考訳(メタデータ) (2024-04-27T09:46:49Z) - Text2Loc: 3D Point Cloud Localization from Natural Language [49.01851743372889]
我々は,いくつかの言語学的記述に基づく3次元点群局所化の問題に取り組む。
我々は,ポイントとテキスト間の意味的関係を完全に解釈する新しいニューラルネットワークText2Locを導入する。
Text2Locは、KITTI360Poseデータセットの最先端技術に対して最大2倍のローカライゼーション精度を向上する。
論文 参考訳(メタデータ) (2023-11-27T16:23:01Z) - Towards Natural Language-Guided Drones: GeoText-1652 Benchmark with Spatial Relation Matching [60.645802236700035]
自然言語コマンドを通じてドローンをナビゲートすることは、アクセス可能なマルチモーダルデータセットが不足しているため、依然として難しい。
我々は新しい自然言語誘導ジオローカライゼーションベンチマークGeoText-1652を紹介する。
このデータセットは、インタラクティブなヒューマンコンピュータプロセスを通じて体系的に構築される。
論文 参考訳(メタデータ) (2023-11-21T17:52:30Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Text to Point Cloud Localization with Relation-Enhanced Transformer [14.635206837740231]
テキスト・ツー・ポイント・クラウドのクロスモーダルなローカライゼーション問題に焦点をあてる。
都市スケールの点雲から記述された場所を特定することを目的としている。
本稿では,表現の識別性を改善するために,RET(Relation-Enhanced Transformer)を提案する。
論文 参考訳(メタデータ) (2023-01-13T02:58:49Z) - DORi: Discovering Object Relationship for Moment Localization of a
Natural-Language Query in Video [98.54696229182335]
本研究では,自然言語クエリを用いて,時間的モーメントローカライゼーションの課題について検討する。
私たちの重要なイノベーションは、言語で条件付きメッセージパッシングアルゴリズムを通じて、ビデオ機能の埋め込みを学ぶことです。
時間的なサブグラフは、時間を通してビデオ内のアクティビティをキャプチャする。
論文 参考訳(メタデータ) (2020-10-13T09:50:29Z) - Language Guided Networks for Cross-modal Moment Retrieval [66.49445903955777]
モーダルモーダルモーメント検索は、自然言語クエリによって記述された未編集ビデオから時間セグメントをローカライズすることを目的としている。
既存の手法は、ビデオや文の特徴を独立して抽出する。
本稿では,言語ガイドネットワーク(LGN, Language Guided Networks)について紹介する。
論文 参考訳(メタデータ) (2020-06-18T12:08:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。