論文の概要: Instance-free Text to Point Cloud Localization with Relative Position Awareness
- arxiv url: http://arxiv.org/abs/2404.17845v1
- Date: Sat, 27 Apr 2024 09:46:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 19:01:27.408172
- Title: Instance-free Text to Point Cloud Localization with Relative Position Awareness
- Title(参考訳): 相対的位置認識によるクラウド位置特定のためのインスタンスフリーテキスト
- Authors: Lichao Wang, Zhihao Yuan, Jinke Ren, Shuguang Cui, Zhen Li,
- Abstract要約: テキスト・ツー・ポイント・クラウド クロスモーダル・ローカライゼーションは、未来のロボットと人間のコラボレーションにとって重要な視覚言語タスクである。
既存のアプローチの2つの重要な制限に対処する: 1) 地中実例への依存を入力とし、2) 潜在事例間の相対的な位置を無視する。
提案モデルは,テキストセル検索のための粗いステージと位置推定のための微細なステージを含む,2段階のパイプラインに従う。
- 参考スコア(独自算出の注目度): 37.22900045434484
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Text-to-point-cloud cross-modal localization is an emerging vision-language task critical for future robot-human collaboration. It seeks to localize a position from a city-scale point cloud scene based on a few natural language instructions. In this paper, we address two key limitations of existing approaches: 1) their reliance on ground-truth instances as input; and 2) their neglect of the relative positions among potential instances. Our proposed model follows a two-stage pipeline, including a coarse stage for text-cell retrieval and a fine stage for position estimation. In both stages, we introduce an instance query extractor, in which the cells are encoded by a 3D sparse convolution U-Net to generate the multi-scale point cloud features, and a set of queries iteratively attend to these features to represent instances. In the coarse stage, a row-column relative position-aware self-attention (RowColRPA) module is designed to capture the spatial relations among the instance queries. In the fine stage, a multi-modal relative position-aware cross-attention (RPCA) module is developed to fuse the text and point cloud features along with spatial relations for improving fine position estimation. Experiment results on the KITTI360Pose dataset demonstrate that our model achieves competitive performance with the state-of-the-art models without taking ground-truth instances as input.
- Abstract(参考訳): テキスト・ツー・ポイント・クラウド クロスモーダル・ローカライゼーションは、未来のロボットと人間のコラボレーションにとって重要な視覚言語タスクである。
それは、いくつかの自然言語の指示に基づいて、都市規模のクラウドシーンから位置をローカライズしようとしている。
本稿では,既存のアプローチの2つの重要な限界に対処する。
1) 入力としての地中実例への依存,及び
2) 潜在的な事例において相対的な位置を無視する。
提案モデルは,テキストセル検索のための粗いステージと位置推定のための微細なステージを含む,2段階のパイプラインに従う。
どちらの段階でも,セルを3次元スパース畳み込みU-Netで符号化してマルチスケールのクラウド特徴を生成するインスタンスクエリ抽出器と,これらの特徴を反復的に参照してインスタンスを表現するクエリセットを導入する。
粗い段階では、RowColRPA(RowColRPA)モジュールは、インスタンスクエリ間の空間関係をキャプチャするために設計されている。
微細な段階では、テキストと点雲の特徴と空間的関係を融合させ、微細な位置推定を改善するために、多モード相対位置対応クロスアテンション(RPCA)モジュールを開発する。
KITTI360Poseデータセットを用いた実験結果から,本モデルが現状のモデルと競合する性能を発揮することを示す。
関連論文リスト
- Coupled Laplacian Eigenmaps for Locally-Aware 3D Rigid Point Cloud Matching [0.0]
局所構造を考慮したグラフラプラシアン固有写像に基づく新しい手法を提案する。
ラプラシアン固有写像の順序と符号のあいまいさに対処するために、結合ラプラシアンと呼ばれる新しい作用素を導入する。
これらの高次元空間間の類似性は、形状に一致するような局所的な意味のあるスコアを与えることを示す。
論文 参考訳(メタデータ) (2024-02-27T10:10:12Z) - EipFormer: Emphasizing Instance Positions in 3D Instance Segmentation [51.996943482875366]
本稿では, プログレッシブアグリゲーションとデュアル位置埋め込みを組み合わせた新しいトランスフォーマーアーキテクチャ, EipFormerを提案する。
EipFormerは最先端のアプローチよりも優れた、あるいは同等のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-12-09T16:08:47Z) - Collect-and-Distribute Transformer for 3D Point Cloud Analysis [82.03517861433849]
本稿では,点雲の短距離・長距離コンテキストを通信するための収集・分散機構を備えた新しい変圧器ネットワークを提案する。
その結果,提案したCDFormerの有効性が示され,ポイントクラウドの分類とセグメンテーションタスクにおける最先端のパフォーマンスがいくつか提供された。
論文 参考訳(メタデータ) (2023-06-02T03:48:45Z) - Position-Guided Point Cloud Panoptic Segmentation Transformer [118.17651196656178]
この作業は、LiDARベースのポイントクラウドセグメンテーションにこの魅力的なパラダイムを適用し、シンプルだが効果的なベースラインを得ることから始まります。
スパース点雲のインスタンスはシーン全体に対して比較的小さく、しばしば類似した形状を持つが、画像領域では珍しいセグメンテーションの外観が欠如している。
position-guided Point cloud Panoptic segmentation transFormer (P3Former) と名付けられたこの手法は、Semantic KITTI と nuScenes のベンチマークでそれぞれ3.4%、そして 1.2%の性能をそれぞれ上回っている。
論文 参考訳(メタデータ) (2023-03-23T17:59:02Z) - A Unified BEV Model for Joint Learning of 3D Local Features and Overlap
Estimation [12.499361832561634]
本稿では,3次元局所特徴の同時学習と重なり推定のための統合鳥眼ビュー(BEV)モデルを提案する。
提案手法は,特に重複の少ないシーンにおいて,重複予測における既存手法よりも優れていた。
論文 参考訳(メタデータ) (2023-02-28T12:01:16Z) - Text to Point Cloud Localization with Relation-Enhanced Transformer [14.635206837740231]
テキスト・ツー・ポイント・クラウドのクロスモーダルなローカライゼーション問題に焦点をあてる。
都市スケールの点雲から記述された場所を特定することを目的としている。
本稿では,表現の識別性を改善するために,RET(Relation-Enhanced Transformer)を提案する。
論文 参考訳(メタデータ) (2023-01-13T02:58:49Z) - Adaptive Edge-to-Edge Interaction Learning for Point Cloud Analysis [118.30840667784206]
ポイントクラウドデータ処理の大きな問題は、ローカルリージョンから有用な情報を抽出することだ。
従来の研究は、局所的な形状情報を符号化する地域におけるエッジ間の関係を無視していた。
本稿では,Adaptive Edge-to-Edge Interaction Learningモジュールを提案する。
論文 参考訳(メタデータ) (2022-11-20T07:10:14Z) - SE(3)-Equivariant Attention Networks for Shape Reconstruction in
Function Space [50.14426188851305]
本稿では,第1のSE(3)-equivariant coordinate-based networkを提案する。
入力を正規格子に整列させる従来の形状再構成法とは対照的に、不規則で無向な点雲を直接操作する。
提案手法は,従来のSO(3)-equivariant法,およびSO(3)-augmented dataで訓練された非equivariant法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:59:15Z) - Multi-Scale Representation Learning for Spatial Feature Distributions
using Grid Cells [11.071527762096053]
本研究では,位置の絶対位置と空間的関係を符号化するスペース2Vecという表現学習モデルを提案する。
その結果、Space2Vecはマルチスケール表現のため、確立されたMLアプローチよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-02-16T04:22:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。