論文の概要: Text to Point Cloud Localization with Relation-Enhanced Transformer
- arxiv url: http://arxiv.org/abs/2301.05372v1
- Date: Fri, 13 Jan 2023 02:58:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-16 14:44:55.333233
- Title: Text to Point Cloud Localization with Relation-Enhanced Transformer
- Title(参考訳): リレーショナルエンハンスドトランスを用いたテキストからポイントクラウドへのローカライズ
- Authors: Guangzhi Wang, Hehe Fan, Mohan Kankanhalli
- Abstract要約: テキスト・ツー・ポイント・クラウドのクロスモーダルなローカライゼーション問題に焦点をあてる。
都市スケールの点雲から記述された場所を特定することを目的としている。
本稿では,表現の識別性を改善するために,RET(Relation-Enhanced Transformer)を提案する。
- 参考スコア(独自算出の注目度): 14.635206837740231
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatically localizing a position based on a few natural language
instructions is essential for future robots to communicate and collaborate with
humans. To approach this goal, we focus on the text-to-point-cloud cross-modal
localization problem. Given a textual query, it aims to identify the described
location from city-scale point clouds. The task involves two challenges. 1) In
city-scale point clouds, similar ambient instances may exist in several
locations. Searching each location in a huge point cloud with only instances as
guidance may lead to less discriminative signals and incorrect results. 2) In
textual descriptions, the hints are provided separately. In this case, the
relations among those hints are not explicitly described, leading to
difficulties of learning relations. To overcome these two challenges, we
propose a unified Relation-Enhanced Transformer (RET) to improve representation
discriminability for both point cloud and natural language queries. The core of
the proposed RET is a novel Relation-enhanced Self-Attention (RSA) mechanism,
which explicitly encodes instance (hint)-wise relations for the two modalities.
Moreover, we propose a fine-grained cross-modal matching method to further
refine the location predictions in a subsequent instance-hint matching stage.
Experimental results on the KITTI360Pose dataset demonstrate that our approach
surpasses the previous state-of-the-art method by large margin.
- Abstract(参考訳): いくつかの自然言語命令に基づいて位置を自動的に位置決めすることは、将来のロボットが人間とコミュニケーションし協力する上で不可欠である。
この目標に近づくために,我々はテキスト対ポイント・クラウドのクロスモーダルローカライズ問題に焦点を当てる。
テキストによる問い合わせによって、都市スケールのクラウドから記述された場所を特定することを目的としている。
課題は2つある。
1) 都市規模の点雲では, 同様の環境インスタンスが複数の場所に存在しうる。
ガイダンスとしてインスタンスのみを持つ巨大なポイントクラウド内の各ロケーションを検索すると、識別シグナルが減り、誤った結果が出る可能性がある。
2) テキスト記述では,ヒントは別々に提供される。
この場合、これらのヒント間の関係は明示的に記述されておらず、学習関係が困難になる。
これら2つの課題を克服するため,我々は,ポイントクラウドと自然言語問合せの表現識別性を改善するために,ret(unified relation-enhanced transformer)を提案する。
提案するretのコアは,2つのモダリティのインスタンス(hint)を明示的にエンコードする,rsa(relation-enhanced self-attention)機構である。
さらに,後続のインスタンス-ヒントマッチング段階における位置予測をさらに洗練するために,粒度の細かいクロスモーダルマッチング手法を提案する。
KITTI360Poseデータセットの実験結果から,提案手法が従来の最先端手法をはるかに上回ることを示す。
関連論文リスト
- Coupled Laplacian Eigenmaps for Locally-Aware 3D Rigid Point Cloud
Matching [0.0]
ポイントクラウドマッチングは、コンピュータビジョン、医療、ロボット分野において重要な技術である。
局所構造を考慮したグラフラプラシアン固有写像に基づく新しい手法を提案する。
これらの高次元空間間の類似性は、形状に一致するような局所的な意味のあるスコアを与えることを示す。
論文 参考訳(メタデータ) (2024-02-27T10:10:12Z) - Text2Loc: 3D Point Cloud Localization from Natural Language [43.24318985054713]
我々は,いくつかの言語学的記述に基づく3次元点群局所化の問題に取り組む。
我々は,ポイントとテキスト間の意味的関係を完全に解釈する新しいニューラルネットワークText2Locを導入する。
Text2Locは、KITTI360Poseデータセットの最先端技術に対して最大2倍のローカライゼーション精度を向上する。
論文 参考訳(メタデータ) (2023-11-27T16:23:01Z) - CPCM: Contextual Point Cloud Modeling for Weakly-supervised Point Cloud
Semantic Segmentation [60.0893353960514]
疎アノテーションを用いた弱教師付きポイントクラウドセマンティックセマンティックセグメンテーションの課題について検討する。
本研究では,地域マスキング(RegionMask)戦略とコンテキストマスキングトレーニング(CMT)手法の2つの部分からなるコンテキストポイントクラウドモデリング(CPCM)手法を提案する。
論文 参考訳(メタデータ) (2023-07-19T04:41:18Z) - Collect-and-Distribute Transformer for 3D Point Cloud Analysis [82.03517861433849]
本稿では,点雲の短距離・長距離コンテキストを通信するための収集・分散機構を備えた新しい変圧器ネットワークを提案する。
その結果,提案したCDFormerの有効性が示され,ポイントクラウドの分類とセグメンテーションタスクにおける最先端のパフォーマンスがいくつか提供された。
論文 参考訳(メタデータ) (2023-06-02T03:48:45Z) - Adaptive Edge-to-Edge Interaction Learning for Point Cloud Analysis [118.30840667784206]
ポイントクラウドデータ処理の大きな問題は、ローカルリージョンから有用な情報を抽出することだ。
従来の研究は、局所的な形状情報を符号化する地域におけるエッジ間の関係を無視していた。
本稿では,Adaptive Edge-to-Edge Interaction Learningモジュールを提案する。
論文 参考訳(メタデータ) (2022-11-20T07:10:14Z) - Self-Supervised Arbitrary-Scale Point Clouds Upsampling via Implicit
Neural Representation [79.60988242843437]
そこで本研究では,自己監督型および倍率フレキシブルな点雲を同時にアップサンプリングする手法を提案する。
実験結果から, 自己教師あり学習に基づく手法は, 教師あり学習に基づく手法よりも, 競争力や性能が向上することが示された。
論文 参考訳(メタデータ) (2022-04-18T07:18:25Z) - SIRI: Spatial Relation Induced Network For Spatial Description
Resolution [64.38872296406211]
言語誘導型ローカライゼーションのための新しい関係誘導型ネットワーク(SIRI)を提案する。
提案手法は,80ピクセルの半径で測定した精度で,最先端手法よりも約24%優れていた。
提案手法は,Touchdownと同じ設定で収集した拡張データセットをうまく一般化する。
論文 参考訳(メタデータ) (2020-10-27T14:04:05Z) - Semantic Graph Based Place Recognition for 3D Point Clouds [22.608115489674653]
本稿では,位置認識のためのセマンティックグラフに基づく新しいアプローチを提案する。
まず、ポイントクラウドシーンのための新しいセマンティックグラフ表現を提案する。
次に、その類似性を計算するために、高速で効果的なグラフ類似性ネットワークを設計する。
論文 参考訳(メタデータ) (2020-08-26T09:27:26Z) - Rethinking Positional Encoding in Language Pre-training [111.2320727291926]
絶対的な位置符号化では、位置埋め込みと単語埋め込みに適用される付加操作が混合相関をもたらすことを示す。
我々はtextbfUntied textPositional textbfEncoding (T) を用いた textbfTransformer という新しい位置符号化手法を提案する。
論文 参考訳(メタデータ) (2020-06-28T13:11:02Z) - Geosocial Location Classification: Associating Type to Places Based on
Geotagged Social-Media Posts [22.313111311130662]
位置への関連付けは、地図を豊かにするために使用することができ、地理空間的応用の多さに役立てることができる。
本研究では, 建物などの立地形態をソーシャルメディアの投稿に基づいて把握し, 位置分類の課題について検討する。
論文 参考訳(メタデータ) (2020-02-05T16:09:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。