Fugu-MT 論文翻訳(概要): Text to Point Cloud Localization with Relation-Enhanced Transformer

論文の概要: Text to Point Cloud Localization with Relation-Enhanced Transformer

arxiv url: http://arxiv.org/abs/2301.05372v1
Date: Fri, 13 Jan 2023 02:58:49 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-16 14:44:55.333233
Title: Text to Point Cloud Localization with Relation-Enhanced Transformer
Title（参考訳）: リレーショナルエンハンスドトランスを用いたテキストからポイントクラウドへのローカライズ
Authors: Guangzhi Wang, Hehe Fan, Mohan Kankanhalli
Abstract要約: テキスト・ツー・ポイント・クラウドのクロスモーダルなローカライゼーション問題に焦点をあてる。都市スケールの点雲から記述された場所を特定することを目的としている。本稿では,表現の識別性を改善するために,RET(Relation-Enhanced Transformer)を提案する。
参考スコア（独自算出の注目度）: 14.635206837740231
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Automatically localizing a position based on a few natural language instructions is essential for future robots to communicate and collaborate with humans. To approach this goal, we focus on the text-to-point-cloud cross-modal localization problem. Given a textual query, it aims to identify the described location from city-scale point clouds. The task involves two challenges. 1) In city-scale point clouds, similar ambient instances may exist in several locations. Searching each location in a huge point cloud with only instances as guidance may lead to less discriminative signals and incorrect results. 2) In textual descriptions, the hints are provided separately. In this case, the relations among those hints are not explicitly described, leading to difficulties of learning relations. To overcome these two challenges, we propose a unified Relation-Enhanced Transformer (RET) to improve representation discriminability for both point cloud and natural language queries. The core of the proposed RET is a novel Relation-enhanced Self-Attention (RSA) mechanism, which explicitly encodes instance (hint)-wise relations for the two modalities. Moreover, we propose a fine-grained cross-modal matching method to further refine the location predictions in a subsequent instance-hint matching stage. Experimental results on the KITTI360Pose dataset demonstrate that our approach surpasses the previous state-of-the-art method by large margin.
Abstract（参考訳）: いくつかの自然言語命令に基づいて位置を自動的に位置決めすることは、将来のロボットが人間とコミュニケーションし協力する上で不可欠である。この目標に近づくために,我々はテキスト対ポイント・クラウドのクロスモーダルローカライズ問題に焦点を当てる。テキストによる問い合わせによって、都市スケールのクラウドから記述された場所を特定することを目的としている。課題は2つある。 1) 都市規模の点雲では, 同様の環境インスタンスが複数の場所に存在しうる。ガイダンスとしてインスタンスのみを持つ巨大なポイントクラウド内の各ロケーションを検索すると、識別シグナルが減り、誤った結果が出る可能性がある。 2) テキスト記述では,ヒントは別々に提供される。この場合、これらのヒント間の関係は明示的に記述されておらず、学習関係が困難になる。これら2つの課題を克服するため,我々は,ポイントクラウドと自然言語問合せの表現識別性を改善するために,ret(unified relation-enhanced transformer)を提案する。提案するretのコアは,2つのモダリティのインスタンス(hint)を明示的にエンコードする,rsa(relation-enhanced self-attention)機構である。さらに,後続のインスタンス-ヒントマッチング段階における位置予測をさらに洗練するために,粒度の細かいクロスモーダルマッチング手法を提案する。 KITTI360Poseデータセットの実験結果から,提案手法が従来の最先端手法をはるかに上回ることを示す。

関連論文リスト

Multilingual Text-to-Image Person Retrieval via Bidirectional Relation Reasoning and Aligning [81.43257201833154]
言語やモダリティ間のアライメントを学習するための双方向命令関係推論およびアライニングフレームワークBi-IRRAを提案する。 Bi-IRRA内において、双方向暗黙的関係推論モジュールは、マスクされた画像とテキストの双方向予測を可能にする。提案手法は,すべての多言語TIPRデータセットに対して,新しい最先端結果を実現する。
論文参考訳（メタデータ） (2025-10-20T16:01:11Z)
AddressCLIP: Empowering Vision-Language Models for City-wide Image Address Localization [57.34659640776723]
そこで我々は,より意味論的に問題を解決するために,AddressCLIPというエンドツーエンドのフレームワークを提案する。われわれはピッツバーグとサンフランシスコに3つのデータセットを構築した。
論文参考訳（メタデータ） (2024-07-11T03:18:53Z)
Spatial Semantic Recurrent Mining for Referring Image Segmentation [63.34997546393106]
高品質なクロスモーダリティ融合を実現するために,Stextsuperscript2RMを提案する。これは、言語特徴の分散、空間的意味的再帰的分離、パーセマンティック・セマンティック・バランシングという三部作の作業戦略に従う。提案手法は他の最先端アルゴリズムに対して好適に機能する。
論文参考訳（メタデータ） (2024-05-15T00:17:48Z)
Instance-free Text to Point Cloud Localization with Relative Position Awareness [37.22900045434484]
テキスト・ツー・ポイント・クラウドクロスモーダル・ローカライゼーションは、未来のロボットと人間のコラボレーションにとって重要な視覚言語タスクである。既存のアプローチの2つの重要な制限に対処する: 1) 地中実例への依存を入力とし、2) 潜在事例間の相対的な位置を無視する。提案モデルは,テキストセル検索のための粗いステージと位置推定のための微細なステージを含む,2段階のパイプラインに従う。
論文参考訳（メタデータ） (2024-04-27T09:46:49Z)
Coupled Laplacian Eigenmaps for Locally-Aware 3D Rigid Point Cloud Matching [0.0]
局所構造を考慮したグラフラプラシアン固有写像に基づく新しい手法を提案する。ラプラシアン固有写像の順序と符号のあいまいさに対処するために、結合ラプラシアンと呼ばれる新しい作用素を導入する。これらの高次元空間間の類似性は、形状に一致するような局所的な意味のあるスコアを与えることを示す。
論文参考訳（メタデータ） (2024-02-27T10:10:12Z)
Text2Loc: 3D Point Cloud Localization from Natural Language [49.01851743372889]
我々は,いくつかの言語学的記述に基づく3次元点群局所化の問題に取り組む。我々は,ポイントとテキスト間の意味的関係を完全に解釈する新しいニューラルネットワークText2Locを導入する。 Text2Locは、KITTI360Poseデータセットの最先端技術に対して最大2倍のローカライゼーション精度を向上する。
論文参考訳（メタデータ） (2023-11-27T16:23:01Z)
Collect-and-Distribute Transformer for 3D Point Cloud Analysis [82.03517861433849]
本稿では,点雲の短距離・長距離コンテキストを通信するための収集・分散機構を備えた新しい変圧器ネットワークを提案する。その結果,提案したCDFormerの有効性が示され,ポイントクラウドの分類とセグメンテーションタスクにおける最先端のパフォーマンスがいくつか提供された。
論文参考訳（メタデータ） (2023-06-02T03:48:45Z)
Self-Supervised Arbitrary-Scale Point Clouds Upsampling via Implicit Neural Representation [79.60988242843437]
そこで本研究では,自己監督型および倍率フレキシブルな点雲を同時にアップサンプリングする手法を提案する。実験結果から, 自己教師あり学習に基づく手法は, 教師あり学習に基づく手法よりも, 競争力や性能が向上することが示された。
論文参考訳（メタデータ） (2022-04-18T07:18:25Z)
SIRI: Spatial Relation Induced Network For Spatial Description Resolution [64.38872296406211]
言語誘導型ローカライゼーションのための新しい関係誘導型ネットワーク(SIRI)を提案する。提案手法は,80ピクセルの半径で測定した精度で,最先端手法よりも約24%優れていた。提案手法は,Touchdownと同じ設定で収集した拡張データセットをうまく一般化する。
論文参考訳（メタデータ） (2020-10-27T14:04:05Z)
Semantic Graph Based Place Recognition for 3D Point Clouds [22.608115489674653]
本稿では,位置認識のためのセマンティックグラフに基づく新しいアプローチを提案する。まず、ポイントクラウドシーンのための新しいセマンティックグラフ表現を提案する。次に、その類似性を計算するために、高速で効果的なグラフ類似性ネットワークを設計する。
論文参考訳（メタデータ） (2020-08-26T09:27:26Z)
Rethinking Positional Encoding in Language Pre-training [111.2320727291926]
絶対的な位置符号化では、位置埋め込みと単語埋め込みに適用される付加操作が混合相関をもたらすことを示す。我々はtextbfUntied textPositional textbfEncoding (T) を用いた textbfTransformer という新しい位置符号化手法を提案する。
論文参考訳（メタデータ） (2020-06-28T13:11:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。