論文の概要: CMMLoc: Advancing Text-to-PointCloud Localization with Cauchy-Mixture-Model Based Framework
- arxiv url: http://arxiv.org/abs/2503.02593v2
- Date: Wed, 05 Mar 2025 02:11:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 12:09:23.873968
- Title: CMMLoc: Advancing Text-to-PointCloud Localization with Cauchy-Mixture-Model Based Framework
- Title(参考訳): CMMLoc: Cauchy-Mixture-Modelベースのフレームワークによるテキスト・ツー・ポイントクラウドのローカライゼーション
- Authors: Yanlong Xu, Haoxuan Qu, Jun Liu, Wenxiao Zhang, Xun Yang,
- Abstract要約: ポイントクラウドのローカライゼーションの目的は、大都市環境におけるテキスト記述を用いた3次元位置の同定である。
我々は、不確実性を意識した$textbfC$auchy-$textbfM$ixture-$textbfM$odelである$textbfCMMLocを提案する。
CMMLocは既存の手法より優れており、KITTI360Poseデータセット上で最先端の結果が得られる。
- 参考スコア(独自算出の注目度): 16.15099680732008
- License:
- Abstract: The goal of point cloud localization based on linguistic description is to identify a 3D position using textual description in large urban environments, which has potential applications in various fields, such as determining the location for vehicle pickup or goods delivery. Ideally, for a textual description and its corresponding 3D location, the objects around the 3D location should be fully described in the text description. However, in practical scenarios, e.g., vehicle pickup, passengers usually describe only the part of the most significant and nearby surroundings instead of the entire environment. In response to this $\textbf{partially relevant}$ challenge, we propose $\textbf{CMMLoc}$, an uncertainty-aware $\textbf{C}$auchy-$\textbf{M}$ixture-$\textbf{M}$odel ($\textbf{CMM}$) based framework for text-to-point-cloud $\textbf{Loc}$alization. To model the uncertain semantic relations between text and point cloud, we integrate CMM constraints as a prior during the interaction between the two modalities. We further design a spatial consolidation scheme to enable adaptive aggregation of different 3D objects with varying receptive fields. To achieve precise localization, we propose a cardinal direction integration module alongside a modality pre-alignment strategy, helping capture the spatial relationships among objects and bringing the 3D objects closer to the text modality. Comprehensive experiments validate that CMMLoc outperforms existing methods, achieving state-of-the-art results on the KITTI360Pose dataset. Codes are available in this GitHub repository https://github.com/kevin301342/CMMLoc.
- Abstract(参考訳): 言語的記述に基づくポイントクラウドのローカライゼーションの目的は、大都市環境におけるテキスト記述を用いて3次元位置を特定することである。
理想的には、テキスト記述とその対応する3D位置に対して、3D位置周辺のオブジェクトは、テキスト記述に完全に記述されるべきである。
しかしながら、現実的なシナリオでは、例えば、車両のピックアップでは、乗客は通常、環境全体ではなく、最も重要で近くの環境の一部のみを記述する。
この$\textbf{partially relevant}$ challengeに対して、テキスト・ツー・ポイント・クラウドの$\textbf{Loc}$alizationのために、$\textbf{C}$auchy-$\textbf{M}$ixture-$\textbf{M}$odel$\textbf{CMM}$)ベースのフレームワークを$\textbf{CMMLoc}$alizationとして提案する。
テキストと点クラウド間の不確実な意味関係をモデル化するために,2つのモード間の相互作用において,CMM制約を先行として統合する。
さらに、異なる3次元物体の様々な受容場を適応的にアグリゲーションするために、空間統合方式を設計する。
そこで本研究では,物体間の空間的関係の把握と3次元オブジェクトのテキストのモダリティへの接近を支援するために,モダリティ事前調整戦略と並行して,基線方向統合モジュールを提案する。
総合的な実験により、CMMLOCは既存の手法よりも優れており、KITTI360Poseデータセットで最先端の結果が得られた。
コードはGitHubリポジトリhttps://github.com/kevin301342/CMMLocで入手できる。
関連論文リスト
- Open-Vocabulary Octree-Graph for 3D Scene Understanding [54.11828083068082]
Octree-Graphはオープンな3Dシーン理解のための新しいシーン表現である。
セマンティクスを記憶し、その形状に応じてオブジェクトの占有度を調節するアダプティブ・オクツリー構造を開発する。
論文 参考訳(メタデータ) (2024-11-25T10:14:10Z) - See It All: Contextualized Late Aggregation for 3D Dense Captioning [38.14179122810755]
3D高密度キャプションは、オブジェクトを3Dシーンでローカライズし、各オブジェクトに対して記述文を生成するタスクである。
3D高密度キャプションにおける最近のアプローチでは、オブジェクト検出から手作りの部品を使わずにエンドツーエンドのパイプラインを構築するためのトランスフォーマー・エンコーダ・デコーダ・フレームワークが採用されている。
SIA(See-It-All)は3次元高密度キャプションに係わるトランスフォーマーパイプラインであり,遅延アグリゲーションと呼ばれる新しいパラダイムを導入している。
論文 参考訳(メタデータ) (2024-08-14T16:19:18Z) - Coupled Laplacian Eigenmaps for Locally-Aware 3D Rigid Point Cloud Matching [0.0]
局所構造を考慮したグラフラプラシアン固有写像に基づく新しい手法を提案する。
ラプラシアン固有写像の順序と符号のあいまいさに対処するために、結合ラプラシアンと呼ばれる新しい作用素を導入する。
これらの高次元空間間の類似性は、形状に一致するような局所的な意味のあるスコアを与えることを示す。
論文 参考訳(メタデータ) (2024-02-27T10:10:12Z) - Text2Loc: 3D Point Cloud Localization from Natural Language [49.01851743372889]
我々は,いくつかの言語学的記述に基づく3次元点群局所化の問題に取り組む。
我々は,ポイントとテキスト間の意味的関係を完全に解釈する新しいニューラルネットワークText2Locを導入する。
Text2Locは、KITTI360Poseデータセットの最先端技術に対して最大2倍のローカライゼーション精度を向上する。
論文 参考訳(メタデータ) (2023-11-27T16:23:01Z) - CoDet: Co-Occurrence Guided Region-Word Alignment for Open-Vocabulary
Object Detection [78.0010542552784]
CoDetはオープン語彙オブジェクト検出のためのオブジェクトレベルの視覚言語表現を学習するための新しいアプローチである。
共有概念に言及するイメージをキャプションにグループ化することにより、共有概念に対応するオブジェクトは、高い共起性を示す。
CoDetは、オープン語彙検出において優れたパフォーマンスと魅力的なスケーラビリティを持っている。
論文 参考訳(メタデータ) (2023-10-25T14:31:02Z) - 3DRP-Net: 3D Relative Position-aware Network for 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドは、自由形式の言語記述によって、ターゲットオブジェクトを3Dポイントクラウドにローカライズすることを目的としている。
3次元相対位置認識ネットワーク(3-Net)という,関係性を考慮した一段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T09:33:25Z) - CAGroup3D: Class-Aware Grouping for 3D Object Detection on Point Clouds [55.44204039410225]
本稿では,CAGroup3Dという新しい2段階完全スパース3Dオブジェクト検出フレームワークを提案する。
提案手法は,まず,オブジェクト表面のボクセル上でのクラス認識型局所群戦略を活用することによって,高品質な3D提案を生成する。
不正なボクセルワイドセグメンテーションにより欠落したボクセルの特徴を回復するために,完全にスパースな畳み込み型RoIプールモジュールを構築した。
論文 参考訳(メタデータ) (2022-10-09T13:38:48Z) - Contextual Modeling for 3D Dense Captioning on Point Clouds [85.68339840274857]
3Dの高密度キャプションは、新しい視覚言語タスクとして、一組の点雲から各物体を識別し、発見することを目的としている。
我々は,GCM(Global Context Modeling)とLCM(Local Context Modeling)の2つのモジュールを粗い方法で提案する。
提案モデルでは,オブジェクト表現とコンテキスト情報を効果的に特徴付けることができる。
論文 参考訳(メタデータ) (2022-10-08T05:33:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。