論文の概要: Text2Loc++: Generalizing 3D Point Cloud Localization from Natural Language
- arxiv url: http://arxiv.org/abs/2511.15308v1
- Date: Wed, 19 Nov 2025 10:19:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.752233
- Title: Text2Loc++: Generalizing 3D Point Cloud Localization from Natural Language
- Title(参考訳): Text2Loc++: 自然言語からの3Dポイントクラウドローカライゼーションの一般化
- Authors: Yan Xia, Letian Shi, Yilin Di, Joao F. Henriques, Daniel Cremers,
- Abstract要約: 我々は,言語とポイントクラウド間の効果的な相互アライメントを目的とした,新しいニューラルネットワークであるText2Loc++を提案する。
ベンチマークを支援するため,多様な都市シーンからカラーおよび非カラーポイント雲をカバーする新しい都市スケールデータセットを導入した。
グローバルな場所認識の段階では、Text2Loc++は、事前訓練された言語モデルと階層変換器と、文レベルの意味論のためのMax pooling(HTM)を組み合わせる。
微細なローカライゼーションの段階では、明示的なテキストインスタンスマッチングを完全に取り除き、軽量で強力なフレームワークを設計する。
- 参考スコア(独自算出の注目度): 44.7011717447999
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We tackle the problem of localizing 3D point cloud submaps using complex and diverse natural language descriptions, and present Text2Loc++, a novel neural network designed for effective cross-modal alignment between language and point clouds in a coarse-to-fine localization pipeline. To support benchmarking, we introduce a new city-scale dataset covering both color and non-color point clouds from diverse urban scenes, and organize location descriptions into three levels of linguistic complexity. In the global place recognition stage, Text2Loc++ combines a pretrained language model with a Hierarchical Transformer with Max pooling (HTM) for sentence-level semantics, and employs an attention-based point cloud encoder for spatial understanding. We further propose Masked Instance Training (MIT) to filter out non-aligned objects and improve multimodal robustness. To enhance the embedding space, we introduce Modality-aware Hierarchical Contrastive Learning (MHCL), incorporating cross-modal, submap-, text-, and instance-level losses. In the fine localization stage, we completely remove explicit text-instance matching and design a lightweight yet powerful framework based on Prototype-based Map Cloning (PMC) and a Cascaded Cross-Attention Transformer (CCAT). Extensive experiments on the KITTI360Pose dataset show that Text2Loc++ outperforms existing methods by up to 15%. In addition, the proposed model exhibits robust generalization when evaluated on the new dataset, effectively handling complex linguistic expressions and a wide variety of urban environments. The code and dataset will be made publicly available.
- Abstract(参考訳): 複雑で多様な自然言語記述を用いた3Dポイントクラウドサブマップのローカライズ問題に対処し、粗大なローカライズパイプラインにおいて、言語とポイントクラウド間の効果的なクロスモーダルアライメントを設計した新しいニューラルネットワークText2Loc++を提案する。
ベンチマークを支援するため,多様な都市シーンから色と非色の両方の点群をカバーする新しい都市スケールデータセットを導入し,位置記述を3段階の言語的複雑さに分類した。
グローバルな場所認識の段階では、Text2Loc++は、事前訓練された言語モデルと階層変換器と、文レベルのセマンティクスのためのマックスプーリング(HTM)を組み合わせ、空間的理解のために注意ベースのポイントクラウドエンコーダを使用する。
さらに、非整合オブジェクトをフィルタリングし、マルチモーダルロバスト性を改善するために、Masked Instance Training (MIT)を提案する。
組込み空間を強化するため,モダリティを考慮した階層型コントラスト学習(MHCL)を導入し,クロスモーダル,サブマップ,テキスト,インスタンスレベルの損失を取り入れた。
詳細なローカライゼーションの段階では、明示的なテキストインスタンスマッチングを完全に削除し、プロトタイプベースのMap Cloning(PMC)とCascaded Cross-Attention Transformer(CCAT)に基づく軽量で強力なフレームワークを設計する。
KITTI360Poseデータセットの大規模な実験によると、Text2Loc++は既存のメソッドを最大15%上回っている。
さらに, 提案モデルでは, 複雑な言語表現と多様な都市環境を効果的に扱うことにより, 新たなデータセットで評価した場合のロバストな一般化を示す。
コードとデータセットは一般公開される予定だ。
関連論文リスト
- Affogato: Learning Open-Vocabulary Affordance Grounding with Automated Data Generation at Scale [41.693908591580175]
我々は、事前学習された部分認識型ビジョンバックボーンとテキスト条件のヒートマップデコーダを利用するビジョン言語モデルを開発した。
我々のモデルは既存の2Dおよび3Dベンチマークにおいて有望な性能を達成し、特にオープン語彙のクロスドメイン一般化において有効であることを示す。
論文 参考訳(メタデータ) (2025-06-13T17:57:18Z) - Instance-free Text to Point Cloud Localization with Relative Position Awareness [37.22900045434484]
テキスト・ツー・ポイント・クラウド クロスモーダル・ローカライゼーションは、未来のロボットと人間のコラボレーションにとって重要な視覚言語タスクである。
既存のアプローチの2つの重要な制限に対処する: 1) 地中実例への依存を入力とし、2) 潜在事例間の相対的な位置を無視する。
提案モデルは,テキストセル検索のための粗いステージと位置推定のための微細なステージを含む,2段階のパイプラインに従う。
論文 参考訳(メタデータ) (2024-04-27T09:46:49Z) - Text2Loc: 3D Point Cloud Localization from Natural Language [49.01851743372889]
我々は,いくつかの言語学的記述に基づく3次元点群局所化の問題に取り組む。
我々は,ポイントとテキスト間の意味的関係を完全に解釈する新しいニューラルネットワークText2Locを導入する。
Text2Locは、KITTI360Poseデータセットの最先端技術に対して最大2倍のローカライゼーション精度を向上する。
論文 参考訳(メタデータ) (2023-11-27T16:23:01Z) - PointLLM: Empowering Large Language Models to Understand Point Clouds [63.39876878899682]
PointLLMは人間の指示で色のついたオブジェクトポイントクラウドを理解する。
文脈的に適切な応答を生成し、点雲と常識の把握を図示する。
論文 参考訳(メタデータ) (2023-08-31T17:59:46Z) - LCPFormer: Towards Effective 3D Point Cloud Analysis via Local Context
Propagation in Transformers [60.51925353387151]
本稿では,近隣地域間のメッセージパッシングを活用するために,LCP (Local Context Propagation) という新しいモジュールを提案する。
隣接するローカル領域の重複点を仲介として使用した後、異なるローカルリージョンからの共有ポイントの特徴を再重み付けし、その後、次のレイヤに渡す。
提案手法は, 異なるタスクに適用可能であり, 3次元形状分類や高密度予測タスクを含むベンチマークにおいて, 様々なトランスフォーマーベースの手法より優れる。
論文 参考訳(メタデータ) (2022-10-23T15:43:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。