論文の概要: Text2Loc: 3D Point Cloud Localization from Natural Language
- arxiv url: http://arxiv.org/abs/2311.15977v2
- Date: Thu, 28 Mar 2024 09:31:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 21:22:07.753029
- Title: Text2Loc: 3D Point Cloud Localization from Natural Language
- Title(参考訳): Text2Loc: 自然言語からの3Dポイントクラウドローカライゼーション
- Authors: Yan Xia, Letian Shi, Zifeng Ding, João F. Henriques, Daniel Cremers,
- Abstract要約: 我々は,いくつかの言語学的記述に基づく3次元点群局所化の問題に取り組む。
我々は,ポイントとテキスト間の意味的関係を完全に解釈する新しいニューラルネットワークText2Locを導入する。
Text2Locは、KITTI360Poseデータセットの最先端技術に対して最大2倍のローカライゼーション精度を向上する。
- 参考スコア(独自算出の注目度): 49.01851743372889
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We tackle the problem of 3D point cloud localization based on a few natural linguistic descriptions and introduce a novel neural network, Text2Loc, that fully interprets the semantic relationship between points and text. Text2Loc follows a coarse-to-fine localization pipeline: text-submap global place recognition, followed by fine localization. In global place recognition, relational dynamics among each textual hint are captured in a hierarchical transformer with max-pooling (HTM), whereas a balance between positive and negative pairs is maintained using text-submap contrastive learning. Moreover, we propose a novel matching-free fine localization method to further refine the location predictions, which completely removes the need for complicated text-instance matching and is lighter, faster, and more accurate than previous methods. Extensive experiments show that Text2Loc improves the localization accuracy by up to $2\times$ over the state-of-the-art on the KITTI360Pose dataset. Our project page is publicly available at \url{https://yan-xia.github.io/projects/text2loc/}.
- Abstract(参考訳): 我々は,いくつかの自然言語記述に基づく3Dポイントクラウドローカライゼーションの問題に取り組み,ポイントとテキスト間の意味的関係を完全に解釈する新しいニューラルネットワークであるText2Locを導入する。
Text2Locは、粗大なローカライゼーションパイプラインに従っている。
グローバルな位置認識では、各テキストヒント間の関係ダイナミクスを最大プーリング(HTM)付き階層変換器でキャプチャする一方、正対と負対のバランスはテキストサブマップコントラスト学習を用いて維持する。
さらに,より複雑なテキストインスタンスマッチングの必要性を完全に排除し,従来手法よりも軽量で高速かつ高精度な位置推定法を提案する。
大規模な実験により、Text2LocはKITTI360Poseデータセットの最先端技術よりも、最大2\times$のローカライズ精度を向上している。
私たちのプロジェクトページは、 \url{https://yan-xia.github.io/projects/text2loc/}で公開されています。
関連論文リスト
- Region Prompt Tuning: Fine-grained Scene Text Detection Utilizing Region Text Prompt [10.17947324152468]
リージョンプロンプトチューニング手法は、領域テキストプロンプトを個々の文字に分解し、視覚特徴マップを領域視覚トークンに分割する。
これにより、文字はトークンの局所的な特徴と一致し、詳細な特徴やきめ細かいテキストが省略されるのを避けることができる。
提案手法は,画像テキストプロセスから得られた一般的なスコアマップと,文字とトークンのマッチングから得られた領域スコアマップを組み合わせる。
論文 参考訳(メタデータ) (2024-09-20T15:24:26Z) - Instance-free Text to Point Cloud Localization with Relative Position Awareness [37.22900045434484]
テキスト・ツー・ポイント・クラウド クロスモーダル・ローカライゼーションは、未来のロボットと人間のコラボレーションにとって重要な視覚言語タスクである。
既存のアプローチの2つの重要な制限に対処する: 1) 地中実例への依存を入力とし、2) 潜在事例間の相対的な位置を無視する。
提案モデルは,テキストセル検索のための粗いステージと位置推定のための微細なステージを含む,2段階のパイプラインに従う。
論文 参考訳(メタデータ) (2024-04-27T09:46:49Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Text to Point Cloud Localization with Relation-Enhanced Transformer [14.635206837740231]
テキスト・ツー・ポイント・クラウドのクロスモーダルなローカライゼーション問題に焦点をあてる。
都市スケールの点雲から記述された場所を特定することを目的としている。
本稿では,表現の識別性を改善するために,RET(Relation-Enhanced Transformer)を提案する。
論文 参考訳(メタデータ) (2023-01-13T02:58:49Z) - Text2Pos: Text-to-Point-Cloud Cross-Modal Localization [12.984256838490795]
モーダルなテキスト・ツー・ポイント・クラウドのローカライゼーションにより、車両のピックアップや配送の場所を指定できます。
本研究では,テキスト記述と局所化キューを粗い方法で整列する手法を学習するマルチモーダルなローカライゼーションモジュールであるText2Posを提案する。
実験の結果,テキストクエリの65%を15m以内でローカライズできることがわかった。
論文 参考訳(メタデータ) (2022-03-28T22:06:00Z) - SwinTextSpotter: Scene Text Spotting via Better Synergy between Text
Detection and Text Recognition [73.61592015908353]
本稿では,SwinTextSpotter と呼ばれるシーンテキストスポッティングフレームワークを提案する。
動的頭部を検出器とするトランスを用いて、2つのタスクを新しい認識変換機構で統一する。
この設計は、追加の修正モジュールも文字レベルのアノテーションも必要としない簡潔なフレームワークをもたらす。
論文 参考訳(メタデータ) (2022-03-19T01:14:42Z) - SSC: Semantic Scan Context for Large-Scale Place Recognition [13.228580954956342]
我々は、記述子の表現能力を向上させるために、高レベルの機能、すなわち意味論の利用について検討する。
本稿では,シーンをより効果的に表現するための意味情報を探る,新しいグローバルな記述子Semantic Scan Contextを提案する。
我々の手法は最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2021-07-01T11:51:19Z) - T2VLAD: Global-Local Sequence Alignment for Text-Video Retrieval [59.990432265734384]
テキストビデオ検索は,自然言語記述に基づく関連映像の検索を目的とした課題である。
既存のほとんどのメソッドは、グローバルなクロスモーダル類似性のみを考慮し、ローカルの詳細を見下ろす。
本稿では,効率的なグローバルアライメント手法を設計する。
3つの標準テキスト-ビデオ検索ベンチマークで一貫した改善を達成し、明確なマージンで最先端を上回ります。
論文 参考訳(メタデータ) (2021-04-20T15:26:24Z) - ContourNet: Taking a Further Step toward Accurate Arbitrary-shaped Scene
Text Detection [147.10751375922035]
本研究では,シーンテキストの偽陽性と大規模分散を効果的に処理するContourNetを提案する。
本手法は,両方向の応答値の高い予測を出力するだけで,これらの偽陽性を効果的に抑制する。
論文 参考訳(メタデータ) (2020-04-10T08:15:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。