論文の概要: Text2Loc: 3D Point Cloud Localization from Natural Language
- arxiv url: http://arxiv.org/abs/2311.15977v1
- Date: Mon, 27 Nov 2023 16:23:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 14:14:21.531968
- Title: Text2Loc: 3D Point Cloud Localization from Natural Language
- Title(参考訳): Text2Loc: 自然言語からの3Dポイントクラウドローカライゼーション
- Authors: Yan Xia, Letian Shi, Zifeng Ding, Jo\~ao F. Henriques, Daniel Cremers
- Abstract要約: 我々は,いくつかの言語学的記述に基づく3次元点群局所化の問題に取り組む。
我々は,ポイントとテキスト間の意味的関係を完全に解釈する新しいニューラルネットワークText2Locを導入する。
Text2Locは、KITTI360Poseデータセットの最先端技術に対して最大2倍のローカライゼーション精度を向上する。
- 参考スコア(独自算出の注目度): 43.24318985054713
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We tackle the problem of 3D point cloud localization based on a few natural
linguistic descriptions and introduce a novel neural network, Text2Loc, that
fully interprets the semantic relationship between points and text. Text2Loc
follows a coarse-to-fine localization pipeline: text-submap global place
recognition, followed by fine localization. In global place recognition,
relational dynamics among each textual hint are captured in a hierarchical
transformer with max-pooling (HTM), whereas a balance between positive and
negative pairs is maintained using text-submap contrastive learning. Moreover,
we propose a novel matching-free fine localization method to further refine the
location predictions, which completely removes the need for complicated
text-instance matching and is lighter, faster, and more accurate than previous
methods. Extensive experiments show that Text2Loc improves the localization
accuracy by up to $2\times$ over the state-of-the-art on the KITTI360Pose
dataset. We will make the code publicly available.
- Abstract(参考訳): 我々は,いくつかの自然言語記述に基づく3Dポイントクラウドローカライゼーションの問題に取り組み,ポイントとテキスト間の意味的関係を完全に解釈する新しいニューラルネットワークText2Locを導入する。
text2locは、細かなローカライズパイプラインであるtext-submap global place recognitionに続いて、細かなローカライズを行う。
グローバルな位置認識では、各テキストヒント間の関係ダイナミクスを最大プーリング(HTM)付き階層変換器でキャプチャする一方、正対と負対のバランスはテキストサブマップコントラスト学習を用いて維持する。
さらに,複雑なテキストインテンスマッチングの必要性を完全に排除し,従来手法よりも軽量,高速,高精度な位置予測を行うための,マッチングフリーなファインローカライズ手法を提案する。
大規模な実験により、Text2LocはKITTI360Poseデータセットの最先端技術よりも、最大2\times$のローカライズ精度を向上している。
私たちはそのコードを公開します。
関連論文リスト
- Coupled Laplacian Eigenmaps for Locally-Aware 3D Rigid Point Cloud
Matching [0.0]
ポイントクラウドマッチングは、コンピュータビジョン、医療、ロボット分野において重要な技術である。
局所構造を考慮したグラフラプラシアン固有写像に基づく新しい手法を提案する。
これらの高次元空間間の類似性は、形状に一致するような局所的な意味のあるスコアを与えることを示す。
論文 参考訳(メタデータ) (2024-02-27T10:10:12Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [72.79006668848186]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Text to Point Cloud Localization with Relation-Enhanced Transformer [14.635206837740231]
テキスト・ツー・ポイント・クラウドのクロスモーダルなローカライゼーション問題に焦点をあてる。
都市スケールの点雲から記述された場所を特定することを目的としている。
本稿では,表現の識別性を改善するために,RET(Relation-Enhanced Transformer)を提案する。
論文 参考訳(メタデータ) (2023-01-13T02:58:49Z) - SwinTextSpotter: Scene Text Spotting via Better Synergy between Text
Detection and Text Recognition [73.61592015908353]
本稿では,SwinTextSpotter と呼ばれるシーンテキストスポッティングフレームワークを提案する。
動的頭部を検出器とするトランスを用いて、2つのタスクを新しい認識変換機構で統一する。
この設計は、追加の修正モジュールも文字レベルのアノテーションも必要としない簡潔なフレームワークをもたらす。
論文 参考訳(メタデータ) (2022-03-19T01:14:42Z) - SSC: Semantic Scan Context for Large-Scale Place Recognition [13.228580954956342]
我々は、記述子の表現能力を向上させるために、高レベルの機能、すなわち意味論の利用について検討する。
本稿では,シーンをより効果的に表現するための意味情報を探る,新しいグローバルな記述子Semantic Scan Contextを提案する。
我々の手法は最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2021-07-01T11:51:19Z) - T2VLAD: Global-Local Sequence Alignment for Text-Video Retrieval [59.990432265734384]
テキストビデオ検索は,自然言語記述に基づく関連映像の検索を目的とした課題である。
既存のほとんどのメソッドは、グローバルなクロスモーダル類似性のみを考慮し、ローカルの詳細を見下ろす。
本稿では,効率的なグローバルアライメント手法を設計する。
3つの標準テキスト-ビデオ検索ベンチマークで一貫した改善を達成し、明確なマージンで最先端を上回ります。
論文 参考訳(メタデータ) (2021-04-20T15:26:24Z) - PGNet: Real-time Arbitrarily-Shaped Text Spotting with Point Gathering
Network [54.03560668182197]
任意形状のテキストをリアルタイムで読み取るための,完全畳み込み点収集ネットワーク(PGNet)を提案する。
PG-CTCデコーダを用いて2次元空間から高レベル文字分類ベクトルを収集し,NMSやRoI操作を使わずにテキストシンボルに復号する。
実験により,提案手法は競争精度が向上し,走行速度が著しく向上することが確認された。
論文 参考訳(メタデータ) (2021-04-12T13:27:34Z) - Text Recognition -- Real World Data and Where to Find Them [36.10220484561196]
本稿では,弱い注釈付き画像を利用してテキスト抽出パイプラインを改善する手法を提案する。
このアプローチでは、任意のエンドツーエンドのテキスト認識システムを使用して、テキスト領域の提案と、おそらく誤った書き起こしを取得する。
シーンテキストのほとんどエラーのないローカライズされたインスタンスを生成し、これが"擬似基底真理"(PGT)として扱う。
論文 参考訳(メタデータ) (2020-07-06T22:23:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。