Fugu-MT 論文翻訳(概要): Text2Loc: 3D Point Cloud Localization from Natural Language

論文の概要: Text2Loc: 3D Point Cloud Localization from Natural Language

arxiv url: http://arxiv.org/abs/2311.15977v1
Date: Mon, 27 Nov 2023 16:23:01 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-28 14:14:21.531968
Title: Text2Loc: 3D Point Cloud Localization from Natural Language
Title（参考訳）: Text2Loc: 自然言語からの3Dポイントクラウドローカライゼーション
Authors: Yan Xia, Letian Shi, Zifeng Ding, Jo\~ao F. Henriques, Daniel Cremers
Abstract要約: 我々は,いくつかの言語学的記述に基づく3次元点群局所化の問題に取り組む。我々は,ポイントとテキスト間の意味的関係を完全に解釈する新しいニューラルネットワークText2Locを導入する。 Text2Locは、KITTI360Poseデータセットの最先端技術に対して最大2倍のローカライゼーション精度を向上する。
参考スコア（独自算出の注目度）: 43.24318985054713
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We tackle the problem of 3D point cloud localization based on a few natural linguistic descriptions and introduce a novel neural network, Text2Loc, that fully interprets the semantic relationship between points and text. Text2Loc follows a coarse-to-fine localization pipeline: text-submap global place recognition, followed by fine localization. In global place recognition, relational dynamics among each textual hint are captured in a hierarchical transformer with max-pooling (HTM), whereas a balance between positive and negative pairs is maintained using text-submap contrastive learning. Moreover, we propose a novel matching-free fine localization method to further refine the location predictions, which completely removes the need for complicated text-instance matching and is lighter, faster, and more accurate than previous methods. Extensive experiments show that Text2Loc improves the localization accuracy by up to $2\times$ over the state-of-the-art on the KITTI360Pose dataset. We will make the code publicly available.
Abstract（参考訳）: 我々は,いくつかの自然言語記述に基づく3Dポイントクラウドローカライゼーションの問題に取り組み,ポイントとテキスト間の意味的関係を完全に解釈する新しいニューラルネットワークText2Locを導入する。 text2locは、細かなローカライズパイプラインであるtext-submap global place recognitionに続いて、細かなローカライズを行う。グローバルな位置認識では、各テキストヒント間の関係ダイナミクスを最大プーリング(HTM)付き階層変換器でキャプチャする一方、正対と負対のバランスはテキストサブマップコントラスト学習を用いて維持する。さらに,複雑なテキストインテンスマッチングの必要性を完全に排除し,従来手法よりも軽量,高速,高精度な位置予測を行うための,マッチングフリーなファインローカライズ手法を提案する。大規模な実験により、Text2LocはKITTI360Poseデータセットの最先端技術よりも、最大2\times$のローカライズ精度を向上している。私たちはそのコードを公開します。

関連論文リスト

Text2Loc++: Generalizing 3D Point Cloud Localization from Natural Language [44.7011717447999]
我々は,言語とポイントクラウド間の効果的な相互アライメントを目的とした,新しいニューラルネットワークであるText2Loc++を提案する。ベンチマークを支援するため,多様な都市シーンからカラーおよび非カラーポイント雲をカバーする新しい都市スケールデータセットを導入した。グローバルな場所認識の段階では、Text2Loc++は、事前訓練された言語モデルと階層変換器と、文レベルの意味論のためのMax pooling(HTM)を組み合わせる。微細なローカライゼーションの段階では、明示的なテキストインスタンスマッチングを完全に取り除き、軽量で強力なフレームワークを設計する。
論文参考訳（メタデータ） (2025-11-19T10:19:45Z)
NeuraLoc: Visual Localization in Neural Implicit Map with Dual Complementary Features [50.212836834889146]
本稿では,補完的な特徴を持つニューラル暗黙マップに基づく,効率的で斬新な視覚的局所化手法を提案する。具体的には、幾何学的制約を強制し、ストレージ要件を小さくするために、3Dキーポイント記述子フィールドを暗黙的に学習する。記述子の意味的あいまいさにさらに対処するために、追加の意味的文脈的特徴体を導入する。
論文参考訳（メタデータ） (2025-03-08T08:04:27Z)
CMMLoc: Advancing Text-to-PointCloud Localization with Cauchy-Mixture-Model Based Framework [16.15099680732008]
ポイントクラウドのローカライゼーションの目的は、大都市環境におけるテキスト記述を用いた3次元位置の同定である。我々は、不確実性を意識した$textbfC$auchy-$textbfM$ixture-$textbfM$odelである$textbfCMMLocを提案する。 CMMLocは既存の手法より優れており、KITTI360Poseデータセット上で最先端の結果が得られる。
論文参考訳（メタデータ） (2025-03-04T13:17:17Z)
Region Prompt Tuning: Fine-grained Scene Text Detection Utilizing Region Text Prompt [10.17947324152468]
リージョンプロンプトチューニング手法は、領域テキストプロンプトを個々の文字に分解し、視覚特徴マップを領域視覚トークンに分割する。これにより、文字はトークンの局所的な特徴と一致し、詳細な特徴やきめ細かいテキストが省略されるのを避けることができる。提案手法は,画像テキストプロセスから得られた一般的なスコアマップと,文字とトークンのマッチングから得られた領域スコアマップを組み合わせる。
論文参考訳（メタデータ） (2024-09-20T15:24:26Z)
Instance-free Text to Point Cloud Localization with Relative Position Awareness [37.22900045434484]
テキスト・ツー・ポイント・クラウドクロスモーダル・ローカライゼーションは、未来のロボットと人間のコラボレーションにとって重要な視覚言語タスクである。既存のアプローチの2つの重要な制限に対処する: 1) 地中実例への依存を入力とし、2) 潜在事例間の相対的な位置を無視する。提案モデルは,テキストセル検索のための粗いステージと位置推定のための微細なステージを含む,2段階のパイプラインに従う。
論文参考訳（メタデータ） (2024-04-27T09:46:49Z)
Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文参考訳（メタデータ） (2024-02-27T01:57:09Z)
TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。 TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文参考訳（メタデータ） (2023-06-06T03:37:41Z)
Text to Point Cloud Localization with Relation-Enhanced Transformer [14.635206837740231]
テキスト・ツー・ポイント・クラウドのクロスモーダルなローカライゼーション問題に焦点をあてる。都市スケールの点雲から記述された場所を特定することを目的としている。本稿では,表現の識別性を改善するために,RET(Relation-Enhanced Transformer)を提案する。
論文参考訳（メタデータ） (2023-01-13T02:58:49Z)
Text2Pos: Text-to-Point-Cloud Cross-Modal Localization [12.984256838490795]
モーダルなテキスト・ツー・ポイント・クラウドのローカライゼーションにより、車両のピックアップや配送の場所を指定できます。本研究では,テキスト記述と局所化キューを粗い方法で整列する手法を学習するマルチモーダルなローカライゼーションモジュールであるText2Posを提案する。実験の結果,テキストクエリの65%を15m以内でローカライズできることがわかった。
論文参考訳（メタデータ） (2022-03-28T22:06:00Z)
SwinTextSpotter: Scene Text Spotting via Better Synergy between Text Detection and Text Recognition [73.61592015908353]
本稿では,SwinTextSpotter と呼ばれるシーンテキストスポッティングフレームワークを提案する。動的頭部を検出器とするトランスを用いて、2つのタスクを新しい認識変換機構で統一する。この設計は、追加の修正モジュールも文字レベルのアノテーションも必要としない簡潔なフレームワークをもたらす。
論文参考訳（メタデータ） (2022-03-19T01:14:42Z)
SSC: Semantic Scan Context for Large-Scale Place Recognition [13.228580954956342]
我々は、記述子の表現能力を向上させるために、高レベルの機能、すなわち意味論の利用について検討する。本稿では,シーンをより効果的に表現するための意味情報を探る,新しいグローバルな記述子Semantic Scan Contextを提案する。我々の手法は最先端の手法よりも大きなマージンで優れている。
論文参考訳（メタデータ） (2021-07-01T11:51:19Z)
T2VLAD: Global-Local Sequence Alignment for Text-Video Retrieval [59.990432265734384]
テキストビデオ検索は,自然言語記述に基づく関連映像の検索を目的とした課題である。既存のほとんどのメソッドは、グローバルなクロスモーダル類似性のみを考慮し、ローカルの詳細を見下ろす。本稿では,効率的なグローバルアライメント手法を設計する。 3つの標準テキスト-ビデオ検索ベンチマークで一貫した改善を達成し、明確なマージンで最先端を上回ります。
論文参考訳（メタデータ） (2021-04-20T15:26:24Z)
Text Recognition -- Real World Data and Where to Find Them [36.10220484561196]
本稿では,弱い注釈付き画像を利用してテキスト抽出パイプラインを改善する手法を提案する。このアプローチでは、任意のエンドツーエンドのテキスト認識システムを使用して、テキスト領域の提案と、おそらく誤った書き起こしを取得する。シーンテキストのほとんどエラーのないローカライズされたインスタンスを生成し、これが"擬似基底真理"(PGT)として扱う。
論文参考訳（メタデータ） (2020-07-06T22:23:27Z)
ContourNet: Taking a Further Step toward Accurate Arbitrary-shaped Scene Text Detection [147.10751375922035]
本研究では,シーンテキストの偽陽性と大規模分散を効果的に処理するContourNetを提案する。本手法は,両方向の応答値の高い予測を出力するだけで,これらの偽陽性を効果的に抑制する。
論文参考訳（メタデータ） (2020-04-10T08:15:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。