論文の概要: Bridging Text and Vision: A Multi-View Text-Vision Registration Approach for Cross-Modal Place Recognition
- arxiv url: http://arxiv.org/abs/2502.14195v1
- Date: Thu, 20 Feb 2025 02:00:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:27:31.790208
- Title: Bridging Text and Vision: A Multi-View Text-Vision Registration Approach for Cross-Modal Place Recognition
- Title(参考訳): ブリッジングテキストとビジョン:多視点テキストビジョンレジストレーションアプローチによるクロスモーダル位置認識
- Authors: Tianyi Shang, Zhenyu Li, Pengjie Xu, Jinwei Qiao, Gang Chen, Zihan Ruan, Weijun Hu,
- Abstract要約: 位置認識タスクのためのテキストビジョン登録手法であるText4VPRを提案する。
Text4VPRは、画像のデータベースにマッチするテキスト記述のみを利用する。
私たちが作成したVPRデータセットをイメージする最初のテキストであるStreet360Locでは、Text4VPRが堅牢なベースラインを構築し、トップ1の精度が57%、トップ10の精度がテストセットの半径5m以内で92%に達した。
- 参考スコア(独自算出の注目度): 4.562684361220731
- License:
- Abstract: Mobile robots necessitate advanced natural language understanding capabilities to accurately identify locations and perform tasks such as package delivery. However, traditional visual place recognition (VPR) methods rely solely on single-view visual information and cannot interpret human language descriptions. To overcome this challenge, we bridge text and vision by proposing a multiview (360{\deg} views of the surroundings) text-vision registration approach called Text4VPR for place recognition task, which is the first method that exclusively utilizes textual descriptions to match a database of images. Text4VPR employs the frozen T5 language model to extract global textual embeddings. Additionally, it utilizes the Sinkhorn algorithm with temperature coefficient to assign local tokens to their respective clusters, thereby aggregating visual descriptors from images. During the training stage, Text4VPR emphasizes the alignment between individual text-image pairs for precise textual description. In the inference stage, Text4VPR uses the Cascaded Cross-Attention Cosine Alignment (CCCA) to address the internal mismatch between text and image groups. Subsequently, Text4VPR performs precisely place match based on the descriptions of text-image groups. On Street360Loc, the first text to image VPR dataset we created, Text4VPR builds a robust baseline, achieving a leading top-1 accuracy of 57% and a leading top-10 accuracy of 92% within a 5-meter radius on the test set, which indicates that localization from textual descriptions to images is not only feasible but also holds significant potential for further advancement, as shown in Figure 1.
- Abstract(参考訳): 移動ロボットは、位置を正確に識別し、パッケージ配信などのタスクを実行するために、高度な自然言語理解能力を必要とする。
しかしながら、従来の視覚的位置認識(VPR)手法は、単一視点の視覚情報のみに依存しており、人間の言語記述を解釈することはできない。
この課題を克服するために、位置認識タスクにText4VPRと呼ばれるマルチビュー(360{\deg}ビュー)のテキストビジョン登録アプローチを提案することで、テキストとビジョンを橋渡しする。
Text4VPRは、グローバルなテキスト埋め込みを抽出するために、凍結したT5言語モデルを使用している。
さらに、Sinkhornアルゴリズムと温度係数を用いて各クラスタに局所トークンを割り当て、画像から視覚ディスクリプタを集約する。
トレーニング段階では、Text4VPRは個々のテキストイメージペア間のアライメントを強調して、正確なテキスト記述を行う。
推論段階では、Text4VPRはCascaded Cross-Attention Cosine Alignment (CCCA)を使用してテキストと画像グループの内部ミスマッチに対処する。
その後、Text4VPRはテキスト画像群の記述に基づいて正確な位置マッチングを行う。
私たちが作成したVPRデータセットをイメージする最初のテキストであるStreet360Locでは、Text4VPRが堅牢なベースラインを構築し、テストセット上でトップ1の精度を57%、トップ10の精度を92%向上させた。
関連論文リスト
- SceneVTG++: Controllable Multilingual Visual Text Generation in the Wild [55.619708995575785]
自然景観画像のテキストは、以下の4つの重要な基準を満たす必要がある。
生成されたテキストは、自然なシーンOCR(Optical Character Recognition)タスクのトレーニングを容易にする。
生成された画像は、テキスト検出やテキスト認識といったOCRタスクにおいて優れている。
論文 参考訳(メタデータ) (2025-01-06T12:09:08Z) - See then Tell: Enhancing Key Information Extraction with Vision Grounding [54.061203106565706]
STNet(See then Tell Net)は,視覚基盤の正確な答えを提供するために設計された,新しいエンドツーエンドモデルである。
モデルの可視性を高めるため、広範囲に構造化されたテーブル認識データセットを収集する。
論文 参考訳(メタデータ) (2024-09-29T06:21:05Z) - Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval [12.057465578064345]
テキスト・ツー・イメージ・パーソナリティ検索(TIPR)の目的は、与えられたテキスト記述に従って特定の人物画像を取得することである。
本稿では,人物画像と対応するテキスト間のきめ細かいインタラクションとアライメントを構築するための新しいTIPRフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-18T08:23:46Z) - Text-based Person Search without Parallel Image-Text Data [52.63433741872629]
テキストベースの人物探索(TBPS)は,対象者の画像を与えられた自然言語記述に基づいて大きな画像ギャラリーから検索することを目的としている。
既存の手法は、並列画像テキストペアによるトレーニングモデルによって支配されており、収集には非常にコストがかかる。
本稿では,並列画像テキストデータなしでTBPSを探索する試みについて述べる。
論文 参考訳(メタデータ) (2023-05-22T12:13:08Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - TAP: Text-Aware Pre-training for Text-VQA and Text-Caption [75.44716665758415]
テキストVQAとテキストキャプションタスクのためのテキスト認識事前学習(TAP)を提案する。
TAPは、事前トレーニングにシーンテキスト(OCRエンジンから生成される)を明示的に組み込む。
我々のアプローチは、複数のタスクで大きな利幅で芸術の状態を上回っている。
論文 参考訳(メタデータ) (2020-12-08T18:55:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。