論文の概要: TextInPlace: Indoor Visual Place Recognition in Repetitive Structures with Scene Text Spotting and Verification
- arxiv url: http://arxiv.org/abs/2503.06501v1
- Date: Sun, 09 Mar 2025 08:03:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:46:13.752855
- Title: TextInPlace: Indoor Visual Place Recognition in Repetitive Structures with Scene Text Spotting and Verification
- Title(参考訳): TextInPlace: シーンテキストスポッティングと検証による反復構造における屋内視覚的位置認識
- Authors: Huaqi Tao, Bingxi Liu, Calvin Chen, Tingjun Huang, He Li, Jinqiang Cui, Hong Zhang,
- Abstract要約: TextInPlaceは、Scene Text Spotting(STS)を統合して、反復的な屋内環境における視覚的知覚のあいまいさを軽減するフレームワークである。
現在のテキストベースの反復屋内シーンデータセットと、ロボットナビゲーションで遭遇する典型的なシナリオとのギャップを埋めるため、屋内ビジュアルプレイス認識ベンチマークデータセットを構築した。
- 参考スコア(独自算出の注目度): 6.113831719528347
- License:
- Abstract: Visual Place Recognition (VPR) is a crucial capability for long-term autonomous robots, enabling them to identify previously visited locations using visual information. However, existing methods remain limited in indoor settings due to the highly repetitive structures inherent in such environments. We observe that scene text typically appears in indoor spaces, serving to distinguish visually similar but different places. This inspires us to propose TextInPlace, a simple yet effective VPR framework that integrates Scene Text Spotting (STS) to mitigate visual perceptual ambiguity in repetitive indoor environments. Specifically, TextInPlace adopts a dual-branch architecture within a local parameter sharing network. The VPR branch employs attention-based aggregation to extract global descriptors for coarse-grained retrieval, while the STS branch utilizes a bridging text spotter to detect and recognize scene text. Finally, the discriminative text is filtered to compute text similarity and re-rank the top-K retrieved images. To bridge the gap between current text-based repetitive indoor scene datasets and the typical scenarios encountered in robot navigation, we establish an indoor VPR benchmark dataset, called Maze-with-Text. Extensive experiments on both custom and public datasets demonstrate that TextInPlace achieves superior performance over existing methods that rely solely on appearance information. The dataset, code, and trained models are publicly available at https://github.com/HqiTao/TextInPlace.
- Abstract(参考訳): 視覚的位置認識(VPR)は、長期の自律ロボットにとって重要な機能であり、視覚情報を用いて以前に訪れた場所を識別することができる。
しかし、そのような環境に固有の非常に反復的な構造のため、既存の手法は屋内環境では限られている。
シーンテキストは一般的に屋内空間に現れ、視覚的に類似しているが異なる場所を区別するのに役立ちます。
これは、Scene Text Spotting(STS)を統合して、反復的な屋内環境における視覚的知覚のあいまいさを軽減する、シンプルだが効果的なVPRフレームワークであるTextInPlaceを提案するきっかけとなった。
具体的には、TextInPlaceはローカルパラメータ共有ネットワーク内でデュアルブランチアーキテクチャを採用する。
VPRブランチは、注目に基づくアグリゲーションを使用して、粗粒度検索のためのグローバルな記述子を抽出し、STSブランチは、ブリッジングテキストスポッターを使用してシーンテキストを検出し、認識する。
最後に、識別テキストをフィルタリングしてテキスト類似性を計算し、トップK検索画像を再ランクする。
現在のテキストベースの反復屋内シーンデータセットとロボットナビゲーションで遭遇する典型的なシナリオとのギャップを埋めるため、Maze-with-Textと呼ばれる屋内VPRベンチマークデータセットを構築した。
カスタムデータセットとパブリックデータセットの両方に関する大規模な実験は、TextInPlaceが外観情報のみに依存する既存のメソッドよりも優れたパフォーマンスを実現していることを示している。
データセット、コード、トレーニングされたモデルはhttps://github.com/HqiTao/TextInPlace.comで公開されている。
関連論文リスト
- Arbitrary Reading Order Scene Text Spotter with Local Semantics Guidance [6.93632116687419]
局所的な意味知識は、テキストの内容だけでなく、正しい読み順の空間情報も含んでいる。
本研究では,ローカルセマンティックスガイドのシーンテキストスポッター(LSGSpotter)を提案する。
LSGSpotterは、洗練された検出の制限なしに任意の読み順スポッティングタスクを達成する。
論文 参考訳(メタデータ) (2024-12-13T14:20:43Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - Harnessing the Power of Multi-Lingual Datasets for Pre-training: Towards
Enhancing Text Spotting Performance [15.513912470752041]
様々な領域への適応能力は、実環境にデプロイする際のシーンテキストスポッティングモデルに不可欠である。
本稿では,ドメイン適応型シーンテキストスポッティングの問題,すなわちマルチドメインソースデータを用いたモデルトレーニングについて検討する。
その結果,複数の領域にまたがるテキストスポッティングベンチマークにおいて,中間表現が有意な性能を発揮する可能性が明らかとなった。
論文 参考訳(メタデータ) (2023-10-02T06:08:01Z) - Diving into the Depths of Spotting Text in Multi-Domain Noisy Scenes [11.478236584340255]
雑音の多い水中のシーンに対して,UWT (Under-Water Text) と呼ばれるテキストスポッティング検証ベンチマークを提案する。
また,DA-TextSpotterと呼ばれる,高効率な超解像ベースのエンドツーエンド変換器ベースラインを設計する。
データセット、コード、事前トレーニングされたモデルは、受け入れ次第リリースされる。
論文 参考訳(メタデータ) (2023-10-01T03:27:41Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - DPText-DETR: Towards Better Scene Text Detection with Dynamic Points in
Transformer [94.35116535588332]
ポリゴン点やベジエ曲線制御点を予測してテキストをローカライズするトランスフォーマーベースの手法は、シーンテキストの検出で非常に人気がある。
しかし、使用点ラベル形式は、トランスフォーマーモデルの堅牢性に影響を与える人間の読み順を意味する。
本稿では,DPText-DETRを提案する。これはクエリとしてポイント座標を直接使用し,デコーダ層間で動的に更新する。
論文 参考訳(メタデータ) (2022-07-10T15:45:16Z) - Text Detection & Recognition in the Wild for Robot Localization [1.52292571922932]
テキスト文字列とバウンディングボックスを同時に出力するエンド・ツー・エンドシーンテキストスポッティングモデルを提案する。
我々の中心的な貢献は、不規則かつ隠蔽されたテキスト領域を適切にキャプチャするために、エンドツーエンドのテキストスポッティングフレームワークを利用することである。
論文 参考訳(メタデータ) (2022-05-17T18:16:34Z) - Towards End-to-End Unified Scene Text Detection and Layout Analysis [60.68100769639923]
本稿では,シーンテキストの検出とレイアウト解析を統合化するタスクについて紹介する。
この新たな研究課題を実現するために、最初の階層的なシーンテキストデータセットが導入された。
また,シーンテキストを同時に検出し,テキストクラスタを統一的に形成する手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T23:35:45Z) - SwinTextSpotter: Scene Text Spotting via Better Synergy between Text
Detection and Text Recognition [73.61592015908353]
本稿では,SwinTextSpotter と呼ばれるシーンテキストスポッティングフレームワークを提案する。
動的頭部を検出器とするトランスを用いて、2つのタスクを新しい認識変換機構で統一する。
この設計は、追加の修正モジュールも文字レベルのアノテーションも必要としない簡潔なフレームワークをもたらす。
論文 参考訳(メタデータ) (2022-03-19T01:14:42Z) - Scene Text Retrieval via Joint Text Detection and Similarity Learning [68.24531728554892]
シーンテキスト検索は、与えられたクエリテキストと同じまたは類似している画像ギャラリーからすべてのテキストインスタンスをローカライズし、検索することを目的としています。
自然画像からクエリテキストと各テキストインスタンスのクロスモーダルな類似性を直接学習することでこの問題に対処します。
このように、検出されたテキストインスタンスを学習された類似度でランク付けすることで、シーンテキスト検索を簡単に実行できます。
論文 参考訳(メタデータ) (2021-04-04T07:18:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。