論文の概要: Partial Scene Text Retrieval
- arxiv url: http://arxiv.org/abs/2411.10261v2
- Date: Mon, 18 Nov 2024 14:43:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:33:39.586071
- Title: Partial Scene Text Retrieval
- Title(参考訳): 部分的テキスト検索
- Authors: Hao Wang, Minghui Liao, Zhouyi Xie, Wenyu Liu, Xiang Bai,
- Abstract要約: 部分的なシーンテキスト検索のタスクは、画像ギャラリーから与えられたクエリテキストと同一または類似のテキストインスタンスをローカライズして検索することである。
既存のメソッドはテキストラインインスタンスのみを扱うことができ、部分パッチの検索は未解決のままである。
テキストラインインスタンスと部分パッチの両方を同時に検索できるネットワークを提案する。
- 参考スコア(独自算出の注目度): 56.14891109413448
- License:
- Abstract: The task of partial scene text retrieval involves localizing and searching for text instances that are the same or similar to a given query text from an image gallery. However, existing methods can only handle text-line instances, leaving the problem of searching for partial patches within these text-line instances unsolved due to a lack of patch annotations in the training data. To address this issue, we propose a network that can simultaneously retrieve both text-line instances and their partial patches. Our method embeds the two types of data (query text and scene text instances) into a shared feature space and measures their cross-modal similarities. To handle partial patches, our proposed approach adopts a Multiple Instance Learning (MIL) approach to learn their similarities with query text, without requiring extra annotations. However, constructing bags, which is a standard step of conventional MIL approaches, can introduce numerous noisy samples for training, and lower inference speed. To address this issue, we propose a Ranking MIL (RankMIL) approach to adaptively filter those noisy samples. Additionally, we present a Dynamic Partial Match Algorithm (DPMA) that can directly search for the target partial patch from a text-line instance during the inference stage, without requiring bags. This greatly improves the search efficiency and the performance of retrieving partial patches. The source code and dataset are available at https://github.com/lanfeng4659/PSTR.
- Abstract(参考訳): 部分的なシーンテキスト検索のタスクは、画像ギャラリーから与えられたクエリテキストと同一または類似のテキストインスタンスをローカライズして検索することである。
しかし、既存のメソッドはテキストラインインスタンスのみを扱うことができ、トレーニングデータにパッチアノテーションがないために未解決のテキストラインインスタンス内の部分パッチを検索する問題は残る。
この問題に対処するために,テキストラインインスタンスと部分パッチを同時に検索するネットワークを提案する。
提案手法は,2種類のデータ(クエリテキストとシーンテキストインスタンス)を共有機能空間に埋め込み,それらの相互類似性を測定する。
部分パッチを処理するため,提案手法では,追加のアノテーションを必要とせず,クエリテキストで類似性を学習するためにMIL(Multiple Instance Learning)アプローチを採用している。
しかし、従来のMILアプローチの標準ステップであるバッグの構築は、トレーニングのためのノイズの多いサンプルを多数導入し、推論速度を下げることができる。
この問題に対処するために,これらのノイズサンプルを適応的にフィルタリングするRankMIL(RankMIL)手法を提案する。
また,提案する動的部分マッチングアルゴリズム (DPMA) は,推論段階において,バッグを必要とせずに,テキストラインインスタンスからターゲット部分パッチを直接検索することができる。
これにより、部分パッチの検索効率と性能が大幅に向上する。
ソースコードとデータセットはhttps://github.com/lanfeng4659/PSTRで公開されている。
関連論文リスト
- Copy Is All You Need [66.00852205068327]
既存のテキストコレクションからテキストセグメントを段階的にコピーするテキスト生成を定式化する。
提案手法は, 自動評価と人的評価の両方により, より優れた生成品質を実現する。
当社のアプローチでは,より大規模なテキストコレクションにスケールアップすることで,さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-07-13T05:03:26Z) - DeepSolo++: Let Transformer Decoder with Explicit Points Solo for Multilingual Text Spotting [112.45423990924283]
DeepSolo++は単純なDETRライクなベースラインで、テキスト検出、認識、スクリプト識別を同時に行うために、明示的なポイントを持つ1つのデコーダを単独で使用することができる。
本手法は、英語のシーンだけでなく、複雑なフォント構造と中国語などの1000レベルの文字クラスで書き起こしを習得する。
論文 参考訳(メタデータ) (2023-05-31T15:44:00Z) - Description-Based Text Similarity [59.552704474862004]
我々は、その内容の抽象的な記述に基づいて、テキストを検索する必要性を特定する。
そこで本研究では,近隣の標準探索で使用する場合の精度を大幅に向上する代替モデルを提案する。
論文 参考訳(メタデータ) (2023-05-21T17:14:31Z) - Few Could Be Better Than All: Feature Sampling and Grouping for Scene
Text Detection [47.820683360286786]
本稿では,シーンテキスト検出のためのトランスフォーマーアーキテクチャを提案する。
まず、フォアグラウンドテキストに非常に関係のある、あらゆるスケールでいくつかの代表的特徴を選択します。
各特徴群がテキストインスタンスに対応するため、そのバウンディングボックスは後処理操作なしで容易に得ることができる。
論文 参考訳(メタデータ) (2022-03-29T04:02:31Z) - Towards End-to-End Unified Scene Text Detection and Layout Analysis [60.68100769639923]
本稿では,シーンテキストの検出とレイアウト解析を統合化するタスクについて紹介する。
この新たな研究課題を実現するために、最初の階層的なシーンテキストデータセットが導入された。
また,シーンテキストを同時に検出し,テキストクラスタを統一的に形成する手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T23:35:45Z) - Video Text Tracking With a Spatio-Temporal Complementary Model [46.99051486905713]
テキストトラッキングは、ビデオ内の複数のテキストを追跡し、各テキストの軌跡を構築することである。
既存の手法は、トラッキング・バイ・ディテククション・フレームワークを利用する。
我々は、このパラダイムの追跡精度がより複雑なシナリオで著しく制限されていると論じる。
論文 参考訳(メタデータ) (2021-11-09T08:23:06Z) - Unsupervised learning of text line segmentation by differentiating
coarse patterns [0.0]
距離が粗いテキスト行パターンに類似するコンパクトユークリッド空間に文書イメージパッチを埋め込む教師なしのディープラーニング手法を提案する。
テキスト行のセグメンテーションは、埋め込み特徴ベクトルを使って標準技術を使って容易に実装できる。
本手法は,テキスト行分割データセットのいくつかの変種に対して定性的かつ定量的に評価し,その効果を実証する。
論文 参考訳(メタデータ) (2021-05-19T21:21:30Z) - Scene Text Retrieval via Joint Text Detection and Similarity Learning [68.24531728554892]
シーンテキスト検索は、与えられたクエリテキストと同じまたは類似している画像ギャラリーからすべてのテキストインスタンスをローカライズし、検索することを目的としています。
自然画像からクエリテキストと各テキストインスタンスのクロスモーダルな類似性を直接学習することでこの問題に対処します。
このように、検出されたテキストインスタンスを学習された類似度でランク付けすることで、シーンテキスト検索を簡単に実行できます。
論文 参考訳(メタデータ) (2021-04-04T07:18:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。