論文の概要: Beyond Cropped Regions: New Benchmark and Corresponding Baseline for Chinese Scene Text Retrieval in Diverse Layouts
- arxiv url: http://arxiv.org/abs/2506.04999v1
- Date: Thu, 05 Jun 2025 13:10:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.715605
- Title: Beyond Cropped Regions: New Benchmark and Corresponding Baseline for Chinese Scene Text Retrieval in Diverse Layouts
- Title(参考訳): 刈り取られた地域を超えて: 異種レイアウトにおける中国語シーンテキスト検索のための新しいベンチマークと対応ベースライン
- Authors: Gengluo Li, Huawen Shen, Yu Zhou,
- Abstract要約: 中国語のシーンテキスト検索は,中国語のクェリテキストの視覚的な例を含む画像の検索を目的とした実践的なタスクである。
現在の努力は、英語のシーンテキスト検索のソリューションを継承する傾向にあり、十分な性能を達成できなかった。
我々は,グローバルな視覚情報と多粒性アライメントトレーニングを統合する新しいモデルである中国語シーンテキスト検索CLIP(CSTR-CLIP)を提案する。
- 参考スコア(独自算出の注目度): 2.9100667158464035
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chinese scene text retrieval is a practical task that aims to search for images containing visual instances of a Chinese query text. This task is extremely challenging because Chinese text often features complex and diverse layouts in real-world scenes. Current efforts tend to inherit the solution for English scene text retrieval, failing to achieve satisfactory performance. In this paper, we establish a Diversified Layout benchmark for Chinese Street View Text Retrieval (DL-CSVTR), which is specifically designed to evaluate retrieval performance across various text layouts, including vertical, cross-line, and partial alignments. To address the limitations in existing methods, we propose Chinese Scene Text Retrieval CLIP (CSTR-CLIP), a novel model that integrates global visual information with multi-granularity alignment training. CSTR-CLIP applies a two-stage training process to overcome previous limitations, such as the exclusion of visual features outside the text region and reliance on single-granularity alignment, thereby enabling the model to effectively handle diverse text layouts. Experiments on existing benchmark show that CSTR-CLIP outperforms the previous state-of-the-art model by 18.82% accuracy and also provides faster inference speed. Further analysis on DL-CSVTR confirms the superior performance of CSTR-CLIP in handling various text layouts. The dataset and code will be publicly available to facilitate research in Chinese scene text retrieval.
- Abstract(参考訳): 中国語のシーンテキスト検索は,中国語のクェリテキストの視覚的な例を含む画像の検索を目的とした実践的なタスクである。
中国語のテキストは、しばしば現実世界のシーンで複雑で多様なレイアウトを特徴としているため、この作業は非常に難しい。
現在の努力は、英語のシーンテキスト検索のソリューションを継承する傾向にあり、十分な性能を達成できなかった。
本稿では,中国ストリートビューテキスト検索(DL-CSVTR)において,垂直線,横線,部分アライメントを含む各種テキストレイアウトの検索性能を評価するために,分割レイアウトベンチマークを構築した。
既存の手法の限界に対処するために,グローバルな視覚情報と多粒性アライメントトレーニングを統合する新しいモデルである中国語シーンテキスト検索CLIP(CSTR-CLIP)を提案する。
CSTR-CLIPは、テキスト領域外の視覚的特徴の排除や単一粒度アライメントへの依存など、以前の制限を克服するために、2段階のトレーニングプロセスを適用している。
既存のベンチマーク実験では、CSTR-CLIPは18.82%の精度で従来の最先端モデルより優れており、推論速度も高速である。
DL-CSVTRのさらなる解析により、様々なテキストレイアウトを扱う際のCSTR-CLIPの優れた性能が確認される。
データセットとコードは、中国のシーンテキスト検索の研究を容易にするために公開されます。
関連論文リスト
- STEP -- Towards Structured Scene-Text Spotting [9.339184886724812]
そこで本研究では,構造化シーンテキストスポッティングタスクを導入し,クエリの正規表現に従って,野生のテキストをスポッティングするシーンテキストOCRシステムを提案する。
提案するStructured TExt sPotter (STEP) は,OCRプロセスのガイドとして提供されるテキスト構造を利用するモデルである。
提案手法により,様々な実世界の読解シナリオにおけるゼロショット構造化テキストスポッティングの精度が向上する。
論文 参考訳(メタデータ) (2023-09-05T16:11:54Z) - Orientation-Independent Chinese Text Recognition in Scene Images [61.34060587461462]
本研究は,テキスト画像のコンテンツと方向情報を切り離すことにより,向きに依存しない視覚特徴を抽出する試みである。
具体的には,不整合コンテンツと向き情報を用いて対応する文字イメージを復元する文字画像再構成ネットワーク(CIRN)を提案する。
論文 参考訳(メタデータ) (2023-09-03T05:30:21Z) - A Benchmark for Chinese-English Scene Text Image Super-resolution [15.042152725255171]
Scene Text Image Super- resolution (STISR) は、低解像度(LR)入力から視覚的に快適で読みやすいテキストコンテンツで高解像度(HR)のテキストイメージを復元することを目的としている。
現存する作品の多くは、比較的単純な文字構造を持つ英語のテキストの復元に重点を置いている。
我々は,STISRのタスクに対して,実世界の中国語と英語のベンチマークデータセットであるReal-CEを提案する。
論文 参考訳(メタデータ) (2023-08-07T02:57:48Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Towards End-to-End Unified Scene Text Detection and Layout Analysis [60.68100769639923]
本稿では,シーンテキストの検出とレイアウト解析を統合化するタスクについて紹介する。
この新たな研究課題を実現するために、最初の階層的なシーンテキストデータセットが導入された。
また,シーンテキストを同時に検出し,テキストクラスタを統一的に形成する手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T23:35:45Z) - CORE-Text: Improving Scene Text Detection with Contrastive Relational
Reasoning [65.57338873921168]
自然界におけるテキストインスタンスのローカライズは、コンピュータビジョンにおける根本的な課題であると考えられている。
本研究では,サブテキスト問題を定量的に解析し,シンプルで効果的な設計であるContrastive Relation(CORE)モジュールを提案する。
我々は、COREモジュールをMask R-CNNの2段階テキスト検出器に統合し、テキスト検出器CORE-Textを考案する。
論文 参考訳(メタデータ) (2021-12-14T16:22:25Z) - Scene Text Retrieval via Joint Text Detection and Similarity Learning [68.24531728554892]
シーンテキスト検索は、与えられたクエリテキストと同じまたは類似している画像ギャラリーからすべてのテキストインスタンスをローカライズし、検索することを目的としています。
自然画像からクエリテキストと各テキストインスタンスのクロスモーダルな類似性を直接学習することでこの問題に対処します。
このように、検出されたテキストインスタンスを学習された類似度でランク付けすることで、シーンテキスト検索を簡単に実行できます。
論文 参考訳(メタデータ) (2021-04-04T07:18:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。