論文の概要: Region Prompt Tuning: Fine-grained Scene Text Detection Utilizing Region Text Prompt
- arxiv url: http://arxiv.org/abs/2409.13576v2
- Date: Tue, 19 Nov 2024 19:26:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-21 16:11:03.577498
- Title: Region Prompt Tuning: Fine-grained Scene Text Detection Utilizing Region Text Prompt
- Title(参考訳): Region Prompt Tuning:Regional Text Promptを利用したきめ細かいシーンテキスト検出
- Authors: Xingtao Lin, Heqian Qiu, Lanxiao Wang, Ruihang Wang, Linfeng Xu, Hongliang Li,
- Abstract要約: リージョンプロンプトチューニング手法は、領域テキストプロンプトを個々の文字に分解し、視覚特徴マップを領域視覚トークンに分割する。
これにより、文字はトークンの局所的な特徴と一致し、詳細な特徴やきめ細かいテキストが省略されるのを避けることができる。
提案手法は,画像テキストプロセスから得られた一般的なスコアマップと,文字とトークンのマッチングから得られた領域スコアマップを組み合わせる。
- 参考スコア(独自算出の注目度): 10.17947324152468
- License:
- Abstract: Recent advancements in prompt tuning have successfully adapted large-scale models like Contrastive Language-Image Pre-trained (CLIP) for downstream tasks such as scene text detection. Typically, text prompt complements the text encoder's input, focusing on global features while neglecting fine-grained details, leading to fine-grained text being ignored in task of scene text detection. In this paper, we propose the region prompt tuning (RPT) method for fine-grained scene text detection, where region text prompt proposed would help focus on fine-grained features. Region prompt tuning method decomposes region text prompt into individual characters and splits visual feature map into region visual tokens, creating a one-to-one correspondence between characters and tokens. This allows a character matches the local features of a token, thereby avoiding the omission of detailed features and fine-grained text. To achieve this, we introduce a sharing position embedding to link each character with its corresponding token and employ a bidirectional distance loss to align each region text prompt character with the target ``text''. To refine the information at fine-grained level, we implement character-token level interactions before and after encoding. Our proposed method combines a general score map from the image-text process with a region score map derived from character-token matching, producing a final score map that could balance the global and local features and be fed into DBNet to detect the text. Experiments on benchmarks like ICDAR2015, TotalText, and CTW1500 demonstrate RPT impressive performance, underscoring its effectiveness for scene text detection.
- Abstract(参考訳): プロンプトチューニングの最近の進歩は、シーンテキスト検出などの下流タスクに対して、Contrastive Language-Image Pre-trained (CLIP)のような大規模モデルに適応することに成功した。
通常、テキストプロンプトはテキストエンコーダの入力を補完し、細粒度の詳細を無視しながらグローバルな特徴に焦点を合わせ、シーンテキスト検出のタスクではきめ細かいテキストが無視される。
本稿では,詳細なシーンテキスト検出のための領域プロンプトチューニング(RPT)手法を提案する。
リージョンプロンプトチューニング法は、地域テキストプロンプトを個々の文字に分解し、視覚特徴マップを地域視覚トークンに分割し、文字とトークンを1対1で対応させる。
これにより、文字はトークンの局所的な特徴と一致し、詳細な特徴やきめ細かいテキストが省略されるのを避けることができる。
これを実現するために,各文字を対応するトークンにリンクするための共有位置埋め込みを導入し,各領域のテキストプロンプト文字をターゲットの `text'' に合わせるために双方向距離ロスを用いる。
細粒度レベルで情報を洗練するために,符号化前後の文字-トークンレベルの相互作用を実装した。
提案手法は,画像テキストプロセスから得られた一般的なスコアマップと文字とトークンのマッチングから得られた領域スコアマップを組み合わせることで,グローバルな特徴とローカルな特徴のバランスを保ち,DBNetに入力してテキストを検知する最終的なスコアマップを生成する。
ICDAR2015、TotalText、CTW1500といったベンチマークの実験では、RTTのパフォーマンスが印象的であり、シーンテキスト検出の有効性が強調されている。
関連論文リスト
- Text Grouping Adapter: Adapting Pre-trained Text Detector for Layout Analysis [52.34110239735265]
本稿では,事前学習したテキスト検出装置のレイアウト解析を学習するためのモジュールであるText Grouping Adapter (TGA)を提案する。
我々の総合的な実験は、凍結した事前学習モデルであっても、TGAを様々な事前学習されたテキスト検出器やテキストスポッターに組み込むことで、より優れたレイアウト解析性能が得られることを示した。
論文 参考訳(メタデータ) (2024-05-13T05:48:35Z) - Text Region Multiple Information Perception Network for Scene Text
Detection [19.574306663095243]
本稿では,セグメント化に基づくアルゴリズムの検出性能を高めるために,RMIPM (Regional Multiple Information Perception Module) と呼ばれるプラグアンドプレイモジュールを提案する。
具体的には,テキストフォアグラウンド分類マップ,距離マップ,方向マップなど,シーンテキスト領域に関する様々な情報を知覚できる改良されたモジュールを設計する。
論文 参考訳(メタデータ) (2024-01-18T14:36:51Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Expressive Text-to-Image Generation with Rich Text [42.923053338525804]
フォントスタイル,サイズ,色,フットノートなどのフォーマットをサポートするリッチテキストエディタを提案する。
それぞれの単語の属性をリッチテキストから抽出し、局所的なスタイル制御、明示的なトークン再重み付け、正確な色レンダリング、詳細な領域合成を可能にする。
論文 参考訳(メタデータ) (2023-04-13T17:59:55Z) - Contextual Text Block Detection towards Scene Text Understanding [85.40898487745272]
本稿では,シーン中のテキストをよりよく理解するためのコンテキストテキストブロック(CTB)を新たに検出する,コンテキストテキスト検出手法を提案する。
本稿では、まずテキスト単位を検出し、次にCTBにグループ化する二重検出タスクにより、新しい設定を定式化する。
そこで本研究では,統合テキスト単位をトークンとして扱うシーンテキストクラスタリング手法を設計し,それらを(同じCTBに延長する)順序付きトークンシーケンスにグループ化する。
論文 参考訳(メタデータ) (2022-07-26T14:59:25Z) - Text Detection & Recognition in the Wild for Robot Localization [1.52292571922932]
テキスト文字列とバウンディングボックスを同時に出力するエンド・ツー・エンドシーンテキストスポッティングモデルを提案する。
我々の中心的な貢献は、不規則かつ隠蔽されたテキスト領域を適切にキャプチャするために、エンドツーエンドのテキストスポッティングフレームワークを利用することである。
論文 参考訳(メタデータ) (2022-05-17T18:16:34Z) - Scene Text Retrieval via Joint Text Detection and Similarity Learning [68.24531728554892]
シーンテキスト検索は、与えられたクエリテキストと同じまたは類似している画像ギャラリーからすべてのテキストインスタンスをローカライズし、検索することを目的としています。
自然画像からクエリテキストと各テキストインスタンスのクロスモーダルな類似性を直接学習することでこの問題に対処します。
このように、検出されたテキストインスタンスを学習された類似度でランク付けすることで、シーンテキスト検索を簡単に実行できます。
論文 参考訳(メタデータ) (2021-04-04T07:18:38Z) - MANGO: A Mask Attention Guided One-Stage Scene Text Spotter [41.66707532607276]
MANGOという,新しいMask AttentioN Guided One-stage text Spotting frameworkを提案する。
提案手法は,正規テキストスポッティングベンチマークと不規則テキストスポッティングベンチマークの両方において,競争力と新たな最先端性能を実現する。
論文 参考訳(メタデータ) (2020-12-08T10:47:49Z) - Text Perceptron: Towards End-to-End Arbitrary-Shaped Text Spotting [49.768327669098674]
テキストパーセプトロン(Text Perceptron)という,エンドツーエンドのトレーニング可能なテキストスポッティング手法を提案する。
まず、テキスト読解順序と境界情報を学ぶ効率的なセグメンテーションベースのテキスト検出器を用いる。
次に、検出された特徴領域を正規形態に変換するために、新しい形状変換モジュール(STM)を設計する。
論文 参考訳(メタデータ) (2020-02-17T08:07:19Z) - TextScanner: Reading Characters in Order for Robust Scene Text
Recognition [60.04267660533966]
TextScannerはシーンテキスト認識の代替手法である。
文字クラス、位置、順序に対する画素単位のマルチチャネルセグメンテーションマップを生成する。
また、コンテキストモデリングにRNNを採用し、文字の位置とクラスを並列で予測する。
論文 参考訳(メタデータ) (2019-12-28T07:52:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。