論文の概要: DiffusionSTR: Diffusion Model for Scene Text Recognition
- arxiv url: http://arxiv.org/abs/2306.16707v1
- Date: Thu, 29 Jun 2023 06:09:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-30 14:38:37.009179
- Title: DiffusionSTR: Diffusion Model for Scene Text Recognition
- Title(参考訳): DiffusionSTR:シーンテキスト認識のための拡散モデル
- Authors: Masato Fujitake
- Abstract要約: Diffusion Model for Scene Text Recognition (DiffusionSTR)は、エンドツーエンドのテキスト認識フレームワークである。
拡散モデルがテキスト認識に適用可能であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents Diffusion Model for Scene Text Recognition
(DiffusionSTR), an end-to-end text recognition framework using diffusion models
for recognizing text in the wild. While existing studies have viewed the scene
text recognition task as an image-to-text transformation, we rethought it as a
text-text one under images in a diffusion model. We show for the first time
that the diffusion model can be applied to text recognition. Furthermore,
experimental results on publicly available datasets show that the proposed
method achieves competitive accuracy compared to state-of-the-art methods.
- Abstract(参考訳): 本稿では,野生のテキストを認識するために拡散モデルを用いたエンドツーエンドのテキスト認識フレームワークであるDiffusionSTRを提案する。
既存の研究では、シーンテキスト認識タスクを画像からテキストへの変換と見なしているが、拡散モデルでは画像の下のテキストとして再考している。
拡散モデルが初めてテキスト認識に適用できることを示す。
さらに, 公開データセットを用いた実験結果から, 提案手法は最先端手法と比較して, 競争精度が向上することが示された。
関連論文リスト
- JSTR: Judgment Improves Scene Text Recognition [0.0]
本稿では,画像とテキストが一致しているかを判断することで,シーンテキスト認識タスクの精度を向上させる手法を提案する。
この方法は、モデルが誤認識しそうなデータに対して明示的なフィードバックを提供することで、テキスト認識の精度を高める。
論文 参考訳(メタデータ) (2024-04-09T02:55:12Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - Seek for Incantations: Towards Accurate Text-to-Image Diffusion
Synthesis through Prompt Engineering [118.53208190209517]
本稿では,拡散モデルの適切なテキスト記述を即時学習により学習するフレームワークを提案する。
提案手法は,入力されたテキストと生成された画像とのマッチングを改善するためのプロンプトを効果的に学習することができる。
論文 参考訳(メタデータ) (2024-01-12T03:46:29Z) - UDiffText: A Unified Framework for High-quality Text Synthesis in
Arbitrary Images via Character-aware Diffusion Models [25.219960711604728]
本稿では,事前学習した拡散モデルを用いたテキスト画像生成手法を提案する。
我々のアプローチは、オリジナルのCLIPエンコーダを置き換える軽量文字レベルテキストエンコーダの設計と訓練である。
推論段階の精細化プロセスを用いることで、任意に与えられた画像のテキストを合成する際に、顕著に高いシーケンス精度を実現する。
論文 参考訳(メタデータ) (2023-12-08T07:47:46Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - On Manipulating Scene Text in the Wild with Diffusion Models [4.034781390227754]
本稿では,Diffusion-BasEd Scene Text Operation Network(DBEST)を紹介する。
具体的には,2つの適応戦略,すなわちワンショットスタイル適応とテキスト認識指導を設計する。
本手法は,文字レベル評価のためのデータセットの94.15%と98.12%を達成する。
論文 参考訳(メタデータ) (2023-11-01T11:31:50Z) - Discffusion: Discriminative Diffusion Models as Few-shot Vision and Language Learners [88.07317175639226]
本稿では,事前学習したテキストと画像の拡散モデルを数ショットの識別学習者に変換する新しい手法,DSDを提案する。
本手法は, 安定拡散モデルにおいて, 視覚情報とテキスト情報の相互影響を捉えるために, クロスアテンションスコアを用いている。
論文 参考訳(メタデータ) (2023-05-18T05:41:36Z) - WordStylist: Styled Verbatim Handwritten Text Generation with Latent
Diffusion Models [8.334487584550185]
単語レベルに基づくテキスト・テキスト・コンテンツ・イメージ生成のための遅延拡散に基づく手法を提案する。
提案手法は,異なる書き手スタイルからリアルな単語画像のサンプルを生成することができる。
提案モデルでは,美的満足度の高いサンプルを作成し,テキスト認識性能の向上に寄与し,類似の文字検索スコアを実データとして得られることを示す。
論文 参考訳(メタデータ) (2023-03-29T10:19:26Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - Reading and Writing: Discriminative and Generative Modeling for
Self-Supervised Text Recognition [101.60244147302197]
テキスト画像の識別と生成を学習するために,コントラスト学習とマスク付き画像モデリングを導入する。
本手法は,不規則なシーンテキスト認識データセットにおいて,従来の自己教師付きテキスト認識手法を10.2%~20.2%向上させる。
提案したテキスト認識器は,11のベンチマークで平均5.3%の精度で従来のテキスト認識手法を上回り,モデルサイズが類似している。
論文 参考訳(メタデータ) (2022-07-01T03:50:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。