論文の概要: A Human Eye-based Text Color Scheme Generation Method for Image
Synthesis
- arxiv url: http://arxiv.org/abs/2010.07510v1
- Date: Thu, 15 Oct 2020 04:24:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 04:10:19.442918
- Title: A Human Eye-based Text Color Scheme Generation Method for Image
Synthesis
- Title(参考訳): 画像合成のための人間の目に基づくテキストカラー生成法
- Authors: Shao Wei Wang, Guan Jie Huang, Xiang Yu Luo
- Abstract要約: そこで我々は,人間の目の特徴に整合したカラースキームを創出する手法を開発した。
提案手法の利点は,(1)汚れたデータによるテキストと背景の色の混同を克服すること,(2)生成したテキストが画像のほとんどの場所に現れること,(3)背景の深さを分析すること,である。
- 参考スコア(独自算出の注目度): 4.191177999440939
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synthetic data used for scene text detection and recognition tasks have
proven effective. However, there are still two problems: First, the color
schemes used for text coloring in the existing methods are relatively fixed
color key-value pairs learned from real datasets. The dirty data in real
datasets may cause the problem that the colors of text and background are too
similar to be distinguished from each other. Second, the generated texts are
uniformly limited to the same depth of a picture, while there are special cases
in the real world that text may appear across depths. To address these
problems, in this paper we design a novel method to generate color schemes,
which are consistent with the characteristics of human eyes to observe things.
The advantages of our method are as follows: (1) overcomes the color confusion
problem between text and background caused by dirty data; (2) the texts
generated are allowed to appear in most locations of any image, even across
depths; (3) avoids analyzing the depth of background, such that the performance
of our method exceeds the state-of-the-art methods; (4) the speed of generating
images is fast, nearly one picture generated per three milliseconds. The
effectiveness of our method is verified on several public datasets.
- Abstract(参考訳): シーンテキストの検出と認識タスクに使用される合成データが有効であることが証明された。
ひとつは、既存の方法でテキストの着色に使用されるカラースキームは、実際のデータセットから学習した比較的固定色のキー値対である。
実際のデータセットの汚いデータは、テキストと背景の色が互いに区別できないほど似ているという問題を引き起こす可能性がある。
第二に、生成されたテキストは画像の同じ深さに一様に制限されるが、現実には、テキストが奥行きにわたって現れる特別なケースがある。
これらの問題に対処するために,本論文では,人間の目の特徴と一致した色調を生成する新しい手法を設計する。
提案手法の利点は,(1) 汚れたデータによるテキストと背景の色の混同を克服すること,(2) 生成したテキストは,奥行きであっても,任意の画像のほとんどの場所に現れることを許すこと,(3) 手法の性能が最先端の手法を超えるような背景の深さを分析すること,(4) 生成速度が速いこと,(3) 3ミリ秒に1枚の画像を生成すること,である。
本手法の有効性をいくつかの公開データセットで検証した。
関連論文リスト
- CLII: Visual-Text Inpainting via Cross-Modal Predictive Interaction [23.683636588751753]
State-of-the-art inpainting法は主に自然画像用に設計されており、シーンテキスト画像内のテキストを正しく復元することができない。
高品質なシーン画像復元とテキスト補完を実現するために,視覚テキストの塗装作業を特定する。
論文 参考訳(メタデータ) (2024-07-23T06:12:19Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - Exploring Stroke-Level Modifications for Scene Text Editing [86.33216648792964]
シーンテキスト編集(STE)は、元のテキストの背景とスタイルを保存しながら、テキストを所望のテキストに置き換えることを目的としている。
画像全体を編集するには、背景領域とテキスト領域の異なる翻訳規則を同時に学習する必要がある。
Scene Text Image at strokE Level (MOSTEL) を用いた新しいネットワークを提案する。
論文 参考訳(メタデータ) (2022-12-05T02:10:59Z) - TIC: Text-Guided Image Colorization [24.317541784957285]
本稿では、2つの入力(グレースケール画像と各エンコードされたテキスト記述)を取り込み、関連する色域を予測しようとする新しいディープネットワークを提案する。
各テキスト記述にはシーンに存在するオブジェクトの色情報が含まれているので、テキストエンコーディングは予測された色の全体的な品質を改善するのに役立つ。
提案手法を異なる指標を用いて評価した結果,定性的にも定量的にも,最先端のカラー化アルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-08-04T18:40:20Z) - Toward Understanding WordArt: Corner-Guided Transformer for Scene Text
Recognition [63.6608759501803]
我々は芸術的テキストを3つのレベルで認識することを提案する。
コーナーポイントは、文字内の局所的な特徴の抽出を誘導するために用いられる。
第二に、文字レベルの特徴をモデル化するために文字の対照的な損失を設計し、文字分類のための特徴表現を改善する。
第3に,Transformerを用いて画像レベルのグローバルな特徴を学習し,コーナーポイントのグローバルな関係をモデル化する。
論文 参考訳(メタデータ) (2022-07-31T14:11:05Z) - Reading and Writing: Discriminative and Generative Modeling for
Self-Supervised Text Recognition [101.60244147302197]
テキスト画像の識別と生成を学習するために,コントラスト学習とマスク付き画像モデリングを導入する。
本手法は,不規則なシーンテキスト認識データセットにおいて,従来の自己教師付きテキスト認識手法を10.2%~20.2%向上させる。
提案したテキスト認識器は,11のベンチマークで平均5.3%の精度で従来のテキスト認識手法を上回り,モデルサイズが類似している。
論文 参考訳(メタデータ) (2022-07-01T03:50:26Z) - Detecting Recolored Image by Spatial Correlation [60.08643417333974]
画像のリカラー化は、画像の色値を操作して新しいスタイルを与える、新たな編集技術である。
本稿では,空間相関の観点から,従来型と深層学習による再色検出の汎用的検出能力を示す解を探索する。
提案手法は,複数のベンチマークデータセット上での最先端検出精度を実現し,未知の種類の再色法を適切に一般化する。
論文 参考訳(メタデータ) (2022-04-23T01:54:06Z) - Knowledge Mining with Scene Text for Fine-Grained Recognition [53.74297368412834]
本研究では,シーンテキスト画像の背景にある暗黙的な文脈知識をマイニングする,エンドツーエンドのトレーニング可能なネットワークを提案する。
我々は,KnowBertを用いて意味表現の関連知識を検索し,それを画像特徴と組み合わせ,きめ細かい分類を行う。
本手法は,3.72%のmAPと5.39%のmAPをそれぞれ上回っている。
論文 参考訳(メタデータ) (2022-03-27T05:54:00Z) - SwapText: Image Based Texts Transfer in Scenes [13.475726959175057]
スワップテキスト(SwapText)はシーンイメージ間でテキストを転送するフレームワークである。
前景画像のみにテキストラベルを置換する新しいテキストスワップネットワークを提案する。
生成された前景画像と背景画像を用いて、融合ネットワークにより単語画像を生成する。
論文 参考訳(メタデータ) (2020-03-18T11:02:17Z) - STEFANN: Scene Text Editor using Font Adaptive Neural Network [18.79337509555511]
画像中のテキストを文字レベルで修正する手法を提案する。
本稿では,(a)FANnetと(b)Colornetという2つの異なるニューラルネットワークアーキテクチャを提案する。
本手法は画像中のテキストを編集するための統一的なプラットフォームとして機能する。
論文 参考訳(メタデータ) (2019-03-04T11:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。