論文の概要: TextStyleBrush: Transfer of Text Aesthetics from a Single Example
- arxiv url: http://arxiv.org/abs/2106.08385v1
- Date: Tue, 15 Jun 2021 19:28:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-17 17:26:20.720764
- Title: TextStyleBrush: Transfer of Text Aesthetics from a Single Example
- Title(参考訳): TextStyleBrush: 単一例からのテキスト美学の移行
- Authors: Praveen Krishnan, Rama Kovvuri, Guan Pang, Boris Vassilev, Tal Hassner
- Abstract要約: 本稿では,その外観のあらゆる面からテキスト画像の内容を切り離すための新しいアプローチを提案する。
我々はこの混乱を自己管理的に学ぶ。
以前は特殊な手法で処理されていた異なるテキスト領域で結果を示す。
- 参考スコア(独自算出の注目度): 16.29689649632619
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel approach for disentangling the content of a text image
from all aspects of its appearance. The appearance representation we derive can
then be applied to new content, for one-shot transfer of the source style to
new content. We learn this disentanglement in a self-supervised manner. Our
method processes entire word boxes, without requiring segmentation of text from
background, per-character processing, or making assumptions on string lengths.
We show results in different text domains which were previously handled by
specialized methods, e.g., scene text, handwritten text. To these ends, we make
a number of technical contributions: (1) We disentangle the style and content
of a textual image into a non-parametric, fixed-dimensional vector. (2) We
propose a novel approach inspired by StyleGAN but conditioned over the example
style at different resolution and content. (3) We present novel self-supervised
training criteria which preserve both source style and target content using a
pre-trained font classifier and text recognizer. Finally, (4) we also introduce
Imgur5K, a new challenging dataset for handwritten word images. We offer
numerous qualitative photo-realistic results of our method. We further show
that our method surpasses previous work in quantitative tests on scene text and
handwriting datasets, as well as in a user study.
- Abstract(参考訳): 本稿では,その外観のあらゆる面からテキスト画像の内容を切り離すための新しいアプローチを提案する。
次に、私たちが導出した外観表現を新しいコンテンツに適用し、ソーススタイルを新しいコンテンツにワンショット転送する。
我々はこの混乱を自己管理的に学ぶ。
本手法では,テキストのセグメンテーションや文字単位の処理,文字列長の仮定を必要とせず,単語ボックス全体を処理する。
従来,シーンテキストや手書きテキストなど,特殊な手法で処理されていた異なるテキストドメインで結果を示す。
1) テキスト画像のスタイルと内容を非パラメトリックな固定次元ベクトルに分解する。
2) スタイルガンに触発された新しいアプローチを提案するが, 異なる解像度と内容のサンプルスタイルを条件とした。
3) 事前学習されたフォント分類器とテキスト認識器を用いて, ソーススタイルとターゲットコンテンツの両方を保存できる新しい自己教師付き学習基準を提案する。
最後に,手書き語画像のための新しい挑戦的データセットImgur5Kを紹介する。
提案手法の定性的なフォトリアリスティックな結果を多数提示する。
さらに,本手法は,シーンテキストや手書きデータセットの定量的テストやユーザスタディにおいて,従来よりも優れていることを示す。
関連論文リスト
- Style Generation: Image Synthesis based on Coarsely Matched Texts [10.939482612568433]
テキストベースのスタイル生成と呼ばれる新しいタスクを導入し、2段階の生成対角ネットワークを提案する。
第1ステージは、文特徴付き全体画像スタイルを生成し、第2ステージは、合成特徴付きで生成されたスタイルを洗練する。
本研究は,テキスト・イメージアライメントやストーリー・ビジュアライゼーションといった様々な応用によって実証された。
論文 参考訳(メタデータ) (2023-09-08T21:51:11Z) - Orientation-Independent Chinese Text Recognition in Scene Images [61.34060587461462]
本研究は,テキスト画像のコンテンツと方向情報を切り離すことにより,向きに依存しない視覚特徴を抽出する試みである。
具体的には,不整合コンテンツと向き情報を用いて対応する文字イメージを復元する文字画像再構成ネットワーク(CIRN)を提案する。
論文 参考訳(メタデータ) (2023-09-03T05:30:21Z) - Weakly Supervised Scene Text Generation for Low-resource Languages [19.243705770491577]
シーンテキスト認識モデルのトレーニングには,多数の注釈付きトレーニング画像が不可欠である。
既存のシーンテキスト生成手法は、典型的には大量のペアデータに依存しており、低リソース言語では入手が困難である。
本稿では,いくつかの認識レベルラベルを弱監督として活用する,弱教師付きシーンテキスト生成手法を提案する。
論文 参考訳(メタデータ) (2023-06-25T15:26:06Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - GenText: Unsupervised Artistic Text Generation via Decoupled Font and
Texture Manipulation [30.654807125764965]
我々は,汎用的な芸術的テクストスタイルの転送を実現するために,GenTextという新しいアプローチを提案する。
具体的には、スタイラス化、デスティル化、フォント転送という3つの異なる段階を取り入れています。
ペアの芸術的テキスト画像の取得が困難であることを考えると,本モデルは教師なし環境下で設計されている。
論文 参考訳(メタデータ) (2022-07-20T04:42:47Z) - Content and Style Aware Generation of Text-line Images for Handwriting
Recognition [4.301658883577544]
視覚的外観とテキストコンテンツの両方を条件とした手書きテキストライン画像の生成法を提案する。
本手法では,多彩な手書きスタイルの長いテキストラインサンプルを作成できる。
論文 参考訳(メタデータ) (2022-04-12T05:52:03Z) - Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.71128866226768]
近年のテキスト・ツー・イメージ生成手法は、生成した画像の忠実度とテキスト関連性を漸進的に改善している。
i)シーンの形式でテキストを補完する単純な制御機構を実現することで,これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。
このモデルにより,512×512ピクセルの解像度で高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-03-24T15:44:50Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - RewriteNet: Realistic Scene Text Image Generation via Editing Text in
Real-world Image [17.715320405808935]
シーンテキスト編集(STE)は、テキストとスタイルの複雑な介入のために難しい作業である。
本稿ではRewriteNetと呼ばれる新しい表現学習型STEモデルを提案する。
我々の実験は、RewriteNetが他の比較よりも定量的かつ定性的な性能を達成することを示した。
論文 参考訳(メタデータ) (2021-07-23T06:32:58Z) - Improving Disentangled Text Representation Learning with
Information-Theoretic Guidance [99.68851329919858]
自然言語の独特な性質は、テキスト表現の分離をより困難にする。
情報理論にインスパイアされた本研究では,テキストの不整合表現を効果的に表現する手法を提案する。
条件付きテキスト生成とテキストスタイル転送の両方の実験は、不整合表現の質を実証する。
論文 参考訳(メタデータ) (2020-06-01T03:36:01Z) - Let Me Choose: From Verbal Context to Font Selection [50.293897197235296]
フォントの視覚的属性と典型的に適用されるテキストの言語的文脈との関係を学習することを目的としている。
我々は、クラウドソーシングを通じてラベル付けされたソーシャルメディア投稿や広告で、さまざまなトピックの例を含む、新しいデータセットを紹介した。
論文 参考訳(メタデータ) (2020-05-03T17:36:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。