論文の概要: ControlText: Unlocking Controllable Fonts in Multilingual Text Rendering without Font Annotations
- arxiv url: http://arxiv.org/abs/2502.10999v1
- Date: Sun, 16 Feb 2025 05:30:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:17:16.735852
- Title: ControlText: Unlocking Controllable Fonts in Multilingual Text Rendering without Font Annotations
- Title(参考訳): ControlText: フォントアノテーションのない多言語テキストレンダリングにおける制御可能なフォントのアンロック
- Authors: Bowen Jiang, Yuan Yuan, Xinyi Bai, Zhuoqun Hao, Alyson Yin, Yaojie Hu, Wenyu Liao, Lyle Ungar, Camillo J. Taylor,
- Abstract要約: 本研究は,フォントラベルアノテーションを使わずに,原画像のみを用いてフォント制御可能な多言語テキストレンダリングを実現することができることを示す。
この実験は、ゼロショットテキストにおける我々のアルゴリズムの概念の証明と、多様なフォントや言語にわたるフォント編集を提供する。
- 参考スコア(独自算出の注目度): 8.588945675550592
- License:
- Abstract: This work demonstrates that diffusion models can achieve font-controllable multilingual text rendering using just raw images without font label annotations. Visual text rendering remains a significant challenge. While recent methods condition diffusion on glyphs, it is impossible to retrieve exact font annotations from large-scale, real-world datasets, which prevents user-specified font control. To address this, we propose a data-driven solution that integrates the conditional diffusion model with a text segmentation model, utilizing segmentation masks to capture and represent fonts in pixel space in a self-supervised manner, thereby eliminating the need for any ground-truth labels and enabling users to customize text rendering with any multilingual font of their choice. The experiment provides a proof of concept of our algorithm in zero-shot text and font editing across diverse fonts and languages, providing valuable insights for the community and industry toward achieving generalized visual text rendering.
- Abstract(参考訳): 本研究は,フォントラベルアノテーションを使わずに,原画像のみを用いてフォント制御可能な多言語テキストレンダリングを実現することができることを示す。
ビジュアルテキストのレンダリングは依然として大きな課題だ。
近年の手法では、グリフ上での条件拡散を行うが、大規模な実世界のデータセットから正確なフォントアノテーションを検索することは不可能であり、ユーザが指定したフォント制御を妨げている。
そこで本研究では,条件付き拡散モデルとテキストセグメンテーションモデルを統合し,セグメンテーションマスクを用いてセル空間内のフォントを自己教師付きでキャプチャし,表現することで,基底構造ラベルを不要にし,ユーザが選択した多言語フォントでテキストレンダリングをカスタマイズできるようにする。
この実験は、ゼロショットテキストにおける我々のアルゴリズムの概念の証明であり、様々なフォントや言語にまたがるフォント編集であり、一般化されたビジュアルテキストレンダリングを実現するためのコミュニティや業界にとって貴重な洞察を提供する。
関連論文リスト
- First Creating Backgrounds Then Rendering Texts: A New Paradigm for Visual Text Blending [5.3798706094384725]
背景作成とテキストのレンダリングの両方を含む新しいビジュアルテキストブレンディングパラダイムを提案する。
具体的には、背景生成装置を開発し、高忠実でテキストフリーな自然画像を生成する。
また,シーンテキスト検出のためのシーンテキストデータセット合成など,本手法に基づくダウンストリームアプリケーションについても検討する。
論文 参考訳(メタデータ) (2024-10-14T05:23:43Z) - JoyType: A Robust Design for Multilingual Visual Text Creation [14.441897362967344]
複数言語によるビジュアルテキスト作成のための新しい手法JoyTypeを紹介した。
JoyTypeは、画像生成プロセス中にテキストのフォントスタイルを維持するように設計されている。
実測値と精度の両面から評価した結果,JoyTypeが既存の最先端手法を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-09-26T04:23:17Z) - Typographic Text Generation with Off-the-Shelf Diffusion Model [7.542892664684078]
本稿では,タイポグラフィのテキストを付加・修正するタイポグラフィテキスト生成システムを提案する。
提案システムは,拡散モデルのための2つのオフ・ザ・シェルフ法,ControlNetとBlended Latent Diffusionを組み合わせた新しいシステムである。
論文 参考訳(メタデータ) (2024-02-22T06:15:51Z) - TextDiffuser-2: Unleashing the Power of Language Models for Text
Rendering [118.30923824681642]
TextDiffuser-2は、テキストレンダリングのための言語モデルのパワーを解き放つことを目的としている。
拡散モデル内の言語モデルを用いて,行レベルでの位置とテキストを符号化する。
我々は広範な実験を行い、GPT-4Vと同様に、ヒトの参加者を含むユーザスタディを取り入れた。
論文 参考訳(メタデータ) (2023-11-28T04:02:40Z) - GlyphDiffusion: Text Generation as Image Generation [100.98428068214736]
テキスト誘導画像生成によるテキスト生成のための新しい拡散手法であるGlyphDiffusionを提案する。
私たちのキーとなるアイデアは、ターゲットのテキストを視覚言語コンテンツを含むグリフイメージとしてレンダリングすることです。
また,本モデルでは,近年の拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-04-25T02:14:44Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - Few-Shot Font Generation by Learning Fine-Grained Local Styles [90.39288370855115]
フラッシュショットフォント生成(FFG)は、いくつかの例で新しいフォントを生成することを目的としている。
提案手法は,1)参照からきめ細かな局所スタイルを学習し,2)コンテンツと参照グリフの空間的対応を学習するフォント生成手法である。
論文 参考訳(メタデータ) (2022-05-20T05:07:05Z) - A Multi-Implicit Neural Representation for Fonts [79.6123184198301]
エッジやコーナーのようなフォント固有の不連続性は、ニューラルネットワークを使って表現することが難しい。
そこで我々は,フォントを文順に表現するためのtextitmulti-implicitsを導入する。
論文 参考訳(メタデータ) (2021-06-12T21:40:11Z) - Exploring Font-independent Features for Scene Text Recognition [22.34023249700896]
近年,Scene Text Recognition (STR) が広く研究されている。
最近提案された多くの手法は、シーンテキストの任意の形状、レイアウト、配向に対応するよう特別に設計されている。
フォントの特徴と文字のコンテンツ特徴が絡み合っているこれらの手法は、新しいフォントスタイルのテキストを含むシーンイメージのテキスト認識において、不十分な性能を発揮する。
論文 参考訳(メタデータ) (2020-09-16T03:36:59Z) - Let Me Choose: From Verbal Context to Font Selection [50.293897197235296]
フォントの視覚的属性と典型的に適用されるテキストの言語的文脈との関係を学習することを目的としている。
我々は、クラウドソーシングを通じてラベル付けされたソーシャルメディア投稿や広告で、さまざまなトピックの例を含む、新しいデータセットを紹介した。
論文 参考訳(メタデータ) (2020-05-03T17:36:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。