論文の概要: FontCLIP: A Semantic Typography Visual-Language Model for Multilingual
Font Applications
- arxiv url: http://arxiv.org/abs/2403.06453v1
- Date: Mon, 11 Mar 2024 06:08:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 20:12:52.966955
- Title: FontCLIP: A Semantic Typography Visual-Language Model for Multilingual
Font Applications
- Title(参考訳): FontCLIP:多言語フォントアプリケーションのためのセマンティックタイポグラフィ視覚言語モデル
- Authors: Yuki Tatsukawa, I-Chao Shen, Anran Qi, Yuki Koyama, Takeo Igarashi,
Ariel Shamir
- Abstract要約: FontCLIPは、大きな視覚言語モデルの意味的理解とタイポグラフィー的知識を結びつけるモデルである。
タイポグラフィー固有の知識を事前学習したCLIPモデルの包括的視覚言語知識に統合する。
FontCLIPの双対モダリティと一般化能力は多言語・多言語フォントの検索と文字形状の最適化を可能にする。
- 参考スコア(独自算出の注目度): 27.609008096617057
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Acquiring the desired font for various design tasks can be challenging and
requires professional typographic knowledge. While previous font retrieval or
generation works have alleviated some of these difficulties, they often lack
support for multiple languages and semantic attributes beyond the training data
domains. To solve this problem, we present FontCLIP: a model that connects the
semantic understanding of a large vision-language model with typographical
knowledge. We integrate typography-specific knowledge into the comprehensive
vision-language knowledge of a pretrained CLIP model through a novel finetuning
approach. We propose to use a compound descriptive prompt that encapsulates
adaptively sampled attributes from a font attribute dataset focusing on Roman
alphabet characters. FontCLIP's semantic typographic latent space demonstrates
two unprecedented generalization abilities. First, FontCLIP generalizes to
different languages including Chinese, Japanese, and Korean (CJK), capturing
the typographical features of fonts across different languages, even though it
was only finetuned using fonts of Roman characters. Second, FontCLIP can
recognize the semantic attributes that are not presented in the training data.
FontCLIP's dual-modality and generalization abilities enable multilingual and
cross-lingual font retrieval and letter shape optimization, reducing the burden
of obtaining desired fonts.
- Abstract(参考訳): 様々なデザインタスクに所望のフォントを取得することは困難であり、専門的なタイポグラフィーの知識を必要とする。
以前のフォント検索や生成作業はこれらの困難を緩和したものの、トレーニングデータドメイン以外の複数の言語やセマンティック属性をサポートしていないことが多い。
この問題を解決するために,大規模な視覚言語モデルの意味的理解とタイポグラフィ的知識を結びつけるモデルFontCLIPを提案する。
タイポグラフィー固有の知識を,新しい微調整手法により事前学習したCLIPモデルの包括的視覚言語知識に統合する。
ローマ字文字に着目したフォント属性データセットから適応的な属性をカプセル化する複合記述プロンプトを提案する。
FontCLIPのセマンティックタイポグラフィー潜在空間は、2つの前例のない一般化能力を示している。
まず、FontCLIPは中国語、日本語、韓国語(CJK)などさまざまな言語に一般化し、ローマ字のフォントを微調整したものの、異なる言語にまたがるフォントの特徴を捉えている。
第二に、FontCLIPはトレーニングデータに表示されていないセマンティック属性を認識することができる。
fontclipのデュアルモダリティと一般化機能は多言語・多言語フォント検索と文字形状最適化を可能にし、所望のフォント獲得の負担を軽減している。
関連論文リスト
- Khattat: Enhancing Readability and Concept Representation of Semantic Typography [0.3994968615706021]
セマンティックタイポグラフィーは、アイデアを選択し、適切なフォントを選択し、創造性と可読性のバランスをとる。
このプロセスを自動化するエンドツーエンドシステムを導入します。
鍵となる機能はOCRベースの損失関数で、読みやすさを高め、複数の文字の同時スタイリングを可能にする。
論文 参考訳(メタデータ) (2024-10-01T18:42:48Z) - GRIF-DM: Generation of Rich Impression Fonts using Diffusion Models [18.15911470339845]
我々は、特定の印象を鮮明に具現化するフォントを生成するための拡散法である「usmethod」を導入する。
MyFontsデータセットを用いて,本手法が現実的で活気があり,高忠実なフォントを生成可能であることを確認した。
論文 参考訳(メタデータ) (2024-08-14T02:26:46Z) - VQ-Font: Few-Shot Font Generation with Structure-Aware Enhancement and
Quantization [52.870638830417]
本稿では,VQGANベースのフレームワーク(VQ-Font)を提案する。
具体的には、コードブック内でフォントトークンをカプセル化するために、VQGANを事前訓練する。その後、VQ-Fontは、合成したグリフをコードブックで洗練し、合成されたストロークと実世界のストロークのドメインギャップをなくす。
論文 参考訳(メタデータ) (2023-08-27T06:32:20Z) - DGFont++: Robust Deformable Generative Networks for Unsupervised Font
Generation [19.473023811252116]
教師なしフォント生成のための頑健な変形可能な生成ネットワークを提案する(略してDGFont++)。
異なるスタイルを区別するために、我々はマルチタスク判別器を用いてモデルを訓練し、それぞれのスタイルを独立して識別できるようにした。
実験により,本モデルは最先端手法よりも高品質なキャラクタ画像を生成することができることが示された。
論文 参考訳(メタデータ) (2022-12-30T14:35:10Z) - Diff-Font: Diffusion Model for Robust One-Shot Font Generation [110.45944936952309]
Diff-Fontという拡散モデルに基づく新しいワンショットフォント生成手法を提案する。
提案するモデルは,フォントライブラリ全体を生成することを目的として,参照として1つのサンプルのみを与える。
十分に訓練されたDiff-Fontは、フォントギャップやフォントのバリエーションに対して堅牢であるだけでなく、難しい文字生成において有望なパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-12-12T13:51:50Z) - FontNet: Closing the gap to font designer performance in font synthesis [3.991334489146843]
本稿では,フォント間の距離がフォント類似度と直接対応するような埋め込み空間において,フォントスタイルの分離を学習するFontNetというモデルを提案する。
我々は,任意の言語システムに適用可能なネットワークアーキテクチャと訓練手順を設計し,高解像度フォント画像を生成する。
論文 参考訳(メタデータ) (2022-05-13T08:37:10Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z) - Scalable Font Reconstruction with Dual Latent Manifolds [55.29525824849242]
タイポグラフィー解析とフォント再構成を行う深層生成モデルを提案する。
このアプローチによって、効果的にモデル化できるキャラクタの種類を大規模にスケールアップすることが可能になります。
多くの言語の文字タイプを表す様々なデータセット上でフォント再構成のタスクを評価する。
論文 参考訳(メタデータ) (2021-09-10T20:37:43Z) - A Multi-Implicit Neural Representation for Fonts [79.6123184198301]
エッジやコーナーのようなフォント固有の不連続性は、ニューラルネットワークを使って表現することが難しい。
そこで我々は,フォントを文順に表現するためのtextitmulti-implicitsを導入する。
論文 参考訳(メタデータ) (2021-06-12T21:40:11Z) - Adaptive Text Recognition through Visual Matching [86.40870804449737]
言語における文字の反復性を利用した新しいモデルを提案する。
これにより、テキスト認識を形状整合問題に変換する。
従来のアーキテクチャでは、高価な再トレーニングなしには解決できない課題に対処できることが示されています。
論文 参考訳(メタデータ) (2020-09-14T17:48:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。