論文の概要: One-Shot Multilingual Font Generation Via ViT
- arxiv url: http://arxiv.org/abs/2412.11342v1
- Date: Sun, 15 Dec 2024 23:52:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:57:20.008417
- Title: One-Shot Multilingual Font Generation Via ViT
- Title(参考訳): ワンショット多言語フォント生成Via ViT
- Authors: Zhiheng Wang, Jiarui Liu,
- Abstract要約: フォントデザインは、中国語、日本語、韓国語といったログラフ言語に固有の課題をもたらす。
本稿では,多言語フォント生成のためのビジョントランスフォーマー(ViT)ベースのモデルを提案する。
- 参考スコア(独自算出の注目度): 2.023301270280465
- License:
- Abstract: Font design poses unique challenges for logographic languages like Chinese, Japanese, and Korean (CJK), where thousands of unique characters must be individually crafted. This paper introduces a novel Vision Transformer (ViT)-based model for multi-language font generation, effectively addressing the complexities of both logographic and alphabetic scripts. By leveraging ViT and pretraining with a strong visual pretext task (Masked Autoencoding, MAE), our model eliminates the need for complex design components in prior frameworks while achieving comprehensive results with enhanced generalizability. Remarkably, it can generate high-quality fonts across multiple languages for unseen, unknown, and even user-crafted characters. Additionally, we integrate a Retrieval-Augmented Guidance (RAG) module to dynamically retrieve and adapt style references, improving scalability and real-world applicability. We evaluated our approach in various font generation tasks, demonstrating its effectiveness, adaptability, and scalability.
- Abstract(参考訳): フォントデザインは、中国語、日本語、韓国語(CJK)のようなログ言語に固有の課題を生じさせ、何千ものユニークな文字を個別に作らなければならない。
本稿では,多言語フォント生成のための新しいビジョントランスフォーマー(ViT)モデルを提案する。
ViTを活用して、強力な視覚的プリテキストタスク(Masked Autoencoding, MAE)で事前学習を行うことにより、我々のモデルは、一般化性を高めた総合的な結果を達成するとともに、以前のフレームワークにおける複雑な設計コンポーネントの必要性を排除します。
注目すべきは、複数の言語にまたがる高品質なフォントを生成できることだ。
さらに、Retrieval-Augmented Guidance(RAG)モジュールを統合して、スタイル参照を動的に検索し、適応させ、スケーラビリティと実世界の適用性を改善します。
フォント生成タスクにおける我々のアプローチを評価し,その有効性,適応性,拡張性を実証した。
関連論文リスト
- Towards Visual Text Design Transfer Across Languages [49.78504488452978]
マルチモーダル・スタイル翻訳(MuST-Bench)の新たな課題について紹介する。
MuST-Benchは、視覚テキスト生成モデルが様々な書き込みシステム間で翻訳を行う能力を評価するために設計されたベンチマークである。
そこで我々は,スタイル記述の必要性を解消する多モーダルなスタイル翻訳フレームワークであるSIGILを紹介した。
論文 参考訳(メタデータ) (2024-10-24T15:15:01Z) - StrucTexTv3: An Efficient Vision-Language Model for Text-rich Image Perception, Comprehension, and Beyond [68.0107158115377]
我々は、テキストリッチな画像のための様々なインテリジェントなタスクに取り組むために、効率的な視覚言語モデルStrucTexTv3を開発した。
学習を通してStrucTexTv3の知覚と理解能力を高める。
提案手法は,テキストに富んだ画像認識タスクでSOTAを達成し,理解タスクの性能を大幅に向上させた。
論文 参考訳(メタデータ) (2024-05-31T16:55:04Z) - DiffCJK: Conditional Diffusion Model for High-Quality and Wide-coverage CJK Character Generation [1.0044057719679087]
本稿では,単一の条件付き標準グリフ形式から,対象とするスタイルでグリフを生成する新しい拡散法を提案する。
提案手法は,CJK以外の中国語にヒントを得たスクリプトに対して,目覚ましいゼロショットの一般化機能を示す。
要約して,提案手法は,CJK文字に対する高品質な生成モデル支援フォント作成への扉を開く。
論文 参考訳(メタデータ) (2024-04-08T05:58:07Z) - GiT: Towards Generalist Vision Transformer through Universal Language Interface [94.33443158125186]
本稿では,バニラ ViT のみを用いて,様々な視覚タスクに同時に適用可能な,シンプルかつ効果的な GiT フレームワークを提案する。
GiTはマルチタスクのビジュアルモデルで、タスク固有の微調整なしで5つの代表的なベンチマークで共同でトレーニングされている。
論文 参考訳(メタデータ) (2024-03-14T13:47:41Z) - FontCLIP: A Semantic Typography Visual-Language Model for Multilingual
Font Applications [27.609008096617057]
FontCLIPは、大きな視覚言語モデルの意味的理解とタイポグラフィー的知識を結びつけるモデルである。
タイポグラフィー固有の知識を事前学習したCLIPモデルの包括的視覚言語知識に統合する。
FontCLIPの双対モダリティと一般化能力は多言語・多言語フォントの検索と文字形状の最適化を可能にする。
論文 参考訳(メタデータ) (2024-03-11T06:08:16Z) - VLIS: Unimodal Language Models Guide Multimodal Language Generation [23.094728230459125]
VLIS(Importance Smpling weights)として視覚言語モデルを導入する。
視覚言語モデルの視覚的条件付け能力と、追加のトレーニングを伴わずに、アンモダルテキストのみの言語モデルの言語理解を組み合わせる。
VLISは、常識理解や複雑なテキスト生成など、様々なタスクにおける視覚言語モデルを改善する。
論文 参考訳(メタデータ) (2023-10-15T07:58:52Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - GAS-Net: Generative Artistic Style Neural Networks for Fonts [8.569974263629218]
このプロジェクトはAGIS-Netをベースとした数発のクロスランガルフォントジェネレータを開発することを目的としている。
我々のアプローチには、エンコーダと損失関数の再設計が含まれる。
提案手法は,複数の言語とデータセットで検証する。
論文 参考訳(メタデータ) (2022-12-06T11:23:16Z) - Scalable Font Reconstruction with Dual Latent Manifolds [55.29525824849242]
タイポグラフィー解析とフォント再構成を行う深層生成モデルを提案する。
このアプローチによって、効果的にモデル化できるキャラクタの種類を大規模にスケールアップすることが可能になります。
多くの言語の文字タイプを表す様々なデータセット上でフォント再構成のタスクを評価する。
論文 参考訳(メタデータ) (2021-09-10T20:37:43Z) - Adaptive Text Recognition through Visual Matching [86.40870804449737]
言語における文字の反復性を利用した新しいモデルを提案する。
これにより、テキスト認識を形状整合問題に変換する。
従来のアーキテクチャでは、高価な再トレーニングなしには解決できない課題に対処できることが示されています。
論文 参考訳(メタデータ) (2020-09-14T17:48:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。