論文の概要: CalliffusionV2: Personalized Natural Calligraphy Generation with Flexible Multi-modal Control
- arxiv url: http://arxiv.org/abs/2410.03787v1
- Date: Thu, 3 Oct 2024 20:26:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 16:20:48.029314
- Title: CalliffusionV2: Personalized Natural Calligraphy Generation with Flexible Multi-modal Control
- Title(参考訳): CalliffusionV2:フレキシブルマルチモーダル制御によるパーソナライズされた自然書体生成
- Authors: Qisheng Liao, Liang Li, Yulang Fei, Gus Xia,
- Abstract要約: CalliffusionV2は、フレキシブルなマルチモーダル制御を備えた自然中国語書道を作成するために設計された新しいシステムである。
幅広いキャラクタの作成に長けており、数ショットの学習アプローチで新しいスタイルを素早く学習することができる。
事前の訓練なしに漢字以外の文字を生成できる。
- 参考スコア(独自算出の注目度): 8.2481475383203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce CalliffusionV2, a novel system designed to produce natural Chinese calligraphy with flexible multi-modal control. Unlike previous approaches that rely solely on image or text inputs and lack fine-grained control, our system leverages both images to guide generations at fine-grained levels and natural language texts to describe the features of generations. CalliffusionV2 excels at creating a broad range of characters and can quickly learn new styles through a few-shot learning approach. It is also capable of generating non-Chinese characters without prior training. Comprehensive tests confirm that our system produces calligraphy that is both stylistically accurate and recognizable by neural network classifiers and human evaluators.
- Abstract(参考訳): 本稿では,自由なマルチモーダル制御を備えた自然中国語書道システムCaliffusionV2を紹介する。
画像やテキストのみに頼り、きめ細かい制御を欠く従来のアプローチとは異なり、このシステムは両方の画像を利用して、きめ細かいレベルで世代を案内し、世代の特徴を記述する自然言語テキストを作成する。
CalliffusionV2は幅広い文字の作成に優れており、数ショットの学習アプローチで新しいスタイルを素早く学習することができる。
事前の訓練なしに漢字以外の文字を生成できる。
網羅的なテストにより,ニューラルネットワーク分類器と人的評価器によって,スタイリスティックに正確かつ認識可能な書体が生成されていることを確認した。
関連論文リスト
- Decoupling Layout from Glyph in Online Chinese Handwriting Generation [6.566541829858544]
テキスト行レイアウト生成器とスタイル化フォント合成器を開発した。
レイアウトジェネレータは、テキスト内容と提供されたスタイル参照に基づいて、コンテキスト内学習を行い、各グリフに対する位置を自己回帰的に生成する。
文字埋め込み辞書、マルチスケールの書体スタイルエンコーダ、及び1DのU-Netベースの拡散デノイザからなるフォントシンセサイザは、所定のスタイル参照から抽出された書体スタイルを模倣しつつ、その位置に各フォントを生成する。
論文 参考訳(メタデータ) (2024-10-03T08:46:17Z) - DeepCalliFont: Few-shot Chinese Calligraphy Font Synthesis by
Integrating Dual-modality Generative Models [20.76773399161289]
特に中国語のフォントのフォント生成は困難で、進行中の課題である。
本稿では,2つのモダリティ生成モデルを統合することで,数ショットの漢字フォント合成のための新しいモデルDeepCalliFontを提案する。
論文 参考訳(メタデータ) (2023-12-16T04:23:12Z) - Calliffusion: Chinese Calligraphy Generation and Style Transfer with
Diffusion Modeling [1.856334276134661]
拡散モデルを用いて高品質な漢字書体を生成するシステムであるCaliffusionを提案する。
我々のモデルアーキテクチャはDDPM(Denoising Diffusion Probabilistic Models)に基づいている
論文 参考訳(メタデータ) (2023-05-30T15:34:45Z) - GlyphDiffusion: Text Generation as Image Generation [100.98428068214736]
テキスト誘導画像生成によるテキスト生成のための新しい拡散手法であるGlyphDiffusionを提案する。
私たちのキーとなるアイデアは、ターゲットのテキストを視覚言語コンテンツを含むグリフイメージとしてレンダリングすることです。
また,本モデルでは,近年の拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-04-25T02:14:44Z) - Unified Multi-Modal Latent Diffusion for Joint Subject and Text
Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。
より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。
入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-03-16T13:50:20Z) - Universal Multimodal Representation for Language Understanding [110.98786673598015]
本研究は,一般的なNLPタスクの補助信号として視覚情報を利用する新しい手法を提案する。
各文に対して、まず、既存の文-画像ペア上で抽出された軽トピック-画像検索テーブルから、フレキシブルな画像を検索する。
そして、テキストと画像はそれぞれトランスフォーマーエンコーダと畳み込みニューラルネットワークによって符号化される。
論文 参考訳(メタデータ) (2023-01-09T13:54:11Z) - Controllable Natural Language Generation with Contrastive Prefixes [120.12778570283956]
GPT2生成は、自然言語生成を操るために、プレフィックスと呼ばれる小さな属性固有のベクトルのセットを利用する。
単一アスペクト制御のための接頭辞を訓練するための新しい教師なし手法と教師なし手法を提案する。
単一アスペクト制御と多アスペクト制御の両方の実験結果から,提案手法は高い言語的品質を維持しつつ,所望の属性に向かって生成を導くことができることがわかった。
論文 参考訳(メタデータ) (2022-02-27T00:31:03Z) - Scalable Font Reconstruction with Dual Latent Manifolds [55.29525824849242]
タイポグラフィー解析とフォント再構成を行う深層生成モデルを提案する。
このアプローチによって、効果的にモデル化できるキャラクタの種類を大規模にスケールアップすることが可能になります。
多くの言語の文字タイプを表す様々なデータセット上でフォント再構成のタスクを評価する。
論文 参考訳(メタデータ) (2021-09-10T20:37:43Z) - Improving Disentangled Text Representation Learning with
Information-Theoretic Guidance [99.68851329919858]
自然言語の独特な性質は、テキスト表現の分離をより困難にする。
情報理論にインスパイアされた本研究では,テキストの不整合表現を効果的に表現する手法を提案する。
条件付きテキスト生成とテキストスタイル転送の両方の実験は、不整合表現の質を実証する。
論文 参考訳(メタデータ) (2020-06-01T03:36:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。