論文の概要: Font Completion and Manipulation by Cycling Between Multi-Modality
Representations
- arxiv url: http://arxiv.org/abs/2108.12965v1
- Date: Mon, 30 Aug 2021 02:43:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-31 22:22:04.462329
- Title: Font Completion and Manipulation by Cycling Between Multi-Modality
Representations
- Title(参考訳): マルチモダリティ表現間のサイクリングによるフォント補完と操作
- Authors: Ye Yuan, Wuyang Chen, Zhaowen Wang, Matthew Fisher, Zhifei Zhang,
Zhangyang Wang, Hailin Jin
- Abstract要約: 中間表現としてグラフを用いた2次元グラフィックオブジェクトとしてフォントグリフの生成を探求する。
我々は、画像エンコーダと画像の間のグラフで、モダリティサイクルのイメージ・ツー・イメージ構造を定式化する。
本モデルでは,画像から画像までのベースラインと,それ以前のグリフ補完手法よりも改善された結果を生成する。
- 参考スコア(独自算出の注目度): 113.26243126754704
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Generating font glyphs of consistent style from one or a few reference
glyphs, i.e., font completion, is an important task in topographical design. As
the problem is more well-defined than general image style transfer tasks, thus
it has received interest from both vision and machine learning communities.
Existing approaches address this problem as a direct image-to-image translation
task. In this work, we innovate to explore the generation of font glyphs as 2D
graphic objects with the graph as an intermediate representation, so that more
intrinsic graphic properties of font styles can be captured. Specifically, we
formulate a cross-modality cycled image-to-image model structure with a graph
constructor between an image encoder and an image renderer. The novel graph
constructor maps a glyph's latent code to its graph representation that matches
expert knowledge, which is trained to help the translation task. Our model
generates improved results than both image-to-image baseline and previous
state-of-the-art methods for glyph completion. Furthermore, the graph
representation output by our model also provides an intuitive interface for
users to do local editing and manipulation. Our proposed cross-modality cycled
representation learning has the potential to be applied to other domains with
prior knowledge from different data modalities. Our code is available at
https://github.com/VITA-Group/Font_Completion_Graph.
- Abstract(参考訳): 一貫したスタイルのフォントグリフを1つまたはいくつかの参照グリフ、すなわちフォント補完から生成することは、地形設計において重要なタスクである。
問題は一般的なイメージスタイル転送タスクよりも明確に定義されているため、視覚と機械学習の両方のコミュニティから関心を集めている。
既存のアプローチでは、この問題を画像から画像への直接翻訳タスクとして扱う。
本研究では,中間表現としてグラフを用いた2次元グラフィックオブジェクトとしてのフォントグリフの生成を探求し,フォントスタイルのより内在的なグラフィック特性を捉える。
具体的には,画像エンコーダと画像レンダラ間のグラフコンストラクタを用いて,相互モダリティサイクルによる画像から画像へのモデル構造を定式化する。
新しいグラフコンストラクタは、glyphの潜在コードを、翻訳タスクを支援するために訓練された専門家の知識にマッチするグラフ表現にマップする。
本モデルでは,画像から画像までのベースラインと,それ以前のグリフ補完手法よりも改善された結果を生成する。
さらに,モデルが出力するグラフ表現は,ユーザがローカル編集や操作を行うための直感的なインターフェースも提供する。
提案したクロスモダリティサイクル表現学習は、異なるデータモダリティから事前知識を持つ他のドメインに適用できる可能性がある。
私たちのコードはhttps://github.com/VITA-Group/Font_Completion_Graphで利用可能です。
関連論文リスト
- InstructG2I: Synthesizing Images from Multimodal Attributed Graphs [50.852150521561676]
InstructG2Iと呼ばれるグラフ文脈条件拡散モデルを提案する。
InstructG2Iはまずグラフ構造とマルチモーダル情報を利用して情報的隣人サンプリングを行う。
Graph-QFormerエンコーダは、グラフノードをグラフプロンプトの補助セットに適応的に符号化し、デノナイジングプロセスを導く。
論文 参考訳(メタデータ) (2024-10-09T17:56:15Z) - JoyType: A Robust Design for Multilingual Visual Text Creation [14.441897362967344]
複数言語によるビジュアルテキスト作成のための新しい手法JoyTypeを紹介した。
JoyTypeは、画像生成プロセス中にテキストのフォントスタイルを維持するように設計されている。
実測値と精度の両面から評価した結果,JoyTypeが既存の最先端手法を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-09-26T04:23:17Z) - DualVector: Unsupervised Vector Font Synthesis with Dual-Part
Representation [43.64428946288288]
現在のフォント合成法では、形状を簡潔に表現できないか、訓練中にベクトル監督を必要とする。
ベクトルグリフに対する新しい双対表現を提案し、各グリフは閉「正」経路対と「負」経路対の集合としてモデル化される。
我々の手法はDual-of-Font-artと呼ばれ、最先端の手法よりも実用性が高い。
論文 参考訳(メタデータ) (2023-05-17T08:18:06Z) - GlyphDraw: Seamlessly Rendering Text with Intricate Spatial Structures
in Text-to-Image Generation [18.396131717250793]
GlyphDrawは、画像生成モデルに特定の言語に対して、テキストにコヒーレントに埋め込まれた画像を生成する能力を持たせることを目的とした、一般的な学習フレームワークである。
提案手法は,プロンプトのように正確な言語文字を生成するだけでなく,生成したテキストを背景にシームレスにブレンドする。
論文 参考訳(メタデータ) (2023-03-31T08:06:33Z) - DGFont++: Robust Deformable Generative Networks for Unsupervised Font
Generation [19.473023811252116]
教師なしフォント生成のための頑健な変形可能な生成ネットワークを提案する(略してDGFont++)。
異なるスタイルを区別するために、我々はマルチタスク判別器を用いてモデルを訓練し、それぞれのスタイルを独立して識別できるようにした。
実験により,本モデルは最先端手法よりも高品質なキャラクタ画像を生成することができることが示された。
論文 参考訳(メタデータ) (2022-12-30T14:35:10Z) - Diffusion-Based Scene Graph to Image Generation with Masked Contrastive
Pre-Training [112.94542676251133]
画像とのアライメントを直接最適化することで,シーングラフの埋め込みを学習する。
具体的には,シーングラフからグローバル情報とローカル情報の両方を抽出するエンコーダを事前訓練する。
SGDiffと呼ばれる結果の方法は、シーングラフノードと接続を変更することによって生成された画像のセマンティックな操作を可能にする。
論文 参考訳(メタデータ) (2022-11-21T01:11:19Z) - Learning to Generate Scene Graph from Natural Language Supervision [52.18175340725455]
シーングラフと呼ばれる画像内の局所化オブジェクトとその関係をグラフィカルに表現するために,画像と文のペアから学習する最初の方法の1つを提案する。
既製のオブジェクト検出器を利用してオブジェクトのインスタンスを識別し、ローカライズし、検出された領域のラベルとキャプションから解析された概念をマッチングし、シーングラフを学習するための"擬似ラベル"を作成する。
論文 参考訳(メタデータ) (2021-09-06T03:38:52Z) - Learning Implicit Glyph Shape Representation [6.413829791927052]
本稿では,2次曲線を囲む形状プリミティブとしてグリフを表現し,任意の高分解能でグリフ像を自然に生成できる,新しい暗黙的なグリフ形状表現を提案する。
提案した表現に基づいて,一発フォントスタイルの転送問題に挑戦する上で,単純だが効果的に絡み合ったネットワークを設計する。
論文 参考訳(メタデータ) (2021-06-16T06:42:55Z) - Structural Information Preserving for Graph-to-Text Generation [59.00642847499138]
グラフ・トゥ・テキスト生成の課題は、入力グラフの意味を保存した文を生成することである。
入力情報を保存するためのモデルとして,より豊かなトレーニング信号を活用することで,この問題に取り組むことを提案する。
グラフからテキストへの生成のための2つのベンチマークに関する実験は、最先端のベースラインに対するアプローチの有効性を示しています。
論文 参考訳(メタデータ) (2021-02-12T20:09:01Z) - Bridging Knowledge Graphs to Generate Scene Graphs [49.69377653925448]
本稿では,2つのグラフ間の情報伝達を反復的に行う新しいグラフベースニューラルネットワークを提案する。
我々のグラフブリッジネットワークであるGB-Netは、エッジとノードを連続的に推論し、相互接続されたシーンとコモンセンスグラフのリッチでヘテロジニアスな構造を同時に活用し、洗練する。
論文 参考訳(メタデータ) (2020-01-07T23:35:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。