論文の概要: Font Style that Fits an Image -- Font Generation Based on Image Context
- arxiv url: http://arxiv.org/abs/2105.08879v1
- Date: Wed, 19 May 2021 01:53:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-20 13:59:35.957962
- Title: Font Style that Fits an Image -- Font Generation Based on Image Context
- Title(参考訳): 画像にフィットするフォントスタイル-画像コンテキストに基づくフォント生成
- Authors: Taiga Miyazono, Brian Kenji Iwana, Daichi Haraguchi, Seiichi Uchida
- Abstract要約: 本論文では,書籍の表紙内のコンテキストに基づいて,書籍のタイトル画像を生成する手法を提案する。
本稿では,本表紙,目標位置マスク,所望の書籍タイトルを入力し,その表紙に適した文を出力するエンド・ツー・エンドニューラルネットワークを提案する。
提案手法は,定量的かつ定性的な結果によって,本文を効果的に生成できることを実証する。
- 参考スコア(独自算出の注目度): 7.646713951724013
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When fonts are used on documents, they are intentionally selected by
designers. For example, when designing a book cover, the typography of the text
is an important factor in the overall feel of the book. In addition, it needs
to be an appropriate font for the rest of the book cover. Thus, we propose a
method of generating a book title image based on its context within a book
cover. We propose an end-to-end neural network that inputs the book cover, a
target location mask, and a desired book title and outputs stylized text
suitable for the cover. The proposed network uses a combination of a
multi-input encoder-decoder, a text skeleton prediction network, a perception
network, and an adversarial discriminator. We demonstrate that the proposed
method can effectively produce desirable and appropriate book cover text
through quantitative and qualitative results.
- Abstract(参考訳): フォントを文書に使用する場合、意図的にデザイナーによって選択される。
例えば、本のカバーを設計するとき、テキストのタイポグラフィーは本の全体的な感覚において重要な要素である。
さらに、本カバーの残りの部分に適したフォントである必要がある。
そこで本研究では,書籍の表紙内のコンテキストに基づいてタイトル画像を生成する手法を提案する。
本稿では,書籍カバー,ターゲット位置マスク,所望の書籍タイトルを入力し,そのカバーに適したスタイル化されたテキストを出力するエンドツーエンドニューラルネットワークを提案する。
提案ネットワークは,マルチインプットエンコーダデコーダ,テキストスケルトン予測ネットワーク,知覚ネットワーク,および逆微分器の組み合わせを用いている。
提案手法は,定量的かつ定性的な結果によって,本文を効果的に生成できることを実証する。
関連論文リスト
- Font Impression Estimation in the Wild [7.542892664684078]
フォントインプレッションに関するアノテーションを備えたフォントデータセットと、このタスクのための畳み込みニューラルネットワーク(CNN)フレームワークを使用する。
本稿では,入力画像に類似したフォントの印象をアンサンブルする戦略に依拠した,模範的な印象推定手法を提案する。
そこで本研究では,書籍のジャンルとフォント印象の相関分析を行った。
論文 参考訳(メタデータ) (2024-02-23T10:00:25Z) - VQ-Font: Few-Shot Font Generation with Structure-Aware Enhancement and
Quantization [52.870638830417]
本稿では,VQGANベースのフレームワーク(VQ-Font)を提案する。
具体的には、コードブック内でフォントトークンをカプセル化するために、VQGANを事前訓練する。その後、VQ-Fontは、合成したグリフをコードブックで洗練し、合成されたストロークと実世界のストロークのドメインギャップをなくす。
論文 参考訳(メタデータ) (2023-08-27T06:32:20Z) - Interleaving GANs with knowledge graphs to support design creativity for
book covers [77.34726150561087]
本書のカバードメインにGAN(Generative Adversarial Networks)を適用する。
我々は、GANを知識グラフとインターリーブして入力タイトルを変更し、任意のタイトルに対して複数のオプションを得る。
最後に、トレーニング期間中に得られた判別器を用いて、新しいタイトルで生成された最良の画像を選択する。
論文 参考訳(メタデータ) (2023-08-03T08:56:56Z) - Unified Multi-Modal Latent Diffusion for Joint Subject and Text
Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。
より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。
入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-03-16T13:50:20Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - Book Cover Synthesis from the Summary [0.0]
本書の要約と表紙との間には関連性があることから,人工知能を用いて書籍の表紙を作成する方法について検討する。
既存の書籍の要約やそのカバーイメージを多数含む英語書籍のデータセットを構築した。
本論文では,要約から書籍の表紙を生成するために,異なるテキスト・画像合成技術を適用し,その結果を示す。
論文 参考訳(メタデータ) (2022-11-03T20:43:40Z) - A Multi-Implicit Neural Representation for Fonts [79.6123184198301]
エッジやコーナーのようなフォント固有の不連続性は、ニューラルネットワークを使って表現することが難しい。
そこで我々は,フォントを文順に表現するためのtextitmulti-implicitsを導入する。
論文 参考訳(メタデータ) (2021-06-12T21:40:11Z) - Towards Book Cover Design via Layout Graphs [18.028269880425455]
本稿では,手軽なレイアウトグラフに基づいて本のカバーを生成可能な生成ニューラルネットワークを提案する。
レイアウトグラフにはテキスト、自然なシーンオブジェクト、固い色空間などのオブジェクトが含まれている。
論文 参考訳(メタデータ) (2021-05-24T04:28:35Z) - Towards Open-World Text-Guided Face Image Generation and Manipulation [52.83401421019309]
顔画像生成と操作の両方に統一的なフレームワークを提案する。
本手法は,画像とテキストの両方を含むオープンワールドシナリオをサポートし,再トレーニングや微調整,後処理は行わない。
論文 参考訳(メタデータ) (2021-04-18T16:56:07Z) - Deep multi-modal networks for book genre classification based on its
cover [0.0]
カバーベースの書籍分類問題を解決するために,マルチモーダルなディープラーニングフレームワークを提案する。
本手法では,本表紙からテキストを自動的に抽出することで,余分なモダリティを付加する。
その結果、マルチモーダル・フレームワークは現在の最先端画像ベース・モデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-11-15T23:27:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。