論文の概要: Word-As-Image for Semantic Typography
- arxiv url: http://arxiv.org/abs/2303.01818v2
- Date: Mon, 6 Mar 2023 16:34:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 12:08:44.181301
- Title: Word-As-Image for Semantic Typography
- Title(参考訳): セマンティックタイポグラフィのためのワード・アズ・イメージ
- Authors: Shir Iluz, Yael Vinker, Amir Hertz, Daniel Berio, Daniel Cohen-Or,
Ariel Shamir
- Abstract要約: 単語・アズ・イメージ(Word-as-image)は、単語のイラストが単語の意味を視覚化するセマンティック・タイポグラフィー技法である。
本稿では,単語・アズ・イメージのイラストを自動生成する手法を提案する。
- 参考スコア(独自算出の注目度): 41.380457098839926
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: A word-as-image is a semantic typography technique where a word illustration
presents a visualization of the meaning of the word, while also preserving its
readability. We present a method to create word-as-image illustrations
automatically. This task is highly challenging as it requires semantic
understanding of the word and a creative idea of where and how to depict these
semantics in a visually pleasing and legible manner. We rely on the remarkable
ability of recent large pretrained language-vision models to distill textual
concepts visually. We target simple, concise, black-and-white designs that
convey the semantics clearly. We deliberately do not change the color or
texture of the letters and do not use embellishments. Our method optimizes the
outline of each letter to convey the desired concept, guided by a pretrained
Stable Diffusion model. We incorporate additional loss terms to ensure the
legibility of the text and the preservation of the style of the font. We show
high quality and engaging results on numerous examples and compare to
alternative techniques.
- Abstract(参考訳): ワード・アズ・イメージ(word-as-image)は、単語イラストが単語の意味を視覚化し、読みやすさを保ちながら表現する意味的タイポグラフィー技法である。
本稿では,単語・アズ・イメージのイラストを自動生成する手法を提案する。
この課題には、単語の意味的理解と、これらの意味を視覚的に快く妥当な方法で表現する方法の創造的アイデアが必要であるため、非常に難しい。
テキスト概念を視覚的に蒸留する,近年の大規模事前学習言語ビジョンモデルの顕著な能力に頼っている。
セマンティクスを明確に伝えるシンプルで簡潔で白黒のデザインをターゲットにしています。
我々は意図的に文字の色やテクスチャを変えず、装飾を使わない。
本手法では,各文字の輪郭を最適化し,事前学習した安定拡散モデルに導かれる望ましい概念を伝える。
我々は、テキストの正当性とフォントのスタイルの保存を保証するために、追加の損失項を組み込んだ。
多数の例で高い品質と魅力的な結果を示し、代替技術と比較する。
関連論文リスト
- Beyond Color and Lines: Zero-Shot Style-Specific Image Variations with Coordinated Semantics [3.9717825324709413]
スタイルは、主に色、ブラシストローク、照明といった芸術的要素の観点から検討されてきた。
本研究では,コーディネート・セマンティクスを用いた画像変化のためのゼロショット・スキームを提案する。
論文 参考訳(メタデータ) (2024-10-24T08:34:57Z) - Compositional Entailment Learning for Hyperbolic Vision-Language Models [54.41927525264365]
画像とテキストのペアを超えて、双曲的埋め込みの自然的階層性を完全に活用する方法を示す。
双曲型視覚言語モデルのための構成的包摂学習を提案する。
数百万の画像テキストペアで訓練された双曲型視覚言語モデルに対する経験的評価は、提案手法が従来のユークリッドCLIP学習より優れていることを示している。
論文 参考訳(メタデータ) (2024-10-09T14:12:50Z) - Text Guided Image Editing with Automatic Concept Locating and Forgetting [27.70615803908037]
画像中の潜在的なターゲット概念を特定するために,Locate and Forget (LaF) と呼ばれる新しい手法を提案する。
本手法はベースラインと比較して,テキスト誘導画像編集作業において質的かつ定量的に優位性を示す。
論文 参考訳(メタデータ) (2024-05-30T05:36:32Z) - Hypernymy Understanding Evaluation of Text-to-Image Models via WordNet
Hierarchy [12.82992353036576]
我々は、textithypernymy$や単語間の"is-a"関係を理解するために、人気のあるテキスト・画像モデルの有用性を測定する。
私たちのメトリクスが、一般的なテキスト・ツー・イメージモデルの個々の長所と短所をよりよく理解する上で、どのように役立つかを示します。
論文 参考訳(メタデータ) (2023-10-13T16:53:25Z) - Inversion-Based Style Transfer with Diffusion Models [78.93863016223858]
以前の任意の例として誘導された芸術的画像生成法は、しばしば形状変化の制御や要素の伝達に失敗する。
画像のキー情報を効率よく正確に学習できるインバージョンベースのスタイル転送手法(InST)を提案する。
論文 参考訳(メタデータ) (2022-11-23T18:44:25Z) - Comprehending and Ordering Semantics for Image Captioning [124.48670699658649]
我々はトランスフォーマー型構造,すなわちComprehending and Ordering Semantics Networks (COS-Net) の新たなレシピを提案する。
COS-Netは、豊富なセマンティックコンプレッディングと学習可能なセマンティックオーダリングプロセスを単一のアーキテクチャに統合する。
論文 参考訳(メタデータ) (2022-06-14T15:51:14Z) - Toward a Visual Concept Vocabulary for GAN Latent Space [74.12447538049537]
本稿では,GANの潜在空間で表現される原始視覚概念のオープンエンド語彙を構築するための新しい手法を提案する。
提案手法は, 層選択性に基づく知覚的正当方向の自動識別, 自由形, 構成的自然言語記述による人為的アノテーションの3つの要素から構成される。
実験により、我々のアプローチで学んだ概念は信頼性があり、構成可能であることが示され、クラス、コンテキスト、オブザーバをまたいで一般化される。
論文 参考訳(メタデータ) (2021-10-08T17:58:19Z) - Paint by Word [32.05329583044764]
ゼロショット・セマンティック・イメージ・ペインティングの問題点について検討する。
具体的な色やセマンティックな概念の有限セットのみを用いて画像に修正を描き込む代わりに、オープンなフルテキスト記述に基づいてセマンティックペイントを作成する方法について尋ねる。
本手法は,現実的な画像の最先端生成モデルと,最先端のテキスト画像意味的類似性ネットワークを組み合わせる。
論文 参考訳(メタデータ) (2021-03-19T17:59:08Z) - Accurate Word Representations with Universal Visual Guidance [55.71425503859685]
本稿では,視覚指導から従来の単語埋め込みを視覚的に強調する視覚的表現法を提案する。
各単語が多様な関連画像に対応するマルチモーダルシードデータセットから,小型の単語画像辞書を構築する。
12の自然言語理解および機械翻訳タスクの実験により,提案手法の有効性と一般化能力がさらに検証された。
論文 参考訳(メタデータ) (2020-12-30T09:11:50Z) - GANwriting: Content-Conditioned Generation of Styled Handwritten Word
Images [10.183347908690504]
我々は、リアルで多様な人工的に書かれた手書きの単語を作ることに一歩近づいた。
書体スタイルの特徴とテキストコンテンツの両方で生成過程を条件付けることにより,信頼できる手書きの単語画像を生成する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-05T12:37:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。