論文の概要: IconShop: Text-Guided Vector Icon Synthesis with Autoregressive
Transformers
- arxiv url: http://arxiv.org/abs/2304.14400v2
- Date: Wed, 24 May 2023 13:45:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 01:25:49.083487
- Title: IconShop: Text-Guided Vector Icon Synthesis with Autoregressive
Transformers
- Title(参考訳): IconShop: 自動回帰変換器を用いたテキストガイドベクトルアイコン合成
- Authors: Ronghuan Wu, Wanchao Su, Kede Ma, Jing Liao
- Abstract要約: 自動回帰変換器を用いたテキスト誘導ベクトルアイコン合成法であるIconShopを導入する。
IconShopは、既存の画像ベースや言語ベースの方法よりも優れたアイコン合成機能を備えている。
- 参考スコア(独自算出の注目度): 35.9550310656242
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scalable Vector Graphics (SVG) is a popular vector image format that offers
good support for interactivity and animation. Despite its appealing
characteristics, creating custom SVG content can be challenging for users due
to the steep learning curve required to understand SVG grammars or get familiar
with professional editing software. Recent advancements in text-to-image
generation have inspired researchers to explore vector graphics synthesis using
either image-based methods (i.e., text -> raster image -> vector graphics)
combining text-to-image generation models with image vectorization, or
language-based methods (i.e., text -> vector graphics script) through
pretrained large language models. However, these methods still suffer from
limitations in terms of generation quality, diversity, and flexibility. In this
paper, we introduce IconShop, a text-guided vector icon synthesis method using
autoregressive transformers. The key to success of our approach is to
sequentialize and tokenize SVG paths (and textual descriptions as guidance)
into a uniquely decodable token sequence. With that, we are able to fully
exploit the sequence learning power of autoregressive transformers, while
enabling both unconditional and text-conditioned icon synthesis. Through
standard training to predict the next token on a large-scale vector icon
dataset accompanied by textural descriptions, the proposed IconShop
consistently exhibits better icon synthesis capability than existing
image-based and language-based methods both quantitatively and qualitatively.
Meanwhile, we observe a dramatic improvement in generation diversity, which is
validated by the objective Uniqueness and Novelty measures. More importantly,
we demonstrate the flexibility of IconShop with multiple novel icon synthesis
tasks, including icon editing, icon interpolation, icon semantic combination,
and icon design auto-suggestion.
- Abstract(参考訳): Scalable Vector Graphics (SVG)は、対話性とアニメーションの優れたサポートを提供する人気のあるベクトル画像フォーマットである。
その魅力的な特徴にもかかわらず、SVG文法の理解やプロの編集ソフトに慣れるために必要な学習曲線が急激なため、ユーザにとってカスタムSVGコンテンツの作成は困難である。
近年のテキスト対画像生成の進歩は、テキスト対画像生成モデルと画像ベクトル化を組み合わせた画像ベース手法(例:テキスト ->ラスター画像 ->ベクターグラフィックス)と、事前学習された大規模言語モデルによる言語ベース手法(例:テキスト ->ベクターグラフィックススクリプト)のどちらでもベクターグラフィックス合成を探求するきっかけとなった。
しかし、これらの手法は、生成品質、多様性、柔軟性の限界に悩まされている。
本稿では,自動回帰変換器を用いたテキスト誘導ベクトルアイコン合成法であるIconShopを紹介する。
このアプローチの成功の鍵は、SVGパス(およびガイダンスとしてのテキスト記述)をユニークなデオード可能なトークンシーケンスにシーケンシャル化し、トークン化することです。
これにより、自動回帰変換器のシーケンス学習能力をフル活用し、無条件およびテキスト条件のアイコン合成を可能にする。
テキスト記述を伴う大規模ベクトルアイコンデータセット上で次のトークンを予測するための標準的なトレーニングを通じて、提案したIconShopは、既存の画像ベースおよび言語ベースの方法よりも定量的かつ定性的に優れたアイコン合成能力を示す。
一方,世代多様性の劇的な改善は,客観的な一意性と新規性尺度によって検証される。
さらに,アイコン編集,アイコン補間,アイコンセマンティクスの組み合わせ,アイコンデザインの自動表示など,複数の新しいアイコン合成タスクを備えたアイコンショップの柔軟性を示す。
関連論文リスト
- VectorFusion: Text-to-SVG by Abstracting Pixel-Based Diffusion Models [82.93345261434943]
画像の画素表現に基づいて訓練されたテキスト条件付き拡散モデルを用いて,SVG-exportable vector graphicsを生成する。
近年のテキスト・ツー・3D研究に触発されて,Score Distillation Smpling を用いたキャプションと整合したSVGを学習した。
実験では、以前の作品よりも品質が向上し、ピクセルアートやスケッチを含む様々なスタイルが示されている。
論文 参考訳(メタデータ) (2022-11-21T10:04:27Z) - Transforming Image Generation from Scene Graphs [11.443097632746763]
本稿では,デコーダを用いて自動回帰合成を行うシーングラフを用いたトランスフォーマ方式を提案する。
提案アーキテクチャは,1)入力グラフの関係を符号化するグラフ畳み込みネットワーク,2)出力画像を自己回帰的に合成するエンコーダ・デコーダ変換器,3)各生成ステップの入力/出力として使用される表現を生成するオートエンコーダの3つのモジュールから構成される。
論文 参考訳(メタデータ) (2022-07-01T16:59:38Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - Towards Layer-wise Image Vectorization [57.26058135389497]
画像をSVGに変換し,画像トポロジを同時に維持するためのレイヤワイズ画像ベクトル化(LIVE)を提案する。
Liveは、人間の視点にセマンティックに整合した階層構造を持つコンパクトなフォームを生成する。
Liveは、デザイナの両方のために編集可能なSVGを起動し、他のアプリケーションで使用することができる。
論文 参考訳(メタデータ) (2022-06-09T17:55:02Z) - Improving Visual Quality of Image Synthesis by A Token-based Generator
with Transformers [51.581926074686535]
本稿では,このタスクを視覚的トークン生成問題とみなして,画像合成の新たな視点を示す。
提案したTokenGANは、広く使われている画像合成ベンチマークで最先端の結果を得た。
論文 参考訳(メタデータ) (2021-11-05T12:57:50Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。