論文の概要: StrokeNUWA: Tokenizing Strokes for Vector Graphic Synthesis
- arxiv url: http://arxiv.org/abs/2401.17093v1
- Date: Tue, 30 Jan 2024 15:20:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 14:31:04.228231
- Title: StrokeNUWA: Tokenizing Strokes for Vector Graphic Synthesis
- Title(参考訳): StrokeNUWA:ベクトルグラフ合成のためのトークン化ストローク
- Authors: Zecheng Tang, Chenfei Wu, Zekai Zhang, Mingheng Ni, Shengming Yin, Yu
Liu, Zhengyuan Yang, Lijuan Wang, Zicheng Liu, Juntao Li, Nan Duan
- Abstract要約: StrokeNUWAはベクターグラフィックスにおけるより良い視覚表現'ストロークトークン'を探求する先駆的な研究である。
ストロークトークンを備えたStrokeNUWAは、従来のLCMベースの最適化ベースのメソッドを大幅に上回ることができる。
StrokeNUWAは、SVGコード圧縮比が6.9%の従来の手法よりも94倍のスピードアップを達成している。
- 参考スコア(独自算出の注目度): 112.25071764647683
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To leverage LLMs for visual synthesis, traditional methods convert raster
image information into discrete grid tokens through specialized visual modules,
while disrupting the model's ability to capture the true semantic
representation of visual scenes. This paper posits that an alternative
representation of images, vector graphics, can effectively surmount this
limitation by enabling a more natural and semantically coherent segmentation of
the image information. Thus, we introduce StrokeNUWA, a pioneering work
exploring a better visual representation ''stroke tokens'' on vector graphics,
which is inherently visual semantics rich, naturally compatible with LLMs, and
highly compressed. Equipped with stroke tokens, StrokeNUWA can significantly
surpass traditional LLM-based and optimization-based methods across various
metrics in the vector graphic generation task. Besides, StrokeNUWA achieves up
to a 94x speedup in inference over the speed of prior methods with an
exceptional SVG code compression ratio of 6.9%.
- Abstract(参考訳): LLMを視覚合成に利用するために、従来の手法では、ラスター画像情報を特殊な視覚モジュールを通して離散グリッドトークンに変換するが、モデルが視覚シーンの真の意味表現をキャプチャする能力を損なう。
本稿では,画像情報のより自然なセグメンテーションとセマンティックなセグメンテーションを可能にすることにより,画像の代替表現であるベクトルグラフィックスが,この制限を効果的に克服できることを示す。
そこで我々は,ベクトルグラフィックス上でより優れた視覚表現「ストロークトークン」を探索する先駆的な研究であるStrokeNUWAを紹介した。
ストロークトークンを備えたStrokeNUWAは、ベクトルグラフィック生成タスクにおいて、様々なメトリクスにわたる従来のLCMベースの最適化ベースのメソッドを大幅に上回ることができる。
さらに、 strokenuwaは以前のメソッドの速度よりも94倍のスピードアップを実現し、例外的なsvgコード圧縮比は6.9%である。
関連論文リスト
- Generalizable Entity Grounding via Assistance of Large Language Model [77.07759442298666]
本稿では,長いキャプションから密接な視覚的実体を抽出する手法を提案する。
本研究では,意味代名詞の抽出に大規模なマルチモーダルモデル,エンティティレベルのセグメンテーションを生成するクラス-aセグメンテーションモデル,および各セグメンテーション名詞と対応するセグメンテーションマスクを関連付けるマルチモーダル特徴融合モジュールを利用する。
論文 参考訳(メタデータ) (2024-02-04T16:06:05Z) - Learning Vision from Models Rivals Learning Vision from Data [54.43596959598465]
合成画像と合成キャプションのみから視覚表現を学習するための新しいアプローチであるSynCLRを紹介する。
LLMを用いて画像キャプションの大規模なデータセットを合成し,既製のテキスト・ツー・イメージモデルを用いて合成キャプションに対応する複数の画像を生成する。
比較学習によって合成画像の視覚的表現学習を行い、同じ字幕を共有するイメージを正のペアとして扱う。
論文 参考訳(メタデータ) (2023-12-28T18:59:55Z) - LightCLIP: Learning Multi-Level Interaction for Lightweight
Vision-Language Models [45.672539931681065]
軽量CLIPモデルのトレーニングのためのマルチレベルインタラクションパラダイムを提案する。
マスク付きテキスト埋め込みに非マスク画像の埋め込みを注入する補助融合モジュールを提案する。
論文 参考訳(メタデータ) (2023-12-01T15:54:55Z) - Language Model Beats Diffusion -- Tokenizer is Key to Visual Generation [124.10880178517301]
大規模言語モデル(LLM)は、言語における生成タスクの主要なモデルである。
本稿では,ビデオと画像の両方に対して簡潔かつ表現力のあるトークンを生成するために設計されたビデオトークンライザMAGVIT-v2を紹介する。
論文 参考訳(メタデータ) (2023-10-09T14:10:29Z) - Leveraging Large Language Models for Scalable Vector Graphics-Driven
Image Understanding [35.80409077616195]
本稿では,大規模言語モデルによる画像処理を可能にする新しい探索的アプローチを提案する。
画像の代わりにXMLベースの表現記述を活用することで、視覚とテキストのモダリティのギャップを埋めることを目指している。
提案手法は,LLM機能のみを用いた簡単な画像分類,生成,テキスト内学習を容易にする。
論文 参考訳(メタデータ) (2023-06-09T17:57:01Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Hierarchical Text-Conditional Image Generation with CLIP Latents [20.476720970770128]
画像表現を明示的に生成することで、フォトリアリズムとキャプションの類似性が最小限に抑えられ、画像の多様性が向上することを示す。
画像表現に条件付けされたデコーダは、その意味とスタイルの両方を保存した画像のバリエーションを生成できる。
論文 参考訳(メタデータ) (2022-04-13T01:10:33Z) - Extracting Triangular 3D Models, Materials, and Lighting From Images [59.33666140713829]
多視点画像観測による材料と照明の協調最適化手法を提案する。
従来のグラフィックスエンジンにデプロイ可能な,空間的に変化する材料と環境を備えたメッシュを活用します。
論文 参考訳(メタデータ) (2021-11-24T13:58:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。