Fugu-MT 論文翻訳(概要): StrokeNUWA: Tokenizing Strokes for Vector Graphic Synthesis

論文の概要: StrokeNUWA: Tokenizing Strokes for Vector Graphic Synthesis

arxiv url: http://arxiv.org/abs/2401.17093v1
Date: Tue, 30 Jan 2024 15:20:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-31 14:31:04.228231
Title: StrokeNUWA: Tokenizing Strokes for Vector Graphic Synthesis
Title（参考訳）: StrokeNUWA:ベクトルグラフ合成のためのトークン化ストローク
Authors: Zecheng Tang, Chenfei Wu, Zekai Zhang, Mingheng Ni, Shengming Yin, Yu Liu, Zhengyuan Yang, Lijuan Wang, Zicheng Liu, Juntao Li, Nan Duan
Abstract要約: StrokeNUWAはベクターグラフィックスにおけるより良い視覚表現'ストロークトークン'を探求する先駆的な研究である。ストロークトークンを備えたStrokeNUWAは、従来のLCMベースの最適化ベースのメソッドを大幅に上回ることができる。 StrokeNUWAは、SVGコード圧縮比が6.9%の従来の手法よりも94倍のスピードアップを達成している。
参考スコア（独自算出の注目度）: 112.25071764647683
License: http://creativecommons.org/licenses/by/4.0/
Abstract: To leverage LLMs for visual synthesis, traditional methods convert raster image information into discrete grid tokens through specialized visual modules, while disrupting the model's ability to capture the true semantic representation of visual scenes. This paper posits that an alternative representation of images, vector graphics, can effectively surmount this limitation by enabling a more natural and semantically coherent segmentation of the image information. Thus, we introduce StrokeNUWA, a pioneering work exploring a better visual representation ''stroke tokens'' on vector graphics, which is inherently visual semantics rich, naturally compatible with LLMs, and highly compressed. Equipped with stroke tokens, StrokeNUWA can significantly surpass traditional LLM-based and optimization-based methods across various metrics in the vector graphic generation task. Besides, StrokeNUWA achieves up to a 94x speedup in inference over the speed of prior methods with an exceptional SVG code compression ratio of 6.9%.
Abstract（参考訳）: LLMを視覚合成に利用するために、従来の手法では、ラスター画像情報を特殊な視覚モジュールを通して離散グリッドトークンに変換するが、モデルが視覚シーンの真の意味表現をキャプチャする能力を損なう。本稿では,画像情報のより自然なセグメンテーションとセマンティックなセグメンテーションを可能にすることにより,画像の代替表現であるベクトルグラフィックスが,この制限を効果的に克服できることを示す。そこで我々は,ベクトルグラフィックス上でより優れた視覚表現「ストロークトークン」を探索する先駆的な研究であるStrokeNUWAを紹介した。ストロークトークンを備えたStrokeNUWAは、ベクトルグラフィック生成タスクにおいて、様々なメトリクスにわたる従来のLCMベースの最適化ベースのメソッドを大幅に上回ることができる。さらに、 strokenuwaは以前のメソッドの速度よりも94倍のスピードアップを実現し、例外的なsvgコード圧縮比は6.9%である。

関連論文リスト

Lifting the Veil on Visual Information Flow in MLLMs: Unlocking Pathways to Faster Inference [28.24397677839652]
マルチモーダル大規模言語モデル(MLLM)は、事前訓練された視覚エンコーダの視覚的特徴を大規模言語モデルに統合することにより、視覚言語タスクの性能を向上させる。 MLLMがどのように処理し、どのように視覚情報を利用するかは、まだ不明である。階層型モダリティ・アウェア・プルーニング(HiMAP, Hierarchical Modality-Aware Pruning)を提案する。
論文参考訳（メタデータ） (2025-03-17T12:31:23Z)
EasyRef: Omni-Generalized Group Image Reference for Diffusion Models via Multimodal LLM [38.8308841469793]
本稿では,複数の参照画像とテキストプロンプトに拡散モデルを条件付けできる新しいプラグイン・アンド・プレイ適応手法であるEasyRefを紹介する。我々は,マルチモーダル大言語モデル(MLLM)のマルチモーダル理解と命令追従機能を活用し,複数の画像内の一貫した視覚的要素を利用する。実験の結果、EasyRefはIP-Adapterのようなチューニング不要の手法とLoRAのようなチューニングベース手法の両方を超越し、様々な領域で優れた美的品質と堅牢なゼロショットの一般化を実現している。
論文参考訳（メタデータ） (2024-12-12T18:59:48Z)
Efficient Multi-modal Large Language Models via Visual Token Grouping [55.482198808206284]
高解像度の画像やビデオは、彼らの広く普及するための障壁となる。 MLLMにおける視覚トークンの圧縮は、推論コストを削減するための有望なアプローチとして現れている。本稿では,事前学習した視覚エンコーダの能力を利用して類似画像セグメントをグループ化する,新たなグループ化機構であるVisToGを紹介する。
論文参考訳（メタデータ） (2024-11-26T09:36:02Z)
FLIER: Few-shot Language Image Models Embedded with Latent Representations [2.443383032451177]
画像認識のための潜在表現(FLIER)を組み込んだFew-shot Language Image Model。まず、GPT-3からのテキスト入力で、安定拡散による画像とそれに対応する潜在表現を生成する。潜在表現を「モデル理解可能なピクセル」として、2つの畳み込み層を持つ柔軟な畳み込みニューラルネットワークを導入し、潜り込みエンコーダとする。
論文参考訳（メタデータ） (2024-10-10T06:27:46Z)
AdaptVision: Dynamic Input Scaling in MLLMs for Versatile Scene Understanding [96.01726275876548]
本稿では,様々な解像度の入力画像を動的に処理するマルチモーダルな大規模言語モデルAdaptVisionを提案する。画像のサイズやアスペクト比に応じて視覚トークンの数を調整する動的画像分割モジュールを考案する。私たちのモデルは、解像度1008倍の1008ドルまでの画像を処理できます。
論文参考訳（メタデータ） (2024-08-30T03:16:49Z)
Image-GS: Content-Adaptive Image Representation via 2D Gaussians [52.598772767324036]
本稿では,2次元ガウス放射率に基づくコンテンツ適応型画像表現であるImage-GSを紹介する。リアルタイム使用のためにハードウェアフレンドリーな高速アクセスをサポートし、ピクセルをデコードするためには0.3KのMACしか必要としない。テクスチャ圧縮、セマンティクス対応圧縮、共同画像圧縮と復元など、いくつかのアプリケーションでその汎用性を実証する。
論文参考訳（メタデータ） (2024-07-02T00:45:21Z)
Generalizable Entity Grounding via Assistance of Large Language Model [77.07759442298666]
本稿では,長いキャプションから密接な視覚的実体を抽出する手法を提案する。本研究では,意味代名詞の抽出に大規模なマルチモーダルモデル,エンティティレベルのセグメンテーションを生成するクラス-aセグメンテーションモデル,および各セグメンテーション名詞と対応するセグメンテーションマスクを関連付けるマルチモーダル特徴融合モジュールを利用する。
論文参考訳（メタデータ） (2024-02-04T16:06:05Z)
Learning Vision from Models Rivals Learning Vision from Data [54.43596959598465]
合成画像と合成キャプションのみから視覚表現を学習するための新しいアプローチであるSynCLRを紹介する。 LLMを用いて画像キャプションの大規模なデータセットを合成し,既製のテキスト・ツー・イメージモデルを用いて合成キャプションに対応する複数の画像を生成する。比較学習によって合成画像の視覚的表現学習を行い、同じ字幕を共有するイメージを正のペアとして扱う。
論文参考訳（メタデータ） (2023-12-28T18:59:55Z)
LightCLIP: Learning Multi-Level Interaction for Lightweight Vision-Language Models [45.672539931681065]
軽量CLIPモデルのトレーニングのためのマルチレベルインタラクションパラダイムを提案する。マスク付きテキスト埋め込みに非マスク画像の埋め込みを注入する補助融合モジュールを提案する。
論文参考訳（メタデータ） (2023-12-01T15:54:55Z)
Language Model Beats Diffusion -- Tokenizer is Key to Visual Generation [122.63617171522316]
大規模言語モデル(LLM)は、言語における生成タスクの主要なモデルである。本稿では,ビデオと画像の両方に対して簡潔かつ表現力のあるトークンを生成するために設計されたビデオトークンライザMAGVIT-v2を紹介する。
論文参考訳（メタデータ） (2023-10-09T14:10:29Z)
Hierarchical Text-Conditional Image Generation with CLIP Latents [20.476720970770128]
画像表現を明示的に生成することで、フォトリアリズムとキャプションの類似性が最小限に抑えられ、画像の多様性が向上することを示す。画像表現に条件付けされたデコーダは、その意味とスタイルの両方を保存した画像のバリエーションを生成できる。
論文参考訳（メタデータ） (2022-04-13T01:10:33Z)
Extracting Triangular 3D Models, Materials, and Lighting From Images [59.33666140713829]
多視点画像観測による材料と照明の協調最適化手法を提案する。従来のグラフィックスエンジンにデプロイ可能な,空間的に変化する材料と環境を備えたメッシュを活用します。
論文参考訳（メタデータ） (2021-11-24T13:58:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。