Fugu-MT 論文翻訳(概要): StarVector: Generating Scalable Vector Graphics Code from Images and Text

論文の概要: StarVector: Generating Scalable Vector Graphics Code from Images and Text

arxiv url: http://arxiv.org/abs/2312.11556v2
Date: Wed, 04 Dec 2024 18:31:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-05 21:42:00.19611
Title: StarVector: Generating Scalable Vector Graphics Code from Images and Text
Title（参考訳）: StarVector: 画像とテキストからスケーラブルなベクターグラフィックスコードを生成する
Authors: Juan A. Rodriguez, Abhay Puri, Shubham Agarwal, Issam H. Laradji, Pau Rodriguez, Sai Rajeswar, David Vazquez, Christopher Pal, Marco Pedersoli,
Abstract要約: 本稿では,SVG生成のための多モーダル大言語モデルであるStarを紹介する。画像のセマンティクスを理解し、SVGプリミティブをコンパクトで正確な出力に使用することにより、画像ベクトル化を行う。ベクトル化タスク間の一般化を可能にする2Mサンプルの多種多様なデータセットであるStarStackをトレーニングする。
参考スコア（独自算出の注目度）: 15.32194071443065
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Scalable Vector Graphics (SVGs) are vital for modern image rendering due to their scalability and versatility. Previous SVG generation methods have focused on curve-based vectorization, lacking semantic understanding, often producing artifacts, and struggling with SVG primitives beyond path curves. To address these issues, we introduce StarVector, a multimodal large language model for SVG generation. It performs image vectorization by understanding image semantics and using SVG primitives for compact, precise outputs. Unlike traditional methods, StarVector works directly in the SVG code space, leveraging visual understanding to apply accurate SVG primitives. To train StarVector, we create SVG-Stack, a diverse dataset of 2M samples that enables generalization across vectorization tasks and precise use of primitives like ellipses, polygons, and text. We address challenges in SVG evaluation, showing that pixel-based metrics like MSE fail to capture the unique qualities of vector graphics. We introduce SVG-Bench, a benchmark across 10 datasets, and 3 tasks: Image-to-SVG, Text-to-SVG generation, and diagram generation. Using this setup, StarVector achieves state-of-the-art performance, producing more compact and semantically rich SVGs.
Abstract（参考訳）: スケーラブルベクトルグラフィックス(SVG)は、スケーラビリティと汎用性のために、現代的な画像レンダリングに不可欠である。従来のSVG生成法は、曲線ベースのベクトル化、意味理解の欠如、しばしば人工物の生成、経路曲線を超えたSVGプリミティブとの闘いに重点を置いてきた。これらの問題に対処するために,SVG生成のための多モーダル大規模言語モデルであるStarVectorを紹介する。画像のセマンティクスを理解し、SVGプリミティブをコンパクトで正確な出力に使用することにより、画像ベクトル化を行う。従来の方法とは異なり、StarVectorはSVGコード空間で直接動作し、視覚的理解を利用して正確なSVGプリミティブを適用する。 StarVectorをトレーニングするために、SVG-Stackという2Mサンプルの多様なデータセットを作成し、ベクトル化タスクをまたいだ一般化と、楕円、ポリゴン、テキストなどのプリミティブの正確な使用を可能にします。 SVG評価における課題に対処し、MSEのような画素ベースのメトリクスがベクトルグラフィックスのユニークな特性を捉えていないことを示す。 SVG-Benchは10のデータセットにまたがるベンチマークであり、画像からSVG、テキストからSVG生成、ダイアグラム生成の3つのタスクを紹介する。このセットアップを使用して、StarVectorは最先端のパフォーマンスを実現し、よりコンパクトでセマンティックにリッチなSVGを生成する。

関連論文リスト

DuetSVG: Unified Multimodal SVG Generation with Internal Visual Guidance [48.98604326855894]
本稿では,画像トークンと対応するSVGトークンをエンドツーエンドで共同生成する統合マルチモーダルモデルであるDuetSVGを紹介する。提案手法は,SVGデコードの品質向上のためのガイダンスとして,モデルのネイティブな視覚的予測を活用する新しいテストタイムスケーリング戦略を適用する。
論文参考訳（メタデータ） (2025-12-11T18:23:03Z)
SVGThinker: Instruction-Aligned and Reasoning-Driven Text-to-SVG Generation [47.390332111383294]
本稿では,SVGコードの生成を可視化プロセスと整合させる推論駆動型フレームワークであるSVGThinkerを紹介する。パイプラインはまず各プリミティブをシーケンスでレンダリングし、マルチモーダルモデルを使用して画像とコードを注釈付けします。最先端のベースラインに対する実験では、SVGThinkerはより安定し、編集可能で、高品質なSVGを生成する。
論文参考訳（メタデータ） (2025-09-29T05:25:00Z)
UniSVG: A Unified Dataset for Vector Graphic Understanding and Generation with Multimodal Large Language Models [9.310212949500011]
MLLMのトレーニングと評価に適した525万データ項目からなるSVG中心のデータセットUniSVGを提案する。 UniSVGは、(テキストプロンプトと画像から)SVG生成とSVG理解(色、カテゴリ、使用法など)の統合のために設計された最初の包括的なデータセットである。予想通り、提案データセットの学習により、様々なSVG U&GタスクにおけるオープンソースのMLLMのパフォーマンスが向上し、GPT-4VのようなSOTAのオープンソースMLLMを上回っている。
論文参考訳（メタデータ） (2025-08-11T08:50:14Z)
SVGen: Interpretable Vector Graphics Generation with Large Language Models [61.62816031675714]
本稿では,自然言語記述と組み合わせた高品質なSVGの大規模データセットであるSVG-1Mを紹介する。我々は、セマンティックガイダンスを強化するために、Chain of Thoughtアノテーション付きのサブセットを含む、SVGトレーニングペアに整合したテキストを作成する。このデータセットに基づいて,自然言語入力からSVGコードを生成するエンド・ツー・エンド・モデルであるSVGenを提案する。
論文参考訳（メタデータ） (2025-08-06T15:00:24Z)
OmniSVG: A Unified Scalable Vector Graphics Generation Model [70.26163703054979]
我々は、エンドツーエンドのマルチモーダルSVG生成に事前訓練されたビジョンランゲージモデルを活用する統一フレームワークであるOmniSVGを提案する。 SVGコマンドと座標を離散トークンにパラメタ化することにより、OmniSVGは複雑なSVG構造の合成を維持しながら、低レベルの幾何学から構造論理を分離し、効率的なトレーニングを行う。本稿では,200万の注釈付きSVGアセットを持つマルチモーダルデータセットMMSVG-2Mと,条件付きSVG生成タスクの標準化された評価プロトコルを紹介する。
論文参考訳（メタデータ） (2025-04-08T17:59:49Z)
NeuralSVG: An Implicit Representation for Text-to-Vector Generation [54.4153300455889]
本稿では,テキストプロンプトからベクトルグラフィックスを生成する暗黙的なニューラル表現であるNeuralSVGを提案する。生成したSVGの層構造を促進するために,ドロップアウトに基づく正規化手法を導入する。ニューラルSVGは、構造化された柔軟なSVGを生成する際に、既存の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2025-01-07T18:50:06Z)
SVGBuilder: Component-Based Colored SVG Generation with Text-Guided Autoregressive Transformers [5.921625661186367]
本稿では,テキスト入力から高品質な色付きSVGを生成するためのコンポーネントベース自動回帰モデルを提案する。計算オーバーヘッドを大幅に削減し、従来の方法に比べて効率を向上する。既存のSVGデータセットの限界に対処し、我々の研究を支援するために、カラーSVGの最初の大規模データセットであるColorSVG-100Kを紹介する。
論文参考訳（メタデータ） (2024-12-13T15:24:11Z)
SVGFusion: Scalable Text-to-SVG Generation via Vector Space Diffusion [32.01103570298614]
本稿では,実世界のSVGデータにスケール可能なテキスト間SVGモデルであるSVGFusionを紹介する。 SVGFusionの中核となる考え方は、人気のあるText-to-Imageフレームワークを使用して、ベクトルグラフィックスの連続的な潜在空間を学習することである。 SVGFを効果的に訓練し,評価するために,大規模で高品質なSVGデータセットであるSVGX-Datasetを構築した。
論文参考訳（メタデータ） (2024-12-11T09:02:25Z)
Vector Grimoire: Codebook-based Shape Generation under Raster Image Supervision [20.325246638505714]
本稿では,GRIMOIREというテキスト誘導型生成モデルを紹介し,画像をベクトル形状に再構成して離散コードブックにマッピングする方法を提案する。データから直接の監視を必要とする既存のモデルとは異なり、GRIMOIREはベクトル生成モデリングをはるかに多くのデータに開放するイメージ監督のみを使用して学習する。
論文参考訳（メタデータ） (2024-10-08T12:41:31Z)
SuperSVG: Superpixel-based Scalable Vector Graphics Synthesis [66.44553285020066]
SuperSVGは、高速かつ高精度な画像ベクトル化を実現するスーパーピクセルベースのベクトル化モデルである。本稿では,2段階の自己学習フレームワークを提案する。そこでは,粗い段階モデルを用いて主構造を再構築し,細部を充実させるために改良段階モデルを用いる。再現精度と推定時間の観点から, 最先端手法と比較して, 提案手法の優れた性能を示す実験を行った。
論文参考訳（メタデータ） (2024-06-14T07:43:23Z)
SVGDreamer: Text Guided SVG Generation with Diffusion Model [31.76771064173087]
SVGDreamerと呼ばれる新しいテキスト誘導ベクトルグラフィックス合成法を提案する。 SIVEプロセスは、前景オブジェクトと背景への合成の分解を可能にする。 VPSDアプローチは、形状の平滑化、彩度の過飽和、多様性の制限、収束の遅い問題に対処する。
論文参考訳（メタデータ） (2023-12-27T08:50:01Z)
Beyond Pixels: Exploring Human-Readable SVG Generation for Simple Images with Vision Language Models [19.145503353922038]
本稿では,Simple-SVG-Generation (Stextsuperscript2VGtextsuperscript2)を提案する。本手法は,正確かつ簡便なSVGの生成と,人間の可読性と理解の整合性に重点を置いている。その結果,従来のSVG生成手法よりも明らかに改善された結果が得られた。
論文参考訳（メタデータ） (2023-11-27T05:20:11Z)
SAMVG: A Multi-stage Image Vectorization Model with the Segment-Anything Model [59.40189857428461]
画像をSVG(Scalable Vector Graphics)にベクトル化する多段階モデルを提案する。第一に、SAMVGはSegment-Anything Modelによって提供される一般的な画像セグメンテーションを使い、新しいフィルタリング手法を用いて画像全体の最も高密度なセグメンテーションマップを識別する。次に、SAMVGは欠落したコンポーネントを特定し、SVGにより詳細なコンポーネントを追加する。
論文参考訳（メタデータ） (2023-11-09T11:11:56Z)
VectorFusion: Text-to-SVG by Abstracting Pixel-Based Diffusion Models [82.93345261434943]
画像の画素表現に基づいて訓練されたテキスト条件付き拡散モデルを用いて,SVG-exportable vector graphicsを生成する。近年のテキスト・ツー・3D研究に触発されて,Score Distillation Smpling を用いたキャプションと整合したSVGを学習した。実験では、以前の作品よりも品質が向上し、ピクセルアートやスケッチを含む様々なスタイルが示されている。
論文参考訳（メタデータ） (2022-11-21T10:04:27Z)
Towards Layer-wise Image Vectorization [57.26058135389497]
画像をSVGに変換し,画像トポロジを同時に維持するためのレイヤワイズ画像ベクトル化(LIVE)を提案する。 Liveは、人間の視点にセマンティックに整合した階層構造を持つコンパクトなフォームを生成する。 Liveは、デザイナの両方のために編集可能なSVGを起動し、他のアプリケーションで使用することができる。
論文参考訳（メタデータ） (2022-06-09T17:55:02Z)
SVG-Net: An SVG-based Trajectory Prediction Model [67.68864911674308]
シーン内の車両の動きを予想することは、安全な自動運転システムにとって重要な問題である。この目的のために、シーンのインフラの理解は、しばしば将来の軌跡を予測する主要な手がかりである。提案手法のほとんどが逆逆変換方式のシーンを表現しており、近年のアプローチではカスタムベクトル化方式が採用されている。
論文参考訳（メタデータ） (2021-10-07T18:00:08Z)
DeepSVG: A Hierarchical Generative Network for Vector Graphics Animation [217.86315551526235]
本稿では,複雑なSVGアイコンの生成と操作のために,DeepSVGと呼ばれる新しい階層型生成ネットワークを提案する。我々のアーキテクチャは、その形状自体をエンコードする低レベルのコマンドから、効果的に高レベルの形状を分離します。我々のネットワークは、多様なベクトルグラフィックスを正確に再構築し、強力なアニメーションツールとして機能することを実証する。
論文参考訳（メタデータ） (2020-07-22T09:36:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。