Fugu-MT 論文翻訳(概要): SVGThinker: Instruction-Aligned and Reasoning-Driven Text-to-SVG Generation

論文の概要: SVGThinker: Instruction-Aligned and Reasoning-Driven Text-to-SVG Generation

arxiv url: http://arxiv.org/abs/2509.24299v1
Date: Mon, 29 Sep 2025 05:25:00 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-30 22:32:19.763393
Title: SVGThinker: Instruction-Aligned and Reasoning-Driven Text-to-SVG Generation
Title（参考訳）: SVGThinker: 命令アライメントと推論駆動型テキスト・ツー・SVG生成
Authors: Hanqi Chen, Zhongyin Zhao, Ye Chen, Zhujin Liang, Bingbing Ni,
Abstract要約: 本稿では,SVGコードの生成を可視化プロセスと整合させる推論駆動型フレームワークであるSVGThinkerを紹介する。パイプラインはまず各プリミティブをシーケンスでレンダリングし、マルチモーダルモデルを使用して画像とコードを注釈付けします。最先端のベースラインに対する実験では、SVGThinkerはより安定し、編集可能で、高品質なSVGを生成する。
参考スコア（独自算出の注目度）: 47.390332111383294
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Scalable Vector Graphics (SVG) is a code-based representation for 2D visuals. Leveraging recent advances in large language models (LLMs), we study text-to-SVG generation and address two persistent gaps: weak generalization and poor adherence to input instructions. We present SVGThinker, a reasoning-driven framework that aligns the production of SVG code with the visualization process and supports the full set of SVG primitives. Our pipeline first renders each primitive in sequence and uses a multimodal model to annotate the image and code; we then build stepwise updates that mirror the incremental addition of primitives. On this data, we train an LLM with supervised fine-tuning that exposes its chain-of-thought as intermediate reasoning, improving robustness and reducing errors and hallucinations. Experiments against state-of-the-art baselines show that SVGThinker produces more stable, editable, and higher-quality SVGs while preserving the structural advantages of vector graphics. Unlike image-based methods, our outputs enable precise and hierarchical editing, opening new directions for design, content creation, and automated graphics generation.
Abstract（参考訳）: Scalable Vector Graphics (SVG) は、2Dビジュアルのためのコードベースの表現である。大規模言語モデル(LLMs)の最近の進歩を活用し,テキストからSVGの生成と,弱い一般化と入力命令への従順性の2つの持続的ギャップに対処する。 SVGコードの生成を可視化プロセスと整合させ,SVGプリミティブの完全なセットをサポートする,推論駆動型フレームワークであるSVGThinkerを提案する。パイプラインはまず、各プリミティブをシーケンスでレンダリングし、マルチモーダルモデルを使用してイメージとコードをアノテートします。このデータに基づいて,そのチェーンを中間的推論として公開し,堅牢性を向上し,誤りや幻覚を低減させる,教師付き微調整によるLLMのトレーニングを行う。最先端のベースラインに対する実験では、SVGThinkerはベクターグラフィックスの構造上の利点を保ちながら、より安定で、編集可能で、高品質なSVGを生成する。画像ベースの方法とは異なり、我々の出力は正確かつ階層的な編集を可能にし、デザイン、コンテンツ作成、自動グラフィック生成のための新しい方向を開く。

関連論文リスト

DuetSVG: Unified Multimodal SVG Generation with Internal Visual Guidance [48.98604326855894]
本稿では,画像トークンと対応するSVGトークンをエンドツーエンドで共同生成する統合マルチモーダルモデルであるDuetSVGを紹介する。提案手法は,SVGデコードの品質向上のためのガイダンスとして,モデルのネイティブな視覚的予測を活用する新しいテストタイムスケーリング戦略を適用する。
論文参考訳（メタデータ） (2025-12-11T18:23:03Z)
SVGen: Interpretable Vector Graphics Generation with Large Language Models [61.62816031675714]
本稿では,自然言語記述と組み合わせた高品質なSVGの大規模データセットであるSVG-1Mを紹介する。我々は、セマンティックガイダンスを強化するために、Chain of Thoughtアノテーション付きのサブセットを含む、SVGトレーニングペアに整合したテキストを作成する。このデータセットに基づいて,自然言語入力からSVGコードを生成するエンド・ツー・エンド・モデルであるSVGenを提案する。
論文参考訳（メタデータ） (2025-08-06T15:00:24Z)
OmniSVG: A Unified Scalable Vector Graphics Generation Model [69.59073636922287]
我々は、エンドツーエンドのマルチモーダルSVG生成に事前訓練されたビジョンランゲージモデルを活用する統一フレームワークであるOmniSVGを提案する。 SVGコマンドと座標を離散トークンにパラメタ化することにより、OmniSVGは複雑なSVG構造の合成を維持しながら、低レベルの幾何学から構造論理を分離し、効率的なトレーニングを行う。本稿では,200万の注釈付きSVGアセットを持つマルチモーダルデータセットMMSVG-2Mと,条件付きSVG生成タスクの標準化された評価プロトコルを紹介する。
論文参考訳（メタデータ） (2025-04-08T17:59:49Z)
NeuralSVG: An Implicit Representation for Text-to-Vector Generation [54.4153300455889]
本稿では,テキストプロンプトからベクトルグラフィックスを生成する暗黙的なニューラル表現であるNeuralSVGを提案する。生成したSVGの層構造を促進するために,ドロップアウトに基づく正規化手法を導入する。ニューラルSVGは、構造化された柔軟なSVGを生成する際に、既存の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2025-01-07T18:50:06Z)
Chat2SVG: Vector Graphics Generation with Large Language Models and Image Diffusion Models [14.917583676464266]
Chat2SVGは大規模言語モデルと画像拡散モデルを組み合わせたハイブリッドフレームワークである。本システムにより,自然言語による直感的な編集が可能となり,プロのベクトルグラフィックス作成が可能となった。
論文参考訳（メタデータ） (2024-11-25T17:31:57Z)
Visually Descriptive Language Model for Vector Graphics Reasoning [76.42082386029206]
低レベル視覚知覚と高レベル言語推論のギャップを埋めるための視覚記述型言語モデル(VDLM)を提案する。 VDLMは,様々なマルチモーダル認識および推論タスクにおいて,GPT-4oのような最先端のLMMを大幅に改善することを示す。
論文参考訳（メタデータ） (2024-04-09T17:30:18Z)
StarVector: Generating Scalable Vector Graphics Code from Images and Text [15.32194071443065]
本稿では,SVG生成のための多モーダル大言語モデルであるStarを紹介する。画像のセマンティクスを理解し、SVGプリミティブをコンパクトで正確な出力に使用することにより、画像ベクトル化を行う。ベクトル化タスク間の一般化を可能にする2Mサンプルの多種多様なデータセットであるStarStackをトレーニングする。
論文参考訳（メタデータ） (2023-12-17T08:07:32Z)
Beyond Pixels: Exploring Human-Readable SVG Generation for Simple Images with Vision Language Models [19.145503353922038]
本稿では,Simple-SVG-Generation (Stextsuperscript2VGtextsuperscript2)を提案する。本手法は,正確かつ簡便なSVGの生成と,人間の可読性と理解の整合性に重点を置いている。その結果,従来のSVG生成手法よりも明らかに改善された結果が得られた。
論文参考訳（メタデータ） (2023-11-27T05:20:11Z)
DeepSVG: A Hierarchical Generative Network for Vector Graphics Animation [217.86315551526235]
本稿では,複雑なSVGアイコンの生成と操作のために,DeepSVGと呼ばれる新しい階層型生成ネットワークを提案する。我々のアーキテクチャは、その形状自体をエンコードする低レベルのコマンドから、効果的に高レベルの形状を分離します。我々のネットワークは、多様なベクトルグラフィックスを正確に再構築し、強力なアニメーションツールとして機能することを実証する。
論文参考訳（メタデータ） (2020-07-22T09:36:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。