論文の概要: DuetSVG: Unified Multimodal SVG Generation with Internal Visual Guidance
- arxiv url: http://arxiv.org/abs/2512.10894v1
- Date: Thu, 11 Dec 2025 18:23:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.520364
- Title: DuetSVG: Unified Multimodal SVG Generation with Internal Visual Guidance
- Title(参考訳): DuetSVG:内部視覚誘導による統合マルチモーダルSVG生成
- Authors: Peiying Zhang, Nanxuan Zhao, Matthew Fisher, Yiran Xu, Jing Liao, Difan Liu,
- Abstract要約: 本稿では,画像トークンと対応するSVGトークンをエンドツーエンドで共同生成する統合マルチモーダルモデルであるDuetSVGを紹介する。
提案手法は,SVGデコードの品質向上のためのガイダンスとして,モデルのネイティブな視覚的予測を活用する新しいテストタイムスケーリング戦略を適用する。
- 参考スコア(独自算出の注目度): 48.98604326855894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent vision-language model (VLM)-based approaches have achieved impressive results on SVG generation. However, because they generate only text and lack visual signals during decoding, they often struggle with complex semantics and fail to produce visually appealing or geometrically coherent SVGs. We introduce DuetSVG, a unified multimodal model that jointly generates image tokens and corresponding SVG tokens in an end-to-end manner. DuetSVG is trained on both image and SVG datasets. At inference, we apply a novel test-time scaling strategy that leverages the model's native visual predictions as guidance to improve SVG decoding quality. Extensive experiments show that our method outperforms existing methods, producing visually faithful, semantically aligned, and syntactically clean SVGs across a wide range of applications.
- Abstract(参考訳): 近年の視覚言語モデル(VLM)に基づくアプローチは,SVG生成において顕著な成果を上げている。
しかし、それらはテキストのみを生成し、復号中に視覚信号が欠けているため、複雑な意味論に苦しむことが多く、視覚的に魅力的なSVGや幾何学的に整合したSVGを生成することができない。
本稿では,画像トークンと対応するSVGトークンをエンドツーエンドで共同生成する統合マルチモーダルモデルであるDuetSVGを紹介する。
DuetSVGは画像とSVGデータセットの両方でトレーニングされている。
提案手法は,SVGデコードの品質向上のためのガイダンスとして,モデルのネイティブな視覚的予測を活用する新しいテストタイムスケーリング戦略を適用する。
大規模な実験により,本手法は既存の手法よりも優れており,視覚的に忠実でセマンティックに整合し,構文的にクリーンなSVGを広範囲のアプリケーションに適用できることがわかった。
関連論文リスト
- RoboSVG: A Unified Framework for Interactive SVG Generation with Multi-modal Guidance [32.59099674596894]
RoboSVGは、テキスト、ビジュアル、数値信号でガイドされる対話的なSVGを生成するための統一されたフレームワークである。
このフレームワークをサポートするために、100万のサンプルからなる大規模データセットであるRoboDrawを構築した。
RoboSVGはタスク間のクエリコンプライアンスと視覚的忠実性を向上し、汎用SVG生成における新しい最先端技術を確立する。
論文 参考訳(メタデータ) (2025-10-26T13:57:08Z) - InternSVG: Towards Unified SVG Tasks with Multimodal Large Language Models [65.49118879021016]
統合データベンチマークモデルスイートであるInternSVGファミリを提示する。
SAgogeはSVGタスクのための最大かつ最も包括的なマルチモーダルデータセットである。
本稿では,SVG 固有の特殊トークンを用いた SVG 理解,編集,生成のための統合型 MLLM である InternSVG を提案する。
論文 参考訳(メタデータ) (2025-10-13T12:38:04Z) - SVGThinker: Instruction-Aligned and Reasoning-Driven Text-to-SVG Generation [47.390332111383294]
本稿では,SVGコードの生成を可視化プロセスと整合させる推論駆動型フレームワークであるSVGThinkerを紹介する。
パイプラインはまず各プリミティブをシーケンスでレンダリングし、マルチモーダルモデルを使用して画像とコードを注釈付けします。
最先端のベースラインに対する実験では、SVGThinkerはより安定し、編集可能で、高品質なSVGを生成する。
論文 参考訳(メタデータ) (2025-09-29T05:25:00Z) - SVGen: Interpretable Vector Graphics Generation with Large Language Models [61.62816031675714]
本稿では,自然言語記述と組み合わせた高品質なSVGの大規模データセットであるSVG-1Mを紹介する。
我々は、セマンティックガイダンスを強化するために、Chain of Thoughtアノテーション付きのサブセットを含む、SVGトレーニングペアに整合したテキストを作成する。
このデータセットに基づいて,自然言語入力からSVGコードを生成するエンド・ツー・エンド・モデルであるSVGenを提案する。
論文 参考訳(メタデータ) (2025-08-06T15:00:24Z) - OmniSVG: A Unified Scalable Vector Graphics Generation Model [69.59073636922287]
我々は、エンドツーエンドのマルチモーダルSVG生成に事前訓練されたビジョンランゲージモデルを活用する統一フレームワークであるOmniSVGを提案する。
SVGコマンドと座標を離散トークンにパラメタ化することにより、OmniSVGは複雑なSVG構造の合成を維持しながら、低レベルの幾何学から構造論理を分離し、効率的なトレーニングを行う。
本稿では,200万の注釈付きSVGアセットを持つマルチモーダルデータセットMMSVG-2Mと,条件付きSVG生成タスクの標準化された評価プロトコルを紹介する。
論文 参考訳(メタデータ) (2025-04-08T17:59:49Z) - StarVector: Generating Scalable Vector Graphics Code from Images and Text [15.32194071443065]
本稿では,SVG生成のための多モーダル大言語モデルであるStarを紹介する。
画像のセマンティクスを理解し、SVGプリミティブをコンパクトで正確な出力に使用することにより、画像ベクトル化を行う。
ベクトル化タスク間の一般化を可能にする2Mサンプルの多種多様なデータセットであるStarStackをトレーニングする。
論文 参考訳(メタデータ) (2023-12-17T08:07:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。