Fugu-MT 論文翻訳(概要): WildSVG: Towards Reliable SVG Generation Under Real-Word Conditions

論文の概要: WildSVG: Towards Reliable SVG Generation Under Real-Word Conditions

arxiv url: http://arxiv.org/abs/2602.21416v1
Date: Tue, 24 Feb 2026 22:42:55 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-26 18:19:16.629065
Title: WildSVG: Towards Reliable SVG Generation Under Real-Word Conditions
Title（参考訳）: WildSVG: リアルタイム条件下での信頼性SVG生成を目指して
Authors: Marco Terral, Haotian Zhang, Tianyang Zhang, Meng Lin, Xiaoqing Xie, Haoran Dai, Darsh Kaushik, Pai Peng, Nicklas Scharpff, David Vazquez, Joan Rodriguez,
Abstract要約: 本稿では,画像からの視覚的入力をスケーラブルなベクトルグラフィックスに変換するSVG抽出の課題を紹介する。既存のマルチモーダルモデルは、クリーンなレンダリングやテキスト記述からSVGを生成する際に強力な結果を得るが、自然画像がノイズ、乱雑、ドメインシフトをもたらす現実のシナリオでは不足する。我々は、最先端のマルチモーダルモデルをベンチマークし、現在の手法が実際のシナリオで信頼できるSVG抽出に必要なものよりはるかに低い性能を発揮することを発見した。
参考スコア（独自算出の注目度）: 15.299111837234678
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce the task of SVG extraction, which consists in translating specific visual inputs from an image into scalable vector graphics. Existing multimodal models achieve strong results when generating SVGs from clean renderings or textual descriptions, but they fall short in real-world scenarios where natural images introduce noise, clutter, and domain shifts. A central challenge in this direction is the lack of suitable benchmarks. To address this need, we introduce the WildSVG Benchmark, formed by two complementary datasets: Natural WildSVG, built from real images containing company logos paired with their SVG annotations, and Synthetic WildSVG, which blends complex SVG renderings into real scenes to simulate difficult conditions. Together, these resources provide the first foundation for systematic benchmarking SVG extraction. We benchmark state-of-the-art multimodal models and find that current approaches perform well below what is needed for reliable SVG extraction in real scenarios. Nonetheless, iterative refinement methods point to a promising path forward, and model capabilities are steadily improving
Abstract（参考訳）: 本稿では,画像からの視覚的入力をスケーラブルなベクトルグラフィックスに変換するSVG抽出の課題を紹介する。既存のマルチモーダルモデルは、クリーンなレンダリングやテキスト記述からSVGを生成する際に強力な結果を得るが、自然画像がノイズ、乱雑、ドメインシフトをもたらす現実のシナリオでは不足する。この方向性における中心的な課題は、適切なベンチマークの欠如である。このニーズに対処するために、Natural WildSVG Benchmarkを導入し、SVGアノテーションと組み合わせた企業ロゴを含む実画像から構築したNatural WildSVGと、複雑なSVGレンダリングを実際のシーンにブレンドして困難な条件をシミュレートするSynthetic WildSVGという2つの補完的なデータセットを構築した。これらのリソースは、SVG抽出のシステマティックなベンチマークのための最初の基盤を提供する。我々は、最先端のマルチモーダルモデルをベンチマークし、現在の手法が実際のシナリオで信頼できるSVG抽出に必要なものよりはるかに低い性能を発揮することを発見した。それでも、反復的な改善手法は、将来性のある道を示すものであり、モデル能力は着実に向上している。

関連論文リスト

DuetSVG: Unified Multimodal SVG Generation with Internal Visual Guidance [48.98604326855894]
本稿では,画像トークンと対応するSVGトークンをエンドツーエンドで共同生成する統合マルチモーダルモデルであるDuetSVGを紹介する。提案手法は,SVGデコードの品質向上のためのガイダンスとして,モデルのネイティブな視覚的予測を活用する新しいテストタイムスケーリング戦略を適用する。
論文参考訳（メタデータ） (2025-12-11T18:23:03Z)
RoboSVG: A Unified Framework for Interactive SVG Generation with Multi-modal Guidance [32.59099674596894]
RoboSVGは、テキスト、ビジュアル、数値信号でガイドされる対話的なSVGを生成するための統一されたフレームワークである。このフレームワークをサポートするために、100万のサンプルからなる大規模データセットであるRoboDrawを構築した。 RoboSVGはタスク間のクエリコンプライアンスと視覚的忠実性を向上し、汎用SVG生成における新しい最先端技術を確立する。
論文参考訳（メタデータ） (2025-10-26T13:57:08Z)
InternSVG: Towards Unified SVG Tasks with Multimodal Large Language Models [65.49118879021016]
統合データベンチマークモデルスイートであるInternSVGファミリを提示する。 SAgogeはSVGタスクのための最大かつ最も包括的なマルチモーダルデータセットである。本稿では,SVG 固有の特殊トークンを用いた SVG 理解,編集,生成のための統合型 MLLM である InternSVG を提案する。
論文参考訳（メタデータ） (2025-10-13T12:38:04Z)
SVGThinker: Instruction-Aligned and Reasoning-Driven Text-to-SVG Generation [47.390332111383294]
本稿では,SVGコードの生成を可視化プロセスと整合させる推論駆動型フレームワークであるSVGThinkerを紹介する。パイプラインはまず各プリミティブをシーケンスでレンダリングし、マルチモーダルモデルを使用して画像とコードを注釈付けします。最先端のベースラインに対する実験では、SVGThinkerはより安定し、編集可能で、高品質なSVGを生成する。
論文参考訳（メタデータ） (2025-09-29T05:25:00Z)
SVGen: Interpretable Vector Graphics Generation with Large Language Models [61.62816031675714]
本稿では,自然言語記述と組み合わせた高品質なSVGの大規模データセットであるSVG-1Mを紹介する。我々は、セマンティックガイダンスを強化するために、Chain of Thoughtアノテーション付きのサブセットを含む、SVGトレーニングペアに整合したテキストを作成する。このデータセットに基づいて,自然言語入力からSVGコードを生成するエンド・ツー・エンド・モデルであるSVGenを提案する。
論文参考訳（メタデータ） (2025-08-06T15:00:24Z)
OmniSVG: A Unified Scalable Vector Graphics Generation Model [69.59073636922287]
我々は、エンドツーエンドのマルチモーダルSVG生成に事前訓練されたビジョンランゲージモデルを活用する統一フレームワークであるOmniSVGを提案する。 SVGコマンドと座標を離散トークンにパラメタ化することにより、OmniSVGは複雑なSVG構造の合成を維持しながら、低レベルの幾何学から構造論理を分離し、効率的なトレーニングを行う。本稿では,200万の注釈付きSVGアセットを持つマルチモーダルデータセットMMSVG-2Mと,条件付きSVG生成タスクの標準化された評価プロトコルを紹介する。
論文参考訳（メタデータ） (2025-04-08T17:59:49Z)
NeuralSVG: An Implicit Representation for Text-to-Vector Generation [54.4153300455889]
本稿では,テキストプロンプトからベクトルグラフィックスを生成する暗黙的なニューラル表現であるNeuralSVGを提案する。生成したSVGの層構造を促進するために,ドロップアウトに基づく正規化手法を導入する。ニューラルSVGは、構造化された柔軟なSVGを生成する際に、既存の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2025-01-07T18:50:06Z)
Beyond Pixels: Exploring Human-Readable SVG Generation for Simple Images with Vision Language Models [19.145503353922038]
本稿では,Simple-SVG-Generation (Stextsuperscript2VGtextsuperscript2)を提案する。本手法は,正確かつ簡便なSVGの生成と,人間の可読性と理解の整合性に重点を置いている。その結果,従来のSVG生成手法よりも明らかに改善された結果が得られた。
論文参考訳（メタデータ） (2023-11-27T05:20:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。