論文の概要: VectorGym: A Multitask Benchmark for SVG Code Generation, Sketching, and Editing
- arxiv url: http://arxiv.org/abs/2603.29852v1
- Date: Sun, 22 Feb 2026 10:39:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:13.155309
- Title: VectorGym: A Multitask Benchmark for SVG Code Generation, Sketching, and Editing
- Title(参考訳): VectorGym:SVGコード生成、スケッチ、編集のためのマルチタスクベンチマーク
- Authors: Juan Rodriguez, Haotian Zhang, Abhay Puri, Tianyang Zhang, Rishav Pramanik, Meng Lin, Xiaoqing Xie, Marco Terral, Darsh Kaushik, Aly Shariff, Perouz Taslakian, Spandana Gella, Sai Rajeswar, David Vazquez, Christopher Pal, Marco Pedersoli,
- Abstract要約: 我々は、スケーラブルベクトルグラフィックス(SVG)のための包括的なベンチマークスイートであるVectorGymを紹介する。
VectorGymは、プロの設計に合わせた現実的で挑戦的なベンチマークの欠如に対処する。
評価の結果,VectorGymを視覚的コード生成のための厳格なフレームワークとして位置づけるなど,重要なパフォーマンスギャップが明らかになった。
- 参考スコア(独自算出の注目度): 28.04909245044009
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce VectorGym, a comprehensive benchmark suite for Scalable Vector Graphics (SVG) that spans generation from text and sketches, complex editing, and visual understanding. VectorGym addresses the lack of realistic, challenging benchmarks aligned with professional design workflows. Our benchmark comprises four tasks with expert human-authored annotations: the novel Sketch2SVG task (VG-Sketch); a new SVG editing dataset (VG-Edit) featuring complex, multi-step edits with higher-order primitives; Text2SVG generation (VG-Text); and SVG captioning (VG-Cap). Unlike prior benchmarks that rely on synthetic edits, VectorGym provides gold-standard human annotations that require semantic understanding and design intent. We also propose a multi-task reinforcement learning approach that jointly optimizes across all four tasks using rendering-based rewards. Our method, built on GRPO with curriculum learning, trains a Qwen3-VL 8B model that achieves state-of-the-art performance among open-source models, surpassing much larger models including Qwen3-VL 235B and matching GPT-4o. We also introduce a VLM-as-a-Judge metric for SVG generation, validated through human correlation studies. Our evaluation of frontier VLMs reveals significant performance gaps, positioning VectorGym as a rigorous framework for advancing visual code generation. VectorGym is publicly available on huggingface.co/datasets/ServiceNow/VectorGym.
- Abstract(参考訳): 本稿では,テキストやスケッチの生成,複雑な編集,視覚的理解にまたがる,スケーラブルベクトルグラフィックス(SVG)の包括的なベンチマークスイートであるVectorGymを紹介する。
VectorGymは、プロの設計ワークフローに沿った現実的で挑戦的なベンチマークの欠如に対処する。
Sketch2SVGタスク(VG-Sketch)、高階プリミティブを用いた複雑な多段階編集を含むSVG編集データセット(VG-Edit)、Text2SVG生成(VG-Text)、SVGキャプション(VG-Cap)の4つのタスクからなる。
合成編集に依存する以前のベンチマークとは異なり、VectorGymは意味的理解と設計意図を必要とするゴールドスタンダードのヒューマンアノテーションを提供する。
また、レンダリングに基づく報酬を用いて、4つのタスク全てを共同で最適化するマルチタスク強化学習手法を提案する。
本手法は,カリキュラム学習を伴うGRPO上に構築され,Qwen3-VL 235B や GPT-4o など,オープンソースモデル間の最先端性能を実現する Qwen3-VL 8B モデルを訓練する。
また,SVG 生成のための VLM-as-a-Judge 尺度を導入し,人間相関による検証を行った。
我々のフロンティアVLMの評価では、VectorGymを視覚的コード生成のための厳格なフレームワークとして位置づけるなど、大きなパフォーマンスギャップが明らかになっている。
VectorGym は huggingface.co/datasets/ServiceNow/VectorGym で公開されている。
関連論文リスト
- InternSVG: Towards Unified SVG Tasks with Multimodal Large Language Models [65.49118879021016]
統合データベンチマークモデルスイートであるInternSVGファミリを提示する。
SAgogeはSVGタスクのための最大かつ最も包括的なマルチモーダルデータセットである。
本稿では,SVG 固有の特殊トークンを用いた SVG 理解,編集,生成のための統合型 MLLM である InternSVG を提案する。
論文 参考訳(メタデータ) (2025-10-13T12:38:04Z) - SVGen: Interpretable Vector Graphics Generation with Large Language Models [61.62816031675714]
本稿では,自然言語記述と組み合わせた高品質なSVGの大規模データセットであるSVG-1Mを紹介する。
我々は、セマンティックガイダンスを強化するために、Chain of Thoughtアノテーション付きのサブセットを含む、SVGトレーニングペアに整合したテキストを作成する。
このデータセットに基づいて,自然言語入力からSVGコードを生成するエンド・ツー・エンド・モデルであるSVGenを提案する。
論文 参考訳(メタデータ) (2025-08-06T15:00:24Z) - SVGDreamer++: Advancing Editability and Diversity in Text-Guided SVG Generation [31.76771064173087]
既存の手法の限界に対処する新しいテキスト誘導ベクトルグラフィックス合成法を提案する。
本稿では,階層型イメージベクタライゼーション(HIVE)フレームワークについて紹介する。
また、SVGの多様性を向上させるために、ベクトル化粒子を用いたスコア蒸留(VPSD)手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T19:13:38Z) - Visually Descriptive Language Model for Vector Graphics Reasoning [76.42082386029206]
低レベル視覚知覚と高レベル言語推論のギャップを埋めるための視覚記述型言語モデル(VDLM)を提案する。
VDLMは,様々なマルチモーダル認識および推論タスクにおいて,GPT-4oのような最先端のLMMを大幅に改善することを示す。
論文 参考訳(メタデータ) (2024-04-09T17:30:18Z) - SVGDreamer: Text Guided SVG Generation with Diffusion Model [31.76771064173087]
SVGDreamerと呼ばれる新しいテキスト誘導ベクトルグラフィックス合成法を提案する。
SIVEプロセスは、前景オブジェクトと背景への合成の分解を可能にする。
VPSDアプローチは、形状の平滑化、彩度の過飽和、多様性の制限、収束の遅い問題に対処する。
論文 参考訳(メタデータ) (2023-12-27T08:50:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。