論文の概要: UniSVG: A Unified Dataset for Vector Graphic Understanding and Generation with Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2508.07766v1
- Date: Mon, 11 Aug 2025 08:50:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.01744
- Title: UniSVG: A Unified Dataset for Vector Graphic Understanding and Generation with Multimodal Large Language Models
- Title(参考訳): UniSVG:マルチモーダル大言語モデルを用いたベクトルグラフ理解と生成のための統一データセット
- Authors: Jinke Li, Jiarui Yu, Chenxing Wei, Hande Dong, Qiang Lin, Liangjing Yang, Zhicai Wang, Yanbin Hao,
- Abstract要約: MLLMのトレーニングと評価に適した525万データ項目からなるSVG中心のデータセットUniSVGを提案する。
UniSVGは、(テキストプロンプトと画像から)SVG生成とSVG理解(色、カテゴリ、使用法など)の統合のために設計された最初の包括的なデータセットである。
予想通り、提案データセットの学習により、様々なSVG U&GタスクにおけるオープンソースのMLLMのパフォーマンスが向上し、GPT-4VのようなSOTAのオープンソースMLLMを上回っている。
- 参考スコア(独自算出の注目度): 9.310212949500011
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unlike bitmap images, scalable vector graphics (SVG) maintain quality when scaled, frequently employed in computer vision and artistic design in the representation of SVG code. In this era of proliferating AI-powered systems, enabling AI to understand and generate SVG has become increasingly urgent. However, AI-driven SVG understanding and generation (U&G) remain significant challenges. SVG code, equivalent to a set of curves and lines controlled by floating-point parameters, demands high precision in SVG U&G. Besides, SVG generation operates under diverse conditional constraints, including textual prompts and visual references, which requires powerful multi-modal processing for condition-to-SVG transformation. Recently, the rapid growth of Multi-modal Large Language Models (MLLMs) have demonstrated capabilities to process multi-modal inputs and generate complex vector controlling parameters, suggesting the potential to address SVG U&G tasks within a unified model. To unlock MLLM's capabilities in the SVG area, we propose an SVG-centric dataset called UniSVG, comprising 525k data items, tailored for MLLM training and evaluation. To our best knowledge, it is the first comprehensive dataset designed for unified SVG generation (from textual prompts and images) and SVG understanding (color, category, usage, etc.). As expected, learning on the proposed dataset boosts open-source MLLMs' performance on various SVG U&G tasks, surpassing SOTA close-source MLLMs like GPT-4V. We release dataset, benchmark, weights, codes and experiment details on https://ryanlijinke.github.io/.
- Abstract(参考訳): ビットマップ画像とは異なり、スケーラブルベクターグラフィックス(SVG)は、SVGコードの表現においてコンピュータビジョンや芸術デザインに頻繁に使用される。
この時代には、AIによるSVGの理解と生成を可能にするAI駆動システムの普及が急務になっている。
しかし、AIによるSVG理解と生成(U&G)は依然として大きな課題である。
SVG符号は、浮動小数点パラメータによって制御される曲線や線に相当し、SVG U&Gの高精度を求める。
さらに、SVG生成は、テキストプロンプトや視覚参照を含む様々な条件制約の下で動作し、条件間SVG変換に強力なマルチモーダル処理を必要とする。
近年,Multi-modal Large Language Models (MLLM) の急速な成長により,マルチモーダル入力を処理し,複雑なベクトル制御パラメータを生成する能力が実証され,統一モデル内でSVG U&Gタスクに対処する可能性が示唆されている。
SVG領域におけるMLLMの能力を解き放つために、525kのデータ項目からなるUniSVGと呼ばれるSVG中心のデータセットを提案する。
我々の知る限りでは、SVG生成(テキストプロンプトと画像から)とSVG理解(色、カテゴリ、使用法など)を統一したSVG生成のために設計された最初の包括的なデータセットである。
予想通り、提案したデータセットの学習は、様々なSVG U&GタスクにおけるオープンソースのMLLMのパフォーマンスを高め、GPT-4VのようなSOTAのオープンソースMLLMを上回る。
私たちはデータセット、ベンチマーク、重み、コード、実験の詳細をhttps://ryanlijinke.github.io/でリリースしています。
関連論文リスト
- OmniSVG: A Unified Scalable Vector Graphics Generation Model [69.59073636922287]
我々は、エンドツーエンドのマルチモーダルSVG生成に事前訓練されたビジョンランゲージモデルを活用する統一フレームワークであるOmniSVGを提案する。
SVGコマンドと座標を離散トークンにパラメタ化することにより、OmniSVGは複雑なSVG構造の合成を維持しながら、低レベルの幾何学から構造論理を分離し、効率的なトレーニングを行う。
本稿では,200万の注釈付きSVGアセットを持つマルチモーダルデータセットMMSVG-2Mと,条件付きSVG生成タスクの標準化された評価プロトコルを紹介する。
論文 参考訳(メタデータ) (2025-04-08T17:59:49Z) - Visually Descriptive Language Model for Vector Graphics Reasoning [76.42082386029206]
低レベル視覚知覚と高レベル言語推論のギャップを埋めるための視覚記述型言語モデル(VDLM)を提案する。
VDLMは,様々なマルチモーダル認識および推論タスクにおいて,GPT-4oのような最先端のLMMを大幅に改善することを示す。
論文 参考訳(メタデータ) (2024-04-09T17:30:18Z) - StarVector: Generating Scalable Vector Graphics Code from Images and Text [15.32194071443065]
本稿では,SVG生成のための多モーダル大言語モデルであるStarを紹介する。
画像のセマンティクスを理解し、SVGプリミティブをコンパクトで正確な出力に使用することにより、画像ベクトル化を行う。
ベクトル化タスク間の一般化を可能にする2Mサンプルの多種多様なデータセットであるStarStackをトレーニングする。
論文 参考訳(メタデータ) (2023-12-17T08:07:32Z) - SVG-Net: An SVG-based Trajectory Prediction Model [67.68864911674308]
シーン内の車両の動きを予想することは、安全な自動運転システムにとって重要な問題である。
この目的のために、シーンのインフラの理解は、しばしば将来の軌跡を予測する主要な手がかりである。
提案手法のほとんどが逆逆変換方式のシーンを表現しており、近年のアプローチではカスタムベクトル化方式が採用されている。
論文 参考訳(メタデータ) (2021-10-07T18:00:08Z) - DeepSVG: A Hierarchical Generative Network for Vector Graphics Animation [217.86315551526235]
本稿では,複雑なSVGアイコンの生成と操作のために,DeepSVGと呼ばれる新しい階層型生成ネットワークを提案する。
我々のアーキテクチャは、その形状自体をエンコードする低レベルのコマンドから、効果的に高レベルの形状を分離します。
我々のネットワークは、多様なベクトルグラフィックスを正確に再構築し、強力なアニメーションツールとして機能することを実証する。
論文 参考訳(メタデータ) (2020-07-22T09:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。