論文の概要: SVGenius: Benchmarking LLMs in SVG Understanding, Editing and Generation
- arxiv url: http://arxiv.org/abs/2506.03139v1
- Date: Tue, 03 Jun 2025 17:58:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.455014
- Title: SVGenius: Benchmarking LLMs in SVG Understanding, Editing and Generation
- Title(参考訳): SVGenius:SVG理解、編集、生成におけるLLMのベンチマーク
- Authors: Siqi Chen, Xinyu Dong, Haolei Xu, Xingyu Wu, Fei Tang, Hang Zhang, Yuchen Yan, Linjuan Wu, Wenqi Zhang, Guiyang Hou, Yongliang Shen, Weiming Lu, Yueting Zhuang,
- Abstract要約: SVGeniusは3つのプログレッシブディメンション(理解、編集、生成)にわたる2,377のクエリからなる総合ベンチマークである。
SVGeniusは、システマティックな複雑性層を持つ24のアプリケーションドメインの実際のデータに基づいて、8つのタスクカテゴリと18のメトリクスでモデルを評価する。
- 参考スコア(独自算出の注目度): 46.49501119029113
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) and Multimodal LLMs have shown promising capabilities for SVG processing, yet existing benchmarks suffer from limited real-world coverage, lack of complexity stratification, and fragmented evaluation paradigms. We introduce SVGenius, a comprehensive benchmark comprising 2,377 queries across three progressive dimensions: understanding, editing, and generation. Built on real-world data from 24 application domains with systematic complexity stratification, SVGenius evaluates models through 8 task categories and 18 metrics. We assess 22 mainstream models spanning different scales, architectures, training paradigms, and accessibility levels. Our analysis reveals that while proprietary models significantly outperform open-source counterparts, all models exhibit systematic performance degradation with increasing complexity, indicating fundamental limitations in current approaches; however, reasoning-enhanced training proves more effective than pure scaling for overcoming these limitations, though style transfer remains the most challenging capability across all model types. SVGenius establishes the first systematic evaluation framework for SVG processing, providing crucial insights for developing more capable vector graphics models and advancing automated graphic design applications. Appendix and supplementary materials (including all data and code) are available at https://zju-real.github.io/SVGenius.
- Abstract(参考訳): 大規模言語モデル(LLM)とマルチモーダルLLMはSVG処理に有望な能力を示しているが、既存のベンチマークでは現実のカバレッジが限られ、複雑さの階層化が欠如し、評価パラダイムが断片化している。
SVGeniusは3つのプログレッシブディメンション(理解、編集、生成)にわたる2,377のクエリからなる総合ベンチマークである。
SVGeniusは、システマティックな複雑性層を持つ24のアプリケーションドメインの実際のデータに基づいて、8つのタスクカテゴリと18のメトリクスでモデルを評価する。
さまざまなスケール、アーキテクチャ、トレーニングパラダイム、アクセシビリティレベルにまたがる22の主流モデルを評価します。
我々の分析によると、プロプライエタリなモデルはオープンソースモデルよりも大幅に優れていますが、すべてのモデルは複雑さを増し、体系的なパフォーマンス劣化を示し、現在のアプローチの基本的制約を示しています。
SVGeniusはSVG処理のための最初の体系的評価フレームワークを確立し、より有能なベクトルグラフィックスモデルの開発と自動グラフィックデザインアプリケーションの進歩に重要な洞察を提供する。
Appendixと補足資料(すべてのデータとコードを含む)はhttps://zju-real.github.io/SVGenius.comで入手できる。
関連論文リスト
- OmniSVG: A Unified Scalable Vector Graphics Generation Model [69.59073636922287]
我々は、エンドツーエンドのマルチモーダルSVG生成に事前訓練されたビジョンランゲージモデルを活用する統一フレームワークであるOmniSVGを提案する。
SVGコマンドと座標を離散トークンにパラメタ化することにより、OmniSVGは複雑なSVG構造の合成を維持しながら、低レベルの幾何学から構造論理を分離し、効率的なトレーニングを行う。
本稿では,200万の注釈付きSVGアセットを持つマルチモーダルデータセットMMSVG-2Mと,条件付きSVG生成タスクの標準化された評価プロトコルを紹介する。
論文 参考訳(メタデータ) (2025-04-08T17:59:49Z) - Leveraging Large Language Models For Scalable Vector Graphics Processing: A Review [0.0]
従来のベクトル化技術は、長い処理時間と過剰な出力の複雑さに悩まされている。
大規模言語モデル(LLM)の出現により、ベクトルグラフィックスの生成、編集、解析の新しい可能性が生まれた。
論文 参考訳(メタデータ) (2025-03-06T21:23:17Z) - NeuralSVG: An Implicit Representation for Text-to-Vector Generation [54.4153300455889]
本稿では,テキストプロンプトからベクトルグラフィックスを生成する暗黙的なニューラル表現であるNeuralSVGを提案する。
生成したSVGの層構造を促進するために,ドロップアウトに基づく正規化手法を導入する。
ニューラルSVGは、構造化された柔軟なSVGを生成する際に、既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-01-07T18:50:06Z) - Chat2SVG: Vector Graphics Generation with Large Language Models and Image Diffusion Models [14.917583676464266]
Chat2SVGは大規模言語モデルと画像拡散モデルを組み合わせたハイブリッドフレームワークである。
本システムにより,自然言語による直感的な編集が可能となり,プロのベクトルグラフィックス作成が可能となった。
論文 参考訳(メタデータ) (2024-11-25T17:31:57Z) - VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks [60.5257456681402]
幅広い下流タスクを扱える普遍的な埋め込みを構築する可能性について検討する。
We build a series of VLM2Vec model on SoTA VLMs like Phi-3.5-V, LLaVA-1.6 and evaluate them on MMEB's evaluation split。
以上の結果から,VLM2Vecは既存のマルチモーダル埋め込みモデルよりも10%から20%の絶対的な平均的改善を実現していることがわかった。
論文 参考訳(メタデータ) (2024-10-07T16:14:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。