論文の概要: InternSVG: Towards Unified SVG Tasks with Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2510.11341v1
- Date: Mon, 13 Oct 2025 12:38:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.360918
- Title: InternSVG: Towards Unified SVG Tasks with Multimodal Large Language Models
- Title(参考訳): InternSVG:マルチモーダル大言語モデルを用いた統合SVGタスクを目指して
- Authors: Haomin Wang, Jinhui Yin, Qi Wei, Wenguang Zeng, Lixin Gu, Shenglong Ye, Zhangwei Gao, Yaohui Wang, Yanting Zhang, Yuanqi Li, Yanwen Guo, Wenhai Wang, Kai Chen, Yu Qiao, Hongjie Zhang,
- Abstract要約: 統合データベンチマークモデルスイートであるInternSVGファミリを提示する。
SAgogeはSVGタスクのための最大かつ最も包括的なマルチモーダルデータセットである。
本稿では,SVG 固有の特殊トークンを用いた SVG 理解,編集,生成のための統合型 MLLM である InternSVG を提案する。
- 参考スコア(独自算出の注目度): 65.49118879021016
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: General SVG modeling remains challenging due to fragmented datasets, limited transferability of methods across tasks, and the difficulty of handling structural complexity. In response, we leverage the strong transfer and generalization capabilities of multimodal large language models (MLLMs) to achieve unified modeling for SVG understanding, editing, and generation. We present the InternSVG family, an integrated data-benchmark-model suite. At its core is SAgoge, the largest and most comprehensive multimodal dataset for SVG tasks, encompassing both static graphics and dynamic animations. It covers icons, long-sequence illustrations, scientific diagrams, and dynamic animations, supporting tasks of varied difficulty levels and providing deeper hierarchies with richer attributes compared to previous datasets. Based on this resource, we introduce SArena, a companion benchmark with comprehensive task definitions and standardized evaluation that aligns with the domains and difficulty spectrum covered by SAgoge. Building on these foundations, we propose InternSVG, a unified MLLM for SVG understanding, editing, and generation with SVG-specific special tokens, subword-based embedding initialization, and a two-stage training strategy that progresses from short static SVGs to long-sequence illustrations and complex animations. This unified formulation induces positive transfer and improves overall performance. Experiments on SArena and prior benchmark confirm that InternSVG achieves substantial gains and consistently outperforms leading open and proprietary counterparts.
- Abstract(参考訳): 一般的なSVGモデリングは、断片化されたデータセット、タスク間のメソッドの転送可能性の制限、構造的な複雑さの扱いの難しさなど、依然として困難である。
そこで我々は,多モーダル大規模言語モデル(MLLM)の強い伝達と一般化機能を活用し,SVG理解,編集,生成のための統一モデリングを実現する。
統合データベンチマークモデルスイートであるInternSVGファミリを提示する。
SAgogeはSVGタスクのための最大かつ最も包括的なマルチモーダルデータセットであり、静的グラフィックスと動的アニメーションの両方を含んでいる。
アイコン、長いシーケンスのイラスト、科学図、動的アニメーションをカバーし、さまざまな難易度のタスクをサポートし、以前のデータセットと比較して豊富な属性を持つより深い階層を提供する。
このリソースに基づいて、SAgogeがカバーする領域と難易度に合わせた包括的なタスク定義と標準化された評価を備えたベンチマークであるSArenaを紹介する。
これらの基盤の上に構築されたInternSVGは,SVG固有の特別なトークンを用いたSVG理解,編集,生成のための統合MLLMであり,サブワードベースの埋め込み初期化と,短い静的SVGから長いシーケンスのイラストや複雑なアニメーションに至るまでの2段階のトレーニング戦略を提案する。
この統一的な定式化は正の伝達を誘導し、全体的な性能を改善する。
SArenaと以前のベンチマークの実験では、InternSVGは大幅に向上し、オープンでプロプライエタリなベンチマークよりも一貫して優れています。
関連論文リスト
- SVGThinker: Instruction-Aligned and Reasoning-Driven Text-to-SVG Generation [47.390332111383294]
本稿では,SVGコードの生成を可視化プロセスと整合させる推論駆動型フレームワークであるSVGThinkerを紹介する。
パイプラインはまず各プリミティブをシーケンスでレンダリングし、マルチモーダルモデルを使用して画像とコードを注釈付けします。
最先端のベースラインに対する実験では、SVGThinkerはより安定し、編集可能で、高品質なSVGを生成する。
論文 参考訳(メタデータ) (2025-09-29T05:25:00Z) - UniSVG: A Unified Dataset for Vector Graphic Understanding and Generation with Multimodal Large Language Models [9.310212949500011]
MLLMのトレーニングと評価に適した525万データ項目からなるSVG中心のデータセットUniSVGを提案する。
UniSVGは、(テキストプロンプトと画像から)SVG生成とSVG理解(色、カテゴリ、使用法など)の統合のために設計された最初の包括的なデータセットである。
予想通り、提案データセットの学習により、様々なSVG U&GタスクにおけるオープンソースのMLLMのパフォーマンスが向上し、GPT-4VのようなSOTAのオープンソースMLLMを上回っている。
論文 参考訳(メタデータ) (2025-08-11T08:50:14Z) - SVGen: Interpretable Vector Graphics Generation with Large Language Models [61.62816031675714]
本稿では,自然言語記述と組み合わせた高品質なSVGの大規模データセットであるSVG-1Mを紹介する。
我々は、セマンティックガイダンスを強化するために、Chain of Thoughtアノテーション付きのサブセットを含む、SVGトレーニングペアに整合したテキストを作成する。
このデータセットに基づいて,自然言語入力からSVGコードを生成するエンド・ツー・エンド・モデルであるSVGenを提案する。
論文 参考訳(メタデータ) (2025-08-06T15:00:24Z) - OmniSVG: A Unified Scalable Vector Graphics Generation Model [69.59073636922287]
我々は、エンドツーエンドのマルチモーダルSVG生成に事前訓練されたビジョンランゲージモデルを活用する統一フレームワークであるOmniSVGを提案する。
SVGコマンドと座標を離散トークンにパラメタ化することにより、OmniSVGは複雑なSVG構造の合成を維持しながら、低レベルの幾何学から構造論理を分離し、効率的なトレーニングを行う。
本稿では,200万の注釈付きSVGアセットを持つマルチモーダルデータセットMMSVG-2Mと,条件付きSVG生成タスクの標準化された評価プロトコルを紹介する。
論文 参考訳(メタデータ) (2025-04-08T17:59:49Z) - DeepSVG: A Hierarchical Generative Network for Vector Graphics Animation [217.86315551526235]
本稿では,複雑なSVGアイコンの生成と操作のために,DeepSVGと呼ばれる新しい階層型生成ネットワークを提案する。
我々のアーキテクチャは、その形状自体をエンコードする低レベルのコマンドから、効果的に高レベルの形状を分離します。
我々のネットワークは、多様なベクトルグラフィックスを正確に再構築し、強力なアニメーションツールとして機能することを実証する。
論文 参考訳(メタデータ) (2020-07-22T09:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。