論文の概要: RoboSVG: A Unified Framework for Interactive SVG Generation with Multi-modal Guidance
- arxiv url: http://arxiv.org/abs/2510.22684v1
- Date: Sun, 26 Oct 2025 13:57:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.325867
- Title: RoboSVG: A Unified Framework for Interactive SVG Generation with Multi-modal Guidance
- Title(参考訳): RoboSVG:マルチモーダル誘導によるインタラクティブSVG生成のための統一フレームワーク
- Authors: Jiuniu Wang, Gongjie Zhang, Quanhao Qian, Junlong Gao, Deli Zhao, Ran Xu,
- Abstract要約: RoboSVGは、テキスト、ビジュアル、数値信号でガイドされる対話的なSVGを生成するための統一されたフレームワークである。
このフレームワークをサポートするために、100万のサンプルからなる大規模データセットであるRoboDrawを構築した。
RoboSVGはタスク間のクエリコンプライアンスと視覚的忠実性を向上し、汎用SVG生成における新しい最先端技術を確立する。
- 参考スコア(独自算出の注目度): 32.59099674596894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scalable Vector Graphics (SVGs) are fundamental to digital design and robot control, encoding not only visual structure but also motion paths in interactive drawings. In this work, we introduce RoboSVG, a unified multimodal framework for generating interactive SVGs guided by textual, visual, and numerical signals. Given an input query, the RoboSVG model first produces multimodal guidance, then synthesizes candidate SVGs through dedicated generation modules, and finally refines them under numerical guidance to yield high-quality outputs. To support this framework, we construct RoboDraw, a large-scale dataset of one million examples, each pairing an SVG generation condition (e.g., text, image, and partial SVG) with its corresponding ground-truth SVG code. RoboDraw dataset enables systematic study of four tasks, including basic generation (Text-to-SVG, Image-to-SVG) and interactive generation (PartialSVG-to-SVG, PartialImage-to-SVG). Extensive experiments demonstrate that RoboSVG achieves superior query compliance and visual fidelity across tasks, establishing a new state of the art in versatile SVG generation. The dataset and source code of this project will be publicly available soon.
- Abstract(参考訳): スケーラブルベクトルグラフィックス(SVG)はデジタルデザインとロボット制御の基礎であり、視覚構造だけでなく、インタラクティブな描画における運動経路も符号化している。
本稿では,テキスト,視覚,数値信号で案内されるインタラクティブなSVGを生成するための統合マルチモーダルフレームワークであるRoboSVGを紹介する。
入力クエリが与えられた後、RoboSVGモデルはまずマルチモーダルガイダンスを生成し、その後、専用の生成モジュールを通じて候補SVGを合成し、最後にそれらを数値ガイダンスで洗練して高品質な出力を得る。
このフレームワークをサポートするために,大規模データセットであるRoboDrawを構築し,SVG生成条件(例えば,テキスト,画像,部分SVG)を対応するSVGコードでペアリングする。
RoboDrawデータセットは、基本的な生成(Text-to-SVG、Image-to-SVG)とインタラクティブ生成(PartialSVG-to-SVG、Partial Image-to-SVG)を含む4つのタスクの体系的な研究を可能にする。
大規模な実験により、RoboSVGはタスク間のクエリコンプライアンスと視覚的忠実性を向上し、汎用SVG生成における新しい最先端技術を確立することが実証された。
プロジェクトのデータセットとソースコードは近く公開される予定だ。
関連論文リスト
- InternSVG: Towards Unified SVG Tasks with Multimodal Large Language Models [65.49118879021016]
統合データベンチマークモデルスイートであるInternSVGファミリを提示する。
SAgogeはSVGタスクのための最大かつ最も包括的なマルチモーダルデータセットである。
本稿では,SVG 固有の特殊トークンを用いた SVG 理解,編集,生成のための統合型 MLLM である InternSVG を提案する。
論文 参考訳(メタデータ) (2025-10-13T12:38:04Z) - SVGThinker: Instruction-Aligned and Reasoning-Driven Text-to-SVG Generation [47.390332111383294]
本稿では,SVGコードの生成を可視化プロセスと整合させる推論駆動型フレームワークであるSVGThinkerを紹介する。
パイプラインはまず各プリミティブをシーケンスでレンダリングし、マルチモーダルモデルを使用して画像とコードを注釈付けします。
最先端のベースラインに対する実験では、SVGThinkerはより安定し、編集可能で、高品質なSVGを生成する。
論文 参考訳(メタデータ) (2025-09-29T05:25:00Z) - UniSVG: A Unified Dataset for Vector Graphic Understanding and Generation with Multimodal Large Language Models [9.310212949500011]
MLLMのトレーニングと評価に適した525万データ項目からなるSVG中心のデータセットUniSVGを提案する。
UniSVGは、(テキストプロンプトと画像から)SVG生成とSVG理解(色、カテゴリ、使用法など)の統合のために設計された最初の包括的なデータセットである。
予想通り、提案データセットの学習により、様々なSVG U&GタスクにおけるオープンソースのMLLMのパフォーマンスが向上し、GPT-4VのようなSOTAのオープンソースMLLMを上回っている。
論文 参考訳(メタデータ) (2025-08-11T08:50:14Z) - SVGen: Interpretable Vector Graphics Generation with Large Language Models [61.62816031675714]
本稿では,自然言語記述と組み合わせた高品質なSVGの大規模データセットであるSVG-1Mを紹介する。
我々は、セマンティックガイダンスを強化するために、Chain of Thoughtアノテーション付きのサブセットを含む、SVGトレーニングペアに整合したテキストを作成する。
このデータセットに基づいて,自然言語入力からSVGコードを生成するエンド・ツー・エンド・モデルであるSVGenを提案する。
論文 参考訳(メタデータ) (2025-08-06T15:00:24Z) - OmniSVG: A Unified Scalable Vector Graphics Generation Model [69.59073636922287]
我々は、エンドツーエンドのマルチモーダルSVG生成に事前訓練されたビジョンランゲージモデルを活用する統一フレームワークであるOmniSVGを提案する。
SVGコマンドと座標を離散トークンにパラメタ化することにより、OmniSVGは複雑なSVG構造の合成を維持しながら、低レベルの幾何学から構造論理を分離し、効率的なトレーニングを行う。
本稿では,200万の注釈付きSVGアセットを持つマルチモーダルデータセットMMSVG-2Mと,条件付きSVG生成タスクの標準化された評価プロトコルを紹介する。
論文 参考訳(メタデータ) (2025-04-08T17:59:49Z) - DeepSVG: A Hierarchical Generative Network for Vector Graphics Animation [217.86315551526235]
本稿では,複雑なSVGアイコンの生成と操作のために,DeepSVGと呼ばれる新しい階層型生成ネットワークを提案する。
我々のアーキテクチャは、その形状自体をエンコードする低レベルのコマンドから、効果的に高レベルの形状を分離します。
我々のネットワークは、多様なベクトルグラフィックスを正確に再構築し、強力なアニメーションツールとして機能することを実証する。
論文 参考訳(メタデータ) (2020-07-22T09:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。