論文の概要: IntroSVG: Learning from Rendering Feedback for Text-to-SVG Generation via an Introspective Generator-Critic Framework
- arxiv url: http://arxiv.org/abs/2603.09312v1
- Date: Tue, 10 Mar 2026 07:44:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.131058
- Title: IntroSVG: Learning from Rendering Feedback for Text-to-SVG Generation via an Introspective Generator-Critic Framework
- Title(参考訳): IntroSVG: Introspective Generator-Critic Frameworkによるテキスト間SVG生成のためのレンダリングフィードバックからの学習
- Authors: Feiyu Wang, Jiayuan Yang, Zhiyuan Zhao, Da Zhang, Bingyu Li, Peng Liu, Junyu Gao,
- Abstract要約: 既存のテキスト間SVG生成法では、最終的なレンダリング画像の視覚的認識は組み込まれていない。
本稿では,イントロスペクティブSVG生成フレームワーク(IntroSVG)を提案する。
提案手法は,いくつかの重要な評価指標にまたがって,最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 20.964700751378547
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scalable Vector Graphics (SVG) are central to digital design due to their inherent scalability and editability. Despite significant advancements in content generation enabled by Visual Language Models (VLMs), existing text-to-SVG generation methods are limited by a core challenge: the autoregressive training process does not incorporate visual perception of the final rendered image, which fundamentally constrains generation quality. To address this limitation, we propose an Introspective SVG Generation Framework (IntroSVG). At its core, the framework instantiates a unified VLM that operates in a closed loop, assuming dual roles of both generator and critic. Specifically, through Supervised Fine-Tuning (SFT), the model learns to draft SVGs and to provide feedback on their rendered outputs; moreover, we systematically convert early-stage failures into high-quality error-correction training data, thereby enhancing model robustness. Subsequently, we leverage a high-capacity teacher VLM to construct a preference dataset and further align the generator's policy through Direct Preference Optimization (DPO). During inference, the optimized generator and critic operate collaboratively in an iterative "generate-review-refine" cycle, starting from imperfect intermediate drafts to autonomously improve output quality. Experimental results demonstrate that our method achieves state-of-the-art performance across several key evaluation metrics, generating SVGs with more complex structures, stronger semantic alignment, and greater editability. These results corroborate the effectiveness of incorporating explicit visual feedback into the generation loop.
- Abstract(参考訳): スケーラブルベクトルグラフィックス(SVG)は、その固有のスケーラビリティと編集性のために、デジタルデザインの中心である。
Visual Language Models (VLM) によるコンテンツ生成の大幅な進歩にもかかわらず、既存のテキスト-SVG生成手法はコアチャレンジによって制限されている。
この制限に対処するために,イントロスペクティブSVG生成フレームワーク(IntroSVG)を提案する。
フレームワークの中核は、ジェネレータと批評家の両方の役割を仮定して、クローズドループで動作する統一VLMをインスタンス化する。
具体的には、スーパーバイザードファインチューニング(SFT)を通じて、SVGの草案作成と、その出力に対するフィードバックを提供することを学び、さらに、早期故障を高品質な誤り訂正訓練データに体系的に変換し、モデルロバスト性を向上させる。
その後、高容量の教師VLMを活用して嗜好データセットを構築し、直接選好最適化(DPO)を通して生成者のポリシーを整合させる。
推論中、最適化されたジェネレータと批評家は、不完全な中間ドラフトから、アウトプット品質を自律的に改善するために、反復的な"ジェネレーション・レビュー・リファイン"サイクルで協調して動作する。
実験結果から,提案手法は,より複雑な構造を持つSVGの生成,より強力なセマンティックアライメント,編集性など,いくつかの重要な評価指標にまたがる最先端性能を実現することが示された。
これらの結果は、生成ループに明示的な視覚フィードバックを組み込むことの有効性を裏付けるものである。
関連論文リスト
- Vector Prism: Animating Vector Graphics by Stratifying Semantic Structure [57.89872230703339]
本稿では,信頼性の高いSVGアニメーションに必要なセマンティック構造を復元するフレームワークを提案する。
SVGをセマンティックグループに再編成することにより、VLMはより深いコヒーレンスを持つアニメーションを作成できる。
論文 参考訳(メタデータ) (2025-12-16T12:03:46Z) - SVG-T2I: Scaling Up Text-to-Image Latent Diffusion Model Without Variational Autoencoder [90.28800377462197]
SVG-T2Iは,VFM機能領域で直接,高品質なテキスト・画像合成をサポートする。
標準のテキスト-画像拡散パイプラインを利用することで、SVG-T2Iは競争性能が向上し、GenEvalは0.75、DPG-Benchは85.78に達した。
私たちは、オートエンコーダと生成モデルを含むプロジェクトを、トレーニング、推論、評価パイプライン、トレーニング済みウェイトとともに完全にオープンソース化し、表現駆動型視覚生成のさらなる研究を支援します。
論文 参考訳(メタデータ) (2025-12-12T17:45:03Z) - SVGThinker: Instruction-Aligned and Reasoning-Driven Text-to-SVG Generation [47.390332111383294]
本稿では,SVGコードの生成を可視化プロセスと整合させる推論駆動型フレームワークであるSVGThinkerを紹介する。
パイプラインはまず各プリミティブをシーケンスでレンダリングし、マルチモーダルモデルを使用して画像とコードを注釈付けします。
最先端のベースラインに対する実験では、SVGThinkerはより安定し、編集可能で、高品質なSVGを生成する。
論文 参考訳(メタデータ) (2025-09-29T05:25:00Z) - SVGen: Interpretable Vector Graphics Generation with Large Language Models [61.62816031675714]
本稿では,自然言語記述と組み合わせた高品質なSVGの大規模データセットであるSVG-1Mを紹介する。
我々は、セマンティックガイダンスを強化するために、Chain of Thoughtアノテーション付きのサブセットを含む、SVGトレーニングペアに整合したテキストを作成する。
このデータセットに基づいて,自然言語入力からSVGコードを生成するエンド・ツー・エンド・モデルであるSVGenを提案する。
論文 参考訳(メタデータ) (2025-08-06T15:00:24Z) - Rendering-Aware Reinforcement Learning for Vector Graphics Generation [15.547843461605746]
視覚言語モデル(VLM)におけるSVG生成を向上させるRLRF(Reinforcement Learning from Rendering Feedback)を導入する。
入力画像が与えられた場合、モデルがレンダリングされたSVGロールアウトを生成し、元の画像と比較して報酬を計算する。
この視覚的忠実度フィードバックは、より正確で効率的でセマンティックにコヒーレントなSVGを生成するためにモデルを導く。
論文 参考訳(メタデータ) (2025-05-27T06:56:00Z) - OmniSVG: A Unified Scalable Vector Graphics Generation Model [69.59073636922287]
我々は、エンドツーエンドのマルチモーダルSVG生成に事前訓練されたビジョンランゲージモデルを活用する統一フレームワークであるOmniSVGを提案する。
SVGコマンドと座標を離散トークンにパラメタ化することにより、OmniSVGは複雑なSVG構造の合成を維持しながら、低レベルの幾何学から構造論理を分離し、効率的なトレーニングを行う。
本稿では,200万の注釈付きSVGアセットを持つマルチモーダルデータセットMMSVG-2Mと,条件付きSVG生成タスクの標準化された評価プロトコルを紹介する。
論文 参考訳(メタデータ) (2025-04-08T17:59:49Z) - NeuralSVG: An Implicit Representation for Text-to-Vector Generation [54.4153300455889]
本稿では,テキストプロンプトからベクトルグラフィックスを生成する暗黙的なニューラル表現であるNeuralSVGを提案する。
生成したSVGの層構造を促進するために,ドロップアウトに基づく正規化手法を導入する。
ニューラルSVGは、構造化された柔軟なSVGを生成する際に、既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-01-07T18:50:06Z) - SVGDreamer: Text Guided SVG Generation with Diffusion Model [31.76771064173087]
SVGDreamerと呼ばれる新しいテキスト誘導ベクトルグラフィックス合成法を提案する。
SIVEプロセスは、前景オブジェクトと背景への合成の分解を可能にする。
VPSDアプローチは、形状の平滑化、彩度の過飽和、多様性の制限、収束の遅い問題に対処する。
論文 参考訳(メタデータ) (2023-12-27T08:50:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。