論文の概要: Reason-SVG: Hybrid Reward RL for Aha-Moments in Vector Graphics Generation
- arxiv url: http://arxiv.org/abs/2505.24499v1
- Date: Fri, 30 May 2025 11:57:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.933492
- Title: Reason-SVG: Hybrid Reward RL for Aha-Moments in Vector Graphics Generation
- Title(参考訳): Reason-SVG:ベクトルグラフ生成におけるAha-MomentsのハイブリッドリワードRL
- Authors: Ximing Xing, Yandong Guan, Jing Zhang, Dong Xu, Qian Yu,
- Abstract要約: SVG生成のための大規模言語モデル(LLM)推論を強化するためのフレームワークであるReason-SVGを紹介する。
Reason-SVGは"Drawing-with-Thought"(DwT)パラダイムを開拓し、モデルがSVGコードと明示的な設計論理の両方を生成する。
1万組のSVG-DwTペアからなる高品質コーパスであるSVGX-DwT-10kデータセットを導入し,各SVGコードを明示的なDwT推論に基づいて生成する。
- 参考スコア(独自算出の注目度): 29.418375886989992
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating high-quality Scalable Vector Graphics (SVGs) is challenging for Large Language Models (LLMs), as it requires advanced reasoning for structural validity, semantic faithfulness, and visual coherence -- capabilities in which current LLMs often fall short. In this work, we introduce Reason-SVG, a novel framework designed to enhance LLM reasoning for SVG generation. Reason-SVG pioneers the "Drawing-with-Thought" (DwT) paradigm, in which models generate both SVG code and explicit design rationales, mimicking the human creative process. Reason-SVG adopts a two-stage training strategy: First, Supervised Fine-Tuning (SFT) trains the LLM on the DwT paradigm to activate foundational reasoning abilities. Second, Reinforcement Learning (RL), utilizing Group Relative Policy Optimization (GRPO), empowers the model to generate both DwT and SVGs rationales through refined, reward-driven reasoning. To facilitate reasoning-driven SVG generation, we design a Hybrid Reward function that evaluates the presence and utility of DwT reasoning, along with structural validity, semantic alignment, and visual quality. We also introduce the SVGX-DwT-10k dataset, a high-quality corpus of 10,000 SVG-DwT pairs, where each SVG code is generated based on explicit DwT reasoning. By integrating DwT, SFT, and Hybrid Reward-guided RL, Reason-SVG significantly improves LLM performance in generating accurate and visually compelling SVGs, potentially fostering "Aha moments" in design.
- Abstract(参考訳): 高品質なスケーラブルベクトルグラフ(SVG)の生成は、構造的妥当性、セマンティック忠実性、視覚的コヒーレンスといった高度な推論を必要とするため、Large Language Models(LLMs)では困難である。
本稿では,SVG 生成のための LLM 推論を強化するための新しいフレームワークである Reason-SVG を紹介する。
Reason-SVGは"Drawing-with-Thought"(DwT)パラダイムを開拓し、モデルがSVGコードと明示的な設計の合理性の両方を生成し、人間の創造プロセスを模倣する。
First, Supervised Fine-Tuning (SFT) は、基本的な推論能力を活性化するために、DwTパラダイム上でLLMを訓練する。
第2に、グループ相対政策最適化(GRPO)を活用した強化学習(RL)は、洗練された報酬駆動推論を通じて、DwTとSVGの理性の両方を生成するようにモデルに権限を与える。
推論駆動のSVG生成を容易にするために,DwT推論の存在と有用性を評価するハイブリッド・リワード関数を設計し,構造的妥当性,セマンティックアライメント,視覚的品質について検討した。
また,1万組のSVG-DwTペアからなる高品質コーパスであるSVGX-DwT-10kデータセットを導入し,各SVGコードを明示的なDwT推論に基づいて生成する。
DwT、SFT、Hybrid Reward-guided RLを統合することで、Reason-SVGは正確で視覚的に魅力的なSVGを生成するLLM性能を著しく向上し、設計上の"Aha moments"を育む可能性がある。
関連論文リスト
- Rendering-Aware Reinforcement Learning for Vector Graphics Generation [15.547843461605746]
視覚言語モデル(VLM)におけるSVG生成を向上させるRLRF(Reinforcement Learning from Rendering Feedback)を導入する。
入力画像が与えられた場合、モデルがレンダリングされたSVGロールアウトを生成し、元の画像と比較して報酬を計算する。
この視覚的忠実度フィードバックは、より正確で効率的でセマンティックにコヒーレントなSVGを生成するためにモデルを導く。
論文 参考訳(メタデータ) (2025-05-27T06:56:00Z) - OmniSVG: A Unified Scalable Vector Graphics Generation Model [69.59073636922287]
我々は、エンドツーエンドのマルチモーダルSVG生成に事前訓練されたビジョンランゲージモデルを活用する統一フレームワークであるOmniSVGを提案する。
SVGコマンドと座標を離散トークンにパラメタ化することにより、OmniSVGは複雑なSVG構造の合成を維持しながら、低レベルの幾何学から構造論理を分離し、効率的なトレーニングを行う。
本稿では,200万の注釈付きSVGアセットを持つマルチモーダルデータセットMMSVG-2Mと,条件付きSVG生成タスクの標準化された評価プロトコルを紹介する。
論文 参考訳(メタデータ) (2025-04-08T17:59:49Z) - NeuralSVG: An Implicit Representation for Text-to-Vector Generation [54.4153300455889]
本稿では,テキストプロンプトからベクトルグラフィックスを生成する暗黙的なニューラル表現であるNeuralSVGを提案する。
生成したSVGの層構造を促進するために,ドロップアウトに基づく正規化手法を導入する。
ニューラルSVGは、構造化された柔軟なSVGを生成する際に、既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-01-07T18:50:06Z) - SVGBuilder: Component-Based Colored SVG Generation with Text-Guided Autoregressive Transformers [5.921625661186367]
本稿では,テキスト入力から高品質な色付きSVGを生成するためのコンポーネントベース自動回帰モデルを提案する。
計算オーバーヘッドを大幅に削減し、従来の方法に比べて効率を向上する。
既存のSVGデータセットの限界に対処し、我々の研究を支援するために、カラーSVGの最初の大規模データセットであるColorSVG-100Kを紹介する。
論文 参考訳(メタデータ) (2024-12-13T15:24:11Z) - Chat2SVG: Vector Graphics Generation with Large Language Models and Image Diffusion Models [14.917583676464266]
Chat2SVGは大規模言語モデルと画像拡散モデルを組み合わせたハイブリッドフレームワークである。
本システムにより,自然言語による直感的な編集が可能となり,プロのベクトルグラフィックス作成が可能となった。
論文 参考訳(メタデータ) (2024-11-25T17:31:57Z) - Visually Descriptive Language Model for Vector Graphics Reasoning [76.42082386029206]
低レベル視覚知覚と高レベル言語推論のギャップを埋めるための視覚記述型言語モデル(VDLM)を提案する。
VDLMは,様々なマルチモーダル認識および推論タスクにおいて,GPT-4oのような最先端のLMMを大幅に改善することを示す。
論文 参考訳(メタデータ) (2024-04-09T17:30:18Z) - VectorFusion: Text-to-SVG by Abstracting Pixel-Based Diffusion Models [82.93345261434943]
画像の画素表現に基づいて訓練されたテキスト条件付き拡散モデルを用いて,SVG-exportable vector graphicsを生成する。
近年のテキスト・ツー・3D研究に触発されて,Score Distillation Smpling を用いたキャプションと整合したSVGを学習した。
実験では、以前の作品よりも品質が向上し、ピクセルアートやスケッチを含む様々なスタイルが示されている。
論文 参考訳(メタデータ) (2022-11-21T10:04:27Z) - Towards Layer-wise Image Vectorization [57.26058135389497]
画像をSVGに変換し,画像トポロジを同時に維持するためのレイヤワイズ画像ベクトル化(LIVE)を提案する。
Liveは、人間の視点にセマンティックに整合した階層構造を持つコンパクトなフォームを生成する。
Liveは、デザイナの両方のために編集可能なSVGを起動し、他のアプリケーションで使用することができる。
論文 参考訳(メタデータ) (2022-06-09T17:55:02Z) - SVG-Net: An SVG-based Trajectory Prediction Model [67.68864911674308]
シーン内の車両の動きを予想することは、安全な自動運転システムにとって重要な問題である。
この目的のために、シーンのインフラの理解は、しばしば将来の軌跡を予測する主要な手がかりである。
提案手法のほとんどが逆逆変換方式のシーンを表現しており、近年のアプローチではカスタムベクトル化方式が採用されている。
論文 参考訳(メタデータ) (2021-10-07T18:00:08Z) - DeepSVG: A Hierarchical Generative Network for Vector Graphics Animation [217.86315551526235]
本稿では,複雑なSVGアイコンの生成と操作のために,DeepSVGと呼ばれる新しい階層型生成ネットワークを提案する。
我々のアーキテクチャは、その形状自体をエンコードする低レベルのコマンドから、効果的に高レベルの形状を分離します。
我々のネットワークは、多様なベクトルグラフィックスを正確に再構築し、強力なアニメーションツールとして機能することを実証する。
論文 参考訳(メタデータ) (2020-07-22T09:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。