論文の概要: Rendering-Aware Reinforcement Learning for Vector Graphics Generation
- arxiv url: http://arxiv.org/abs/2505.20793v1
- Date: Tue, 27 May 2025 06:56:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.458158
- Title: Rendering-Aware Reinforcement Learning for Vector Graphics Generation
- Title(参考訳): ベクトルグラフ生成のためのレンダリング対応強化学習
- Authors: Juan A. Rodriguez, Haotian Zhang, Abhay Puri, Aarash Feizi, Rishav Pramanik, Pascal Wichmann, Arnab Mondal, Mohammad Reza Samsami, Rabiul Awal, Perouz Taslakian, Spandana Gella, Sai Rajeswar, David Vazquez, Christopher Pal, Marco Pedersoli,
- Abstract要約: 視覚言語モデル(VLM)におけるSVG生成を向上させるRLRF(Reinforcement Learning from Rendering Feedback)を導入する。
入力画像が与えられた場合、モデルがレンダリングされたSVGロールアウトを生成し、元の画像と比較して報酬を計算する。
この視覚的忠実度フィードバックは、より正確で効率的でセマンティックにコヒーレントなSVGを生成するためにモデルを導く。
- 参考スコア(独自算出の注目度): 15.547843461605746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scalable Vector Graphics (SVG) offer a powerful format for representing visual designs as interpretable code. Recent advances in vision-language models (VLMs) have enabled high-quality SVG generation by framing the problem as a code generation task and leveraging large-scale pretraining. VLMs are particularly suitable for this task as they capture both global semantics and fine-grained visual patterns, while transferring knowledge across vision, natural language, and code domains. However, existing VLM approaches often struggle to produce faithful and efficient SVGs because they never observe the rendered images during training. Although differentiable rendering for autoregressive SVG code generation remains unavailable, rendered outputs can still be compared to original inputs, enabling evaluative feedback suitable for reinforcement learning (RL). We introduce RLRF(Reinforcement Learning from Rendering Feedback), an RL method that enhances SVG generation in autoregressive VLMs by leveraging feedback from rendered SVG outputs. Given an input image, the model generates SVG roll-outs that are rendered and compared to the original image to compute a reward. This visual fidelity feedback guides the model toward producing more accurate, efficient, and semantically coherent SVGs. RLRF significantly outperforms supervised fine-tuning, addressing common failure modes and enabling precise, high-quality SVG generation with strong structural understanding and generalization.
- Abstract(参考訳): スケーラブルベクトルグラフィックス(SVG)は、ビジュアルデザインを解釈可能なコードとして表現するための強力なフォーマットを提供する。
視覚言語モデル(VLM)の最近の進歩は、コード生成タスクとして問題をフレーミングし、大規模事前学習を活用することによって、高品質なSVG生成を可能にしている。
VLMは、視覚、自然言語、コードドメイン間で知識を伝達しながら、グローバルなセマンティクスときめ細かい視覚パターンの両方をキャプチャするので、このタスクに特に適しています。
しかしながら、既存のVLMアプローチは、トレーニング中にレンダリングされた画像を決して観察しないため、忠実で効率的なSVGを生成するのに苦労することが多い。
自己回帰的なSVGコード生成のための微分可能レンダリングは依然として利用できないが、出力は元の入力と比較できるため、強化学習(RL)に適した評価フィードバックが可能である。
RLRF(Reinforcement Learning from Rendering Feedback)は,レンダリングされたSVG出力からのフィードバックを活用することで,自己回帰VLMにおけるSVG生成を向上させるRL手法である。
入力画像が与えられた場合、モデルがレンダリングされたSVGロールアウトを生成し、元の画像と比較して報酬を計算する。
この視覚的忠実度フィードバックは、より正確で効率的でセマンティックにコヒーレントなSVGを生成するためにモデルを導く。
RLRFは、教師付き微調整、共通障害モードへの対処、構造理解と一般化の強い高精度で高品質なSVG生成を実現している。
関連論文リスト
- OmniSVG: A Unified Scalable Vector Graphics Generation Model [69.59073636922287]
我々は、エンドツーエンドのマルチモーダルSVG生成に事前訓練されたビジョンランゲージモデルを活用する統一フレームワークであるOmniSVGを提案する。
SVGコマンドと座標を離散トークンにパラメタ化することにより、OmniSVGは複雑なSVG構造の合成を維持しながら、低レベルの幾何学から構造論理を分離し、効率的なトレーニングを行う。
本稿では,200万の注釈付きSVGアセットを持つマルチモーダルデータセットMMSVG-2Mと,条件付きSVG生成タスクの標準化された評価プロトコルを紹介する。
論文 参考訳(メタデータ) (2025-04-08T17:59:49Z) - NeuralSVG: An Implicit Representation for Text-to-Vector Generation [54.4153300455889]
本稿では,テキストプロンプトからベクトルグラフィックスを生成する暗黙的なニューラル表現であるNeuralSVGを提案する。
生成したSVGの層構造を促進するために,ドロップアウトに基づく正規化手法を導入する。
ニューラルSVGは、構造化された柔軟なSVGを生成する際に、既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-01-07T18:50:06Z) - Visually Descriptive Language Model for Vector Graphics Reasoning [76.42082386029206]
低レベル視覚知覚と高レベル言語推論のギャップを埋めるための視覚記述型言語モデル(VDLM)を提案する。
VDLMは,様々なマルチモーダル認識および推論タスクにおいて,GPT-4oのような最先端のLMMを大幅に改善することを示す。
論文 参考訳(メタデータ) (2024-04-09T17:30:18Z) - SVGDreamer: Text Guided SVG Generation with Diffusion Model [31.76771064173087]
SVGDreamerと呼ばれる新しいテキスト誘導ベクトルグラフィックス合成法を提案する。
SIVEプロセスは、前景オブジェクトと背景への合成の分解を可能にする。
VPSDアプローチは、形状の平滑化、彩度の過飽和、多様性の制限、収束の遅い問題に対処する。
論文 参考訳(メタデータ) (2023-12-27T08:50:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。