論文の概要: Render-in-the-Loop: Vector Graphics Generation via Visual Self-Feedback
- arxiv url: http://arxiv.org/abs/2604.20730v1
- Date: Wed, 22 Apr 2026 16:15:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.222313
- Title: Render-in-the-Loop: Vector Graphics Generation via Visual Self-Feedback
- Title(参考訳): Render-in-the-Loop:ビジュアルセルフフィードバックによるベクトルグラフィックス生成
- Authors: Guotao Liang, Zhangcheng Wang, Juncheng Hu, Haitao Zhou, Ziteng Xue, Jing Zhang, Dong Xu, Qian Yu,
- Abstract要約: 本稿では,SVG合成を段階的に視覚的に認識するプロセスとして再構成する新しい生成パラダイムを提案する。
中間のコードを累積キャンバスにレンダリングすることで、モデルは各ステップで進化する視覚的コンテキストを明示的に観察する。
このビジュアルループを市販のモデルに適用することは、インクリメンタルなビジュアルコードマッピングを活用できないため、最適ではないことを示す。
- 参考スコア(独自算出の注目度): 29.19392406217364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have shown promising capabilities in generating Scalable Vector Graphics (SVG) via direct code synthesis. However, existing paradigms typically adopt an open-loop "blind drawing" approach, where models generate symbolic code sequences without perceiving intermediate visual outcomes. This methodology severely underutilizes the powerful visual priors embedded in MLLMs vision encoders, treating SVG generation as a disjointed textual sequence modeling task rather than an integrated visuo-spatial one. Consequently, models struggle to reason about partial canvas states and implicit occlusion relationships, which are visually explicit but textually ambiguous. To bridge this gap, we propose Render-in-the-Loop, a novel generation paradigm that reformulates SVG synthesis as a step-wise, visual-context-aware process. By rendering intermediate code states into a cumulative canvas, the model explicitly observes the evolving visual context at each step, leveraging on-the-fly feedback to guide subsequent generation. However, we demonstrate that applying this visual loop naively to off-the-shelf models is suboptimal due to their inability to leverage incremental visual-code mappings. To address this, we first utilize fine-grained path decomposition to construct dense multi-step visual trajectories, and then introduce a Visual Self-Feedback (VSF) training strategy to condition the next primitive generation on intermediate visual states. Furthermore, a Render-and-Verify (RaV) inference mechanism is proposed to effectively filter degenerate and redundant primitives. Our framework, instantiated on a multimodal foundation model, outperforms strong open-weight baselines on the standard MMSVGBench. This result highlights the remarkable data efficiency and generalization capability of our Render-in-the-Loop paradigm for both Text-to-SVG and Image-to-SVG tasks.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、直接コード合成によってスケーラブルベクトルグラフィックス(SVG)を生成する有望な能力を示している。
しかし、既存のパラダイムは一般にオープンループの"盲線描画"アプローチを採用しており、モデルが中間的な視覚的な結果を認識することなくシンボリックなコードシーケンスを生成する。
この手法は,MLLMの視覚エンコーダに埋め込まれた強力な視覚的先入観を著しく過小評価し,SVG生成を統合ビジュオ空間ではなく,不整合テキストシーケンスモデリングタスクとして扱う。
結果として、モデルは部分的なキャンバス状態と暗黙的な排他的関係について推論するのに苦労する。
このギャップを埋めるために,SVG合成を段階的に視覚的コンテキスト認識プロセスとして再構成する新たな生成パラダイムであるRender-in-the-Loopを提案する。
中間のコードステートを累積キャンバスにレンダリングすることで、モデルは各ステップで進化する視覚的コンテキストを明示的に観察し、オンザフライフィードバックを利用してその後の生成をガイドする。
しかし、このビジュアルループを市販のモデルに適用することは、インクリメンタルなビジュアルコードマッピングを活用できないため、最適ではないことを示す。
これを解決するために,我々はまず細粒度の経路分解を利用して高密度な多段階視覚軌道を構築し,次に視覚自己フィードバック(VSF)トレーニング戦略を導入し,中間的視覚状態に次の原始的生成を条件付ける。
さらに、退化プリミティブと冗長プリミティブを効果的にフィルタするために、Render-and-Verify (RaV)推論機構を提案する。
我々のフレームワークは、マルチモーダル基礎モデルに基づいてインスタンス化され、標準MMSVGBenchで強力なオープンウェイトベースラインを上回ります。
この結果は、テキストからSVGタスクと画像からSVGタスクの両方において、Render-in-the-Loopパラダイムの顕著なデータ効率と一般化能力を強調します。
関連論文リスト
- IntroSVG: Learning from Rendering Feedback for Text-to-SVG Generation via an Introspective Generator-Critic Framework [20.964700751378547]
既存のテキスト間SVG生成法では、最終的なレンダリング画像の視覚的認識は組み込まれていない。
本稿では,イントロスペクティブSVG生成フレームワーク(IntroSVG)を提案する。
提案手法は,いくつかの重要な評価指標にまたがって,最先端の性能を実現する。
論文 参考訳(メタデータ) (2026-03-10T07:44:51Z) - From Tokens to Numbers: Continuous Number Modeling for SVG Generation [17.597559308984042]
連続数モデリング(Continuous Number Modeling, CNM)は、離散トークンではなく、数値を直接一級連続値としてモデル化する手法である。
我々の定式化は、代替手法に比べて高い忠実性を保ちながら、トレーニング速度を30%以上改善する。
論文 参考訳(メタデータ) (2026-02-02T21:20:38Z) - Vector Prism: Animating Vector Graphics by Stratifying Semantic Structure [57.89872230703339]
本稿では,信頼性の高いSVGアニメーションに必要なセマンティック構造を復元するフレームワークを提案する。
SVGをセマンティックグループに再編成することにより、VLMはより深いコヒーレンスを持つアニメーションを作成できる。
論文 参考訳(メタデータ) (2025-12-16T12:03:46Z) - Rendering-Aware Reinforcement Learning for Vector Graphics Generation [15.547843461605746]
視覚言語モデル(VLM)におけるSVG生成を向上させるRLRF(Reinforcement Learning from Rendering Feedback)を導入する。
入力画像が与えられた場合、モデルがレンダリングされたSVGロールアウトを生成し、元の画像と比較して報酬を計算する。
この視覚的忠実度フィードバックは、より正確で効率的でセマンティックにコヒーレントなSVGを生成するためにモデルを導く。
論文 参考訳(メタデータ) (2025-05-27T06:56:00Z) - VARGPT: Unified Understanding and Generation in a Visual Autoregressive Multimodal Large Language Model [38.61292051733335]
VARGPTは,単一の自己回帰フレームワーク内で視覚的理解と生成を統一する,新しいマルチモーダル大規模言語モデルである。
VarGPTは視覚理解のための次世代予測パラダイムと、視覚自己回帰生成のための次世代予測パラダイムを採用している。
特に、VARGPTは自己回帰的視覚生成と命令-画像合成の能力を自然にサポートし、視覚的理解と生成の両タスクにおいてその汎用性を示す。
論文 参考訳(メタデータ) (2025-01-21T17:50:43Z) - NeuralSVG: An Implicit Representation for Text-to-Vector Generation [54.4153300455889]
本稿では,テキストプロンプトからベクトルグラフィックスを生成する暗黙的なニューラル表現であるNeuralSVGを提案する。
生成したSVGの層構造を促進するために,ドロップアウトに基づく正規化手法を導入する。
ニューラルSVGは、構造化された柔軟なSVGを生成する際に、既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-01-07T18:50:06Z) - Visually Descriptive Language Model for Vector Graphics Reasoning [76.42082386029206]
低レベル視覚知覚と高レベル言語推論のギャップを埋めるための視覚記述型言語モデル(VDLM)を提案する。
VDLMは,様々なマルチモーダル認識および推論タスクにおいて,GPT-4oのような最先端のLMMを大幅に改善することを示す。
論文 参考訳(メタデータ) (2024-04-09T17:30:18Z) - StrokeNUWA: Tokenizing Strokes for Vector Graphic Synthesis [112.25071764647683]
StrokeNUWAはベクターグラフィックスにおけるより良い視覚表現'ストロークトークン'を探求する先駆的な研究である。
ストロークトークンを備えたStrokeNUWAは、従来のLCMベースの最適化ベースのメソッドを大幅に上回ることができる。
StrokeNUWAは、SVGコード圧縮比が6.9%の従来の手法よりも94倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2024-01-30T15:20:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。