論文の概要: GeoSVG-RL: Geometry-Aware Reinforcement Learning for Layout-Constrained Text-to-SVG Diagram Generation
- arxiv url: http://arxiv.org/abs/2605.25447v1
- Date: Mon, 25 May 2026 05:56:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.335335
- Title: GeoSVG-RL: Geometry-Aware Reinforcement Learning for Layout-Constrained Text-to-SVG Diagram Generation
- Title(参考訳): GeoSVG-RL:レイアウト制約付きテキスト-SVGダイアグラム生成のための幾何認識強化学習
- Authors: Sifan Li, Yujun Cai, Hongkai Chen, Yiwei Wang,
- Abstract要約: レイアウト制約付きテキスト・ツー・SVG生成のための特殊強化学習フレームワークGeoSVG-RLを紹介する。
モデルはまず、SVGコードの後の世代のための幾何学的契約として機能する構造化レイアウト計画を生成する。
GeoSVG-RLは、特にアローアンカー精度とテキスト・イン・ボックスレートにおいて、構造的信頼性を大幅に向上させる。
- 参考スコア(独自算出の注目度): 29.64540884592851
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating structured, editable diagrams remains a significant challenge for contemporary large language models, despite their proficiency in general-purpose vector code generation. The primary difficulty lies in the structural fragility of the output; minor errors such as misaligned connector endpoints, text labels overlapping borders, or complex layouts drifting beyond the canvas boundaries render the resulting SVG files functionally unusable for professional applications. To address these issues, we introduce GeoSVG-RL, a specialized reinforcement learning framework designed for layout-constrained text-to-SVG generation. Unlike standard training objectives that rely solely on maximizing token-level likelihood, our approach optimizes the policy against explicit, executable geometric feedback. The model first produces a structured layout plan that serves as a geometric contract for the subsequent generation of the SVG code. This code is then rendered through a browser-backed verifier, enabling the calculation of fine-grained rewards across six critical dimensions: rendering validity, canvas fitting, precise anchor placement, text containment, graph consistency, and code cleanliness. We utilize Group Relative Policy Optimization (GRPO) to refine the model, sampling multiple candidates per prompt to facilitate updates based on relative quality. Starting from a supervised warm-start phase on synthetic data, GeoSVG-RL achieves substantial gains in structural reliability, particularly in arrow-anchor accuracy and text-in-box rates. Quantitative evaluations demonstrate that our method consistently outperforms current state-of-the-art systems in local geometric precision and the preservation of graph connectivity, providing a robust pathway toward automated yet reliable technical illustration.
- Abstract(参考訳): 構造化された編集可能な図を生成することは、汎用ベクトルコード生成の習熟性にもかかわらず、現代の大規模言語モデルにとって重要な課題である。
主な難しさは出力の構造的脆弱性にある; 接続エンドポイント、テキストラベルの重なり合う境界、あるいはキャンバス境界を越えてドリフトする複雑なレイアウトなどの小さなエラーは、プロのアプリケーションで機能的に使用できないSVGファイルを生成する。
このような問題に対処するため,GeoSVG-RLは,レイアウト制約付きテキスト-SVG生成用に設計された強化学習フレームワークである。
トークンレベルの可能性の最大化にのみ依存する標準的なトレーニング目標とは異なり、我々のアプローチは明示的で実行可能な幾何学的フィードバックに対するポリシーを最適化する。
モデルはまず、SVGコードの後の世代のための幾何学的契約として機能する構造化レイアウト計画を生成する。
このコードはブラウザが支援する検証器を通じてレンダリングされ、レンダリングの妥当性、キャンバスの適合性、正確なアンカー配置、テキストの封じ込め、グラフの一貫性、コードクリーン化の6つの重要な次元にわたる微妙な報酬の計算が可能になる。
グループ相対政策最適化(GRPO)を用いてモデルを洗練し、プロンプト毎に複数の候補をサンプリングし、相対的な品質に基づく更新を容易にする。
GeoSVG-RLは、合成データ上の監視されたウォームスタートフェーズから始まり、特にアロー・アンカー精度とテキスト・イン・ボックスレートにおいて、構造的信頼性を大幅に向上させる。
定量的評価により,本手法は局所的幾何精度とグラフ接続の保存において常に最先端のシステムより優れており,自動化された信頼性の高い技術図面への堅牢な経路を提供する。
関連論文リスト
- Hierarchical SVG Tokenization: Learning Compact Visual Programs for Scalable Vector Graphics Modeling [26.78519241779487]
HiVGは自己回帰ベクトルグラフィックス生成に適した階層的なSVGトークン化フレームワークである。
従来のトークン化方式と比較して, 生成忠実度, 空間整合性, シーケンス効率が改善された。
論文 参考訳(メタデータ) (2026-04-06T18:18:47Z) - VFIG: Vectorizing Complex Figures in SVG with Vision-Language Models [43.3181510471477]
実際には、元のベクトルソースファイルは頻繁に失われるか、アクセス不能になる。
複雑かつ高忠実な図形-SVG変換のために訓練された視覚言語モデルのファミリーであるVFIGを提案する。
VFIGはオープンソースのモデル間で最先端のパフォーマンスを達成し、GPT-5.2と同等に動作する。
論文 参考訳(メタデータ) (2026-03-25T17:52:23Z) - IntroSVG: Learning from Rendering Feedback for Text-to-SVG Generation via an Introspective Generator-Critic Framework [20.964700751378547]
既存のテキスト間SVG生成法では、最終的なレンダリング画像の視覚的認識は組み込まれていない。
本稿では,イントロスペクティブSVG生成フレームワーク(IntroSVG)を提案する。
提案手法は,いくつかの重要な評価指標にまたがって,最先端の性能を実現する。
論文 参考訳(メタデータ) (2026-03-10T07:44:51Z) - VecGlypher: Unified Vector Glyph Generation with Language Models [49.18215716168074]
VecGlypherはテキスト記述や画像例から直接、高忠実度ベクトルグリフを生成する。
VecGlypherはSVGパストークンを自動回帰的に出力し、中間文字とターゲット文字を避ける。
論文 参考訳(メタデータ) (2026-02-25T00:27:23Z) - InternSVG: Towards Unified SVG Tasks with Multimodal Large Language Models [65.49118879021016]
統合データベンチマークモデルスイートであるInternSVGファミリを提示する。
SAgogeはSVGタスクのための最大かつ最も包括的なマルチモーダルデータセットである。
本稿では,SVG 固有の特殊トークンを用いた SVG 理解,編集,生成のための統合型 MLLM である InternSVG を提案する。
論文 参考訳(メタデータ) (2025-10-13T12:38:04Z) - GeoVLMath: Enhancing Geometry Reasoning in Vision-Language Models via Cross-Modal Reward for Auxiliary Line Creation [54.53486231309254]
ソリッド幾何学における補助線形推論に適したオープンソースのLVLMであるGeoVLMathを提案する。
我々は,LVLMの表現強度に整合性を持たせるために,補助線構成のテキスト記述を生成する。
この報酬に基づいて構築されたGeoVLMathは、固体幾何学における補助線形推論に適したオープンソースのLVLMである。
論文 参考訳(メタデータ) (2025-10-13T05:33:51Z) - SVGen: Interpretable Vector Graphics Generation with Large Language Models [61.62816031675714]
本稿では,自然言語記述と組み合わせた高品質なSVGの大規模データセットであるSVG-1Mを紹介する。
我々は、セマンティックガイダンスを強化するために、Chain of Thoughtアノテーション付きのサブセットを含む、SVGトレーニングペアに整合したテキストを作成する。
このデータセットに基づいて,自然言語入力からSVGコードを生成するエンド・ツー・エンド・モデルであるSVGenを提案する。
論文 参考訳(メタデータ) (2025-08-06T15:00:24Z) - NeuralSVG: An Implicit Representation for Text-to-Vector Generation [54.4153300455889]
本稿では,テキストプロンプトからベクトルグラフィックスを生成する暗黙的なニューラル表現であるNeuralSVGを提案する。
生成したSVGの層構造を促進するために,ドロップアウトに基づく正規化手法を導入する。
ニューラルSVGは、構造化された柔軟なSVGを生成する際に、既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-01-07T18:50:06Z) - Chat2SVG: Vector Graphics Generation with Large Language Models and Image Diffusion Models [14.917583676464266]
Chat2SVGは大規模言語モデルと画像拡散モデルを組み合わせたハイブリッドフレームワークである。
本システムにより,自然言語による直感的な編集が可能となり,プロのベクトルグラフィックス作成が可能となった。
論文 参考訳(メタデータ) (2024-11-25T17:31:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。