論文の概要: Symbolic Graphics Programming with Large Language Models
- arxiv url: http://arxiv.org/abs/2509.05208v1
- Date: Fri, 05 Sep 2025 16:10:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.647336
- Title: Symbolic Graphics Programming with Large Language Models
- Title(参考訳): 大規模言語モデルを用いた記号型グラフィクスプログラミング
- Authors: Yamei Chen, Haoquan Zhang, Yangyi Huang, Zeju Qiu, Kaipeng Zhang, Yandong Wen, Weiyang Liu,
- Abstract要約: 大規模言語モデル (LLMs) はプログラム合成において優れているが、シンボルグラフィックプログラム (SGPs) を作成する能力はいまだ探索されていない。
そこでは,自然言語記述からSGPを生成することを目的として,シンボリックグラフィックスプログラミングについて検討する。
本稿では,形式妥当性ゲートがレンダリング可能なSVGを保証するため,検証可能な報酬手法を用いた強化学習(RL)を提案する。
- 参考スコア(独自算出の注目度): 36.27405949272913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) excel at program synthesis, yet their ability to produce symbolic graphics programs (SGPs) that render into precise visual content remains underexplored. We study symbolic graphics programming, where the goal is to generate an SGP from a natural-language description. This task also serves as a lens into how LLMs understand the visual world by prompting them to generate images rendered from SGPs. Among various SGPs, our paper sticks to scalable vector graphics (SVGs). We begin by examining the extent to which LLMs can generate SGPs. To this end, we introduce SGP-GenBench, a comprehensive benchmark covering object fidelity, scene fidelity, and compositionality (attribute binding, spatial relations, numeracy). On SGP-GenBench, we discover that frontier proprietary models substantially outperform open-source models, and performance correlates well with general coding capabilities. Motivated by this gap, we aim to improve LLMs' ability to generate SGPs. We propose a reinforcement learning (RL) with verifiable rewards approach, where a format-validity gate ensures renderable SVG, and a cross-modal reward aligns text and the rendered image via strong vision encoders (e.g., SigLIP for text-image and DINO for image-image). Applied to Qwen-2.5-7B, our method substantially improves SVG generation quality and semantics, achieving performance on par with frontier systems. We further analyze training dynamics, showing that RL induces (i) finer decomposition of objects into controllable primitives and (ii) contextual details that improve scene coherence. Our results demonstrate that symbolic graphics programming offers a precise and interpretable lens on cross-modal grounding.
- Abstract(参考訳): 大規模言語モデル (LLM) はプログラム合成において優れているが、正確なビジュアルコンテンツにレンダリングするシンボリックグラフィックスプログラム (SGP) を作成する能力は未定である。
そこでは,自然言語記述からSGPを生成することを目的として,シンボリックグラフィックスプログラミングについて検討する。
このタスクは、LSMがSGPから描画された画像を生成するように促すことで、視覚世界を理解するためのレンズとしても機能する。
様々なSGPの中で、我々の論文はスケーラブルなベクトルグラフィックス(SVG)に固執している。
まず LLM が SGP を生成する程度について検討する。
この目的のために、SGP-GenBenchは、オブジェクトの忠実度、シーンの忠実度、構成性(属性結合、空間関係、数値性)をカバーする包括的なベンチマークである。
SGP-GenBenchでは、フロンティアプロプライエタリモデルがオープンソースモデルよりも大幅に優れており、性能は一般的な符号化機能とよく相関している。
このギャップによって、我々はLSMがSGPを生成する能力を向上させることを目指している。
書式検証ゲートはレンダリング可能なSVGを保証し、クロスモーダルな報酬は強い視覚エンコーダ(例えば、テキストイメージのSigLIPと画像イメージのDINO)を介してテキストとレンダリング画像を調整する。
Qwen-2.5-7Bの適用により,SVG生成の品質とセマンティクスを大幅に改善し,フロンティアシステムと同等の性能を実現する。
我々はさらにトレーニングダイナミクスを分析し、RLが誘導することを示す。
(i)制御可能なプリミティブへのオブジェクトのより微細な分解
(II)シーンコヒーレンスを改善する文脈の詳細。
この結果から,シンボルグラフィックプログラミングは,クロスモーダルグラウンド上での精密かつ解釈可能なレンズを提供することが示された。
関連論文リスト
- Harmonizing Visual Representations for Unified Multimodal Understanding and Generation [53.01486796503091]
我々は,共有MARエンコーダによる理解と生成タスクを調和させる統合自己回帰フレームワークであるemphHarmonを提案する。
HarmonはGenEval、MJHQ30K、WISEベンチマークで最先端の画像生成結果を達成する。
論文 参考訳(メタデータ) (2025-03-27T20:50:38Z) - Leveraging Large Language Models For Scalable Vector Graphics Processing: A Review [0.0]
従来のベクトル化技術は、長い処理時間と過剰な出力の複雑さに悩まされている。
大規模言語モデル(LLM)の出現により、ベクトルグラフィックスの生成、編集、解析の新しい可能性が生まれた。
論文 参考訳(メタデータ) (2025-03-06T21:23:17Z) - Multi-View Empowered Structural Graph Wordification for Language Models [12.22063024099311]
本稿では,LLM-graphアライメントのためのエンドツーエンドのモダリティアライメントフレームワークについて紹介する。
提案手法は LLM とのトークンレベルアライメントを容易にするために設計されており,グラフの内在的' を理解可能な自然言語に効果的に翻訳することができる。
我々のフレームワークは、LLMとGNN間のトークンレベルのアライメントを実現するための、有望な試みである、ある視覚的解釈可能性、効率、堅牢性を保証する。
論文 参考訳(メタデータ) (2024-06-19T16:43:56Z) - Re-Thinking Inverse Graphics With Large Language Models [51.333105116400205]
逆グラフィックス -- イメージを物理変数に反転させ、レンダリングすると観察されたシーンの再現を可能にする -- は、コンピュータビジョンとグラフィックスにおいて根本的な課題である。
LLMを中心とした逆グラフフレームワークである逆グラフ大言語モデル(IG-LLM)を提案する。
我々は、凍結した事前学習されたビジュアルエンコーダと連続的な数値ヘッドを組み込んで、エンドツーエンドのトレーニングを可能にする。
論文 参考訳(メタデータ) (2024-04-23T16:59:02Z) - StrokeNUWA: Tokenizing Strokes for Vector Graphic Synthesis [112.25071764647683]
StrokeNUWAはベクターグラフィックスにおけるより良い視覚表現'ストロークトークン'を探求する先駆的な研究である。
ストロークトークンを備えたStrokeNUWAは、従来のLCMベースの最適化ベースのメソッドを大幅に上回ることができる。
StrokeNUWAは、SVGコード圧縮比が6.9%の従来の手法よりも94倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2024-01-30T15:20:26Z) - Leveraging Large Language Models for Scalable Vector Graphics-Driven Image Understanding [46.042197741423365]
大規模言語モデル(LLM)は、自然言語理解において大きな進歩を遂げた。
本研究は,LLMが画像の理解も可能かどうかを考察する。
論文 参考訳(メタデータ) (2023-06-09T17:57:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。