論文の概要: From Tokens to Numbers: Continuous Number Modeling for SVG Generation
- arxiv url: http://arxiv.org/abs/2602.02820v1
- Date: Mon, 02 Feb 2026 21:20:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.092004
- Title: From Tokens to Numbers: Continuous Number Modeling for SVG Generation
- Title(参考訳): トークンから数値へ:SVG生成のための連続数値モデリング
- Authors: Michael Ogezi, Martin Bell, Freda Shi, Ethan Smith,
- Abstract要約: 連続数モデリング(Continuous Number Modeling, CNM)は、離散トークンではなく、数値を直接一級連続値としてモデル化する手法である。
我々の定式化は、代替手法に比べて高い忠実性を保ちながら、トレーニング速度を30%以上改善する。
- 参考スコア(独自算出の注目度): 17.597559308984042
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: For certain image generation tasks, vector graphics such as Scalable Vector Graphics (SVGs) offer clear benefits such as increased flexibility, size efficiency, and editing ease, but remain less explored than raster-based approaches. A core challenge is that the numerical, geometric parameters, which make up a large proportion of SVGs, are inefficiently encoded as long sequences of tokens. This slows training, reduces accuracy, and hurts generalization. To address these problems, we propose Continuous Number Modeling (CNM), an approach that directly models numbers as first-class, continuous values rather than discrete tokens. This formulation restores the mathematical elegance of the representation by aligning the model's inputs with the data's continuous nature, removing discretization artifacts introduced by token-based encoding. We then train a multimodal transformer on 2 million raster-to-SVG samples, followed by fine-tuning via reinforcement learning using perceptual feedback to further improve visual quality. Our approach improves training speed by over 30% while maintaining higher perceptual fidelity compared to alternative approaches. This work establishes CNM as a practical and efficient approach for high-quality vector generation, with potential for broader applications. We make our code available http://github.com/mikeogezi/CNM.
- Abstract(参考訳): 画像生成タスクでは、SVG(Scalable Vector Graphics)のようなベクターグラフィックスは、柔軟性の向上、サイズ効率の向上、編集の容易さといった明確な利点を提供するが、ラスタベースのアプローチよりも探索性が低い。
鍵となる課題は、SVGのかなりの割合を占める数値的幾何学的パラメータが、トークンの長い列として非効率に符号化されることである。
これによりトレーニングが遅くなり、精度が低下し、一般化が損なわれる。
これらの問題に対処するため、離散トークンではなく、数値を直接一級連続値としてモデル化するアプローチであるContinuous Number Modeling (CNM)を提案する。
この定式化は、モデルの入力とデータの連続的な性質を一致させて表現の数学的エレガンスを復元し、トークンベースの符号化によって導入された離散化アーティファクトを除去する。
次に、200万個のラスタ・トゥ・SVGサンプルにマルチモーダルトランスフォーマーをトレーニングし、その後、知覚フィードバックを用いた強化学習による微調整を行い、視覚的品質をさらに向上させる。
提案手法は,学習速度を30%以上向上すると同時に,他の手法に比べて知覚的忠実度を高く維持する。
この研究は、CNMを高品質なベクトル生成のための実用的で効率的なアプローチとして確立し、より広範な応用の可能性を秘めている。
コードはhttp://github.com/mikeogezi/CNM.comで公開しています。
関連論文リスト
- Continuous Autoregressive Language Models [56.49239051750678]
我々はCALM(Continuous Autoregressive Language Models)を紹介する。
CALMは高忠実度オートエンコーダを使用して、Kトークンの塊を1つの連続ベクトルに圧縮する。
我々は、堅牢なトレーニング、評価、および制御可能なサンプリングを可能にする包括的可能性のないフレームワークを開発する。
論文 参考訳(メタデータ) (2025-10-31T17:58:11Z) - See it. Say it. Sorted: Agentic System for Compositional Diagram Generation [0.5079602839359522]
スケッチ・トゥ・ダイアグラムの生成について研究し、粗い手書きスケッチを正確な構成図に変換する。
視覚言語モデル(VLM)とLarge Language Models(LLM)を結合した学習自由エージェントシステムSorted.を紹介する。
このシステムは、批判的VLMが小さな定性的な編集セットを提案する反復ループを実行し、複数の候補LPMが様々な戦略で更新を合成する。
この設計は、不安定な数値推定よりも定性的推論を優先し、大域的制約(例えば、アライメント、接続性)を保存し、自然に人間のループをサポートする。
論文 参考訳(メタデータ) (2025-08-21T04:20:36Z) - SVGen: Interpretable Vector Graphics Generation with Large Language Models [61.62816031675714]
本稿では,自然言語記述と組み合わせた高品質なSVGの大規模データセットであるSVG-1Mを紹介する。
我々は、セマンティックガイダンスを強化するために、Chain of Thoughtアノテーション付きのサブセットを含む、SVGトレーニングペアに整合したテキストを作成する。
このデータセットに基づいて,自然言語入力からSVGコードを生成するエンド・ツー・エンド・モデルであるSVGenを提案する。
論文 参考訳(メタデータ) (2025-08-06T15:00:24Z) - Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。
我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。
GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文 参考訳(メタデータ) (2025-04-24T17:59:56Z) - SuperSVG: Superpixel-based Scalable Vector Graphics Synthesis [66.44553285020066]
SuperSVGは、高速かつ高精度な画像ベクトル化を実現するスーパーピクセルベースのベクトル化モデルである。
本稿では,2段階の自己学習フレームワークを提案する。そこでは,粗い段階モデルを用いて主構造を再構築し,細部を充実させるために改良段階モデルを用いる。
再現精度と推定時間の観点から, 最先端手法と比較して, 提案手法の優れた性能を示す実験を行った。
論文 参考訳(メタデータ) (2024-06-14T07:43:23Z) - NP-DRAW: A Non-Parametric Structured Latent Variable Modelfor Image
Generation [139.8037697822064]
NP-DRAWと呼ばれる画像生成のための非パラメトリック構造化潜在変数モデルを提案する。
後続のキャンバスをパーツ単位で順次描画し、それをキャンバスからデコードする。
論文 参考訳(メタデータ) (2021-06-25T05:17:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。