Fugu-MT 論文翻訳(概要): VecGlypher: Unified Vector Glyph Generation with Language Models

論文の概要: VecGlypher: Unified Vector Glyph Generation with Language Models

arxiv url: http://arxiv.org/abs/2602.21461v1
Date: Wed, 25 Feb 2026 00:27:23 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-26 18:19:16.650258
Title: VecGlypher: Unified Vector Glyph Generation with Language Models
Title（参考訳）: VecGlypher:言語モデルを用いた統一ベクトルグリフ生成
Authors: Xiaoke Huang, Bhavul Gauri, Kam Woh Ng, Tony Ng, Mengmeng Xu, Zhiheng Liu, Weiming Ren, Zhaochong An, Zijian Zhou, Haonan Qiu, Yuyin Zhou, Sen He, Ziheng Wang, Tao Xiang, Xiao Han,
Abstract要約: VecGlypherはテキスト記述や画像例から直接、高忠実度ベクトルグリフを生成する。 VecGlypherはSVGパストークンを自動回帰的に出力し、中間文字とターゲット文字を避ける。
参考スコア（独自算出の注目度）: 49.18215716168074
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vector glyphs are the atomic units of digital typography, yet most learning-based pipelines still depend on carefully curated exemplar sheets and raster-to-vector postprocessing, which limits accessibility and editability. We introduce VecGlypher, a single multimodal language model that generates high-fidelity vector glyphs directly from text descriptions or image exemplars. Given a style prompt, optional reference glyph images, and a target character, VecGlypher autoregressively emits SVG path tokens, avoiding raster intermediates and producing editable, watertight outlines in one pass. A typography-aware data and training recipe makes this possible: (i) a large-scale continuation stage on 39K noisy Envato fonts to master SVG syntax and long-horizon geometry, followed by (ii) post-training on 2.5K expert-annotated Google Fonts with descriptive tags and exemplars to align language and imagery with geometry; preprocessing normalizes coordinate frames, canonicalizes paths, de-duplicates families, and quantizes coordinates for stable long-sequence decoding. On cross-family OOD evaluation, VecGlypher substantially outperforms both general-purpose LLMs and specialized vector-font baselines for text-only generation, while image-referenced generation reaches a state-of-the-art performance, with marked gains over DeepVecFont-v2 and DualVector. Ablations show that model scale and the two-stage recipe are critical and that absolute-coordinate serialization yields the best geometry. VecGlypher lowers the barrier to font creation by letting users design with words or exemplars, and provides a scalable foundation for future multimodal design tools.
Abstract（参考訳）: ベクトルグリフはデジタルタイポグラフィーの原子単位であるが、ほとんどの学習ベースのパイプラインは、アクセシビリティと編集性を制限するために、注意深くキュレートされた既成のシートとラスタ・ツー・ベクター・ポストプロセッシングに依存している。本稿では,テキスト記述や画像例から直接高忠実度ベクトルグリフを生成する,単一のマルチモーダル言語モデルであるVecGlypherを紹介する。スタイルプロンプト、オプションの参照グリフイメージ、ターゲットキャラクタが与えられた後、VecGlypherはSVGパストークンを自動で出力し、ラスタ中間体を回避し、編集可能な水密なアウトラインを1パスで生成する。タイポグラフィー対応のデータとトレーニングのレシピがこれを可能にします。 (i)39K雑音EnvatoフォントのSVG構文と長軸幾何をマスターするための大規模継続ステージ事前処理は座標フレームの正規化、経路の正準化、家族の非重複化、安定的な長シーケンス復号化のための座標の量子化である。クロスファミリーOOD評価では、VecGlypherは汎用LLMとテキストのみの特殊なベクトルフォントベースラインの両方を著しく上回り、画像参照生成は最先端のパフォーマンスに達し、DeepVecFont-v2とDualVectorを大きく上回っている。アブレーションはモデルスケールと2段階のレシピが重要であり、絶対座標の直列化が最良の幾何学をもたらすことを示している。 VecGlypherは、フォント作成の障壁を減らし、ユーザーが単語や例えでデザインできるようにし、将来のマルチモーダルデザインツールのスケーラブルな基盤を提供する。

関連論文リスト

Stroke Modeling Enables Vectorized Character Generation with Large Vectorized Glyph Model [20.240367070645963]
我々は,次のストロークを予測して,ベクトル化された中国のグリフを生成するために設計された,LVGM(Large Vectorized Glyph Model)を提案する。限られたストロークで、完全な文字、意味的にエレガントな単語、さらにはベクトル化された形で見えない詩を生成できる。
論文参考訳（メタデータ） (2025-11-14T09:48:38Z)
See it. Say it. Sorted: Agentic System for Compositional Diagram Generation [0.5079602839359522]
スケッチ・トゥ・ダイアグラムの生成について研究し、粗い手書きスケッチを正確な構成図に変換する。視覚言語モデル(VLM)とLarge Language Models(LLM)を結合した学習自由エージェントシステムSorted.を紹介する。このシステムは、批判的VLMが小さな定性的な編集セットを提案する反復ループを実行し、複数の候補LPMが様々な戦略で更新を合成する。この設計は、不安定な数値推定よりも定性的推論を優先し、大域的制約(例えば、アライメント、接続性)を保存し、自然に人間のループをサポートする。
論文参考訳（メタデータ） (2025-08-21T04:20:36Z)
SVGen: Interpretable Vector Graphics Generation with Large Language Models [61.62816031675714]
本稿では,自然言語記述と組み合わせた高品質なSVGの大規模データセットであるSVG-1Mを紹介する。我々は、セマンティックガイダンスを強化するために、Chain of Thoughtアノテーション付きのサブセットを含む、SVGトレーニングペアに整合したテキストを作成する。このデータセットに基づいて,自然言語入力からSVGコードを生成するエンド・ツー・エンド・モデルであるSVGenを提案する。
論文参考訳（メタデータ） (2025-08-06T15:00:24Z)
NeuralSVG: An Implicit Representation for Text-to-Vector Generation [54.4153300455889]
本稿では,テキストプロンプトからベクトルグラフィックスを生成する暗黙的なニューラル表現であるNeuralSVGを提案する。生成したSVGの層構造を促進するために,ドロップアウトに基づく正規化手法を導入する。ニューラルSVGは、構造化された柔軟なSVGを生成する際に、既存の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2025-01-07T18:50:06Z)
Visually Descriptive Language Model for Vector Graphics Reasoning [76.42082386029206]
低レベル視覚知覚と高レベル言語推論のギャップを埋めるための視覚記述型言語モデル(VDLM)を提案する。 VDLMは,様々なマルチモーダル認識および推論タスクにおいて,GPT-4oのような最先端のLMMを大幅に改善することを示す。
論文参考訳（メタデータ） (2024-04-09T17:30:18Z)
DualVector: Unsupervised Vector Font Synthesis with Dual-Part Representation [43.64428946288288]
現在のフォント合成法では、形状を簡潔に表現できないか、訓練中にベクトル監督を必要とする。ベクトルグリフに対する新しい双対表現を提案し、各グリフは閉「正」経路対と「負」経路対の集合としてモデル化される。我々の手法はDual-of-Font-artと呼ばれ、最先端の手法よりも実用性が高い。
論文参考訳（メタデータ） (2023-05-17T08:18:06Z)
DeepVecFont-v2: Exploiting Transformers to Synthesize Vector Fonts with Higher Quality [38.32966391626858]
本稿では,ベクトルフォント合成のためのDeepVecFontの拡張版を提案する。 RNNの代わりにTransformerを採用して逐次データ処理を行い、ベクトルアウトラインの緩和表現を設計する。また,生成したB'ezier曲線や線を正確に整列する制御点に加えて,補助点のサンプリングも提案する。
論文参考訳（メタデータ） (2023-03-25T23:28:19Z)
Towards Layer-wise Image Vectorization [57.26058135389497]
画像をSVGに変換し,画像トポロジを同時に維持するためのレイヤワイズ画像ベクトル化(LIVE)を提案する。 Liveは、人間の視点にセマンティックに整合した階層構造を持つコンパクトなフォームを生成する。 Liveは、デザイナの両方のために編集可能なSVGを起動し、他のアプリケーションで使用することができる。
論文参考訳（メタデータ） (2022-06-09T17:55:02Z)
DeepVecFont: Synthesizing High-quality Vector Fonts via Dual-modality Learning [21.123297001902177]
本稿では,ベクトルグリフを生成するための新しい手法であるDeepVecFontを提案する。まず、フォントのイメージ・アスペクトとシーケンス・アスペクトの両特徴を利用してベクトルグリフを合成する双対モダリティ学習戦略を設計する。第2に、非構造化データ(例えばベクトルグリフ)をランダムにサンプリングして、生成した構造化データのガイダンスの下でさらに洗練された最適なデータを得る、新しい生成パラダイムを提供する。
論文参考訳（メタデータ） (2021-10-13T12:57:19Z)
Font Completion and Manipulation by Cycling Between Multi-Modality Representations [113.26243126754704]
中間表現としてグラフを用いた2次元グラフィックオブジェクトとしてフォントグリフの生成を探求する。我々は、画像エンコーダと画像の間のグラフで、モダリティサイクルのイメージ・ツー・イメージ構造を定式化する。本モデルでは,画像から画像までのベースラインと,それ以前のグリフ補完手法よりも改善された結果を生成する。
論文参考訳（メタデータ） (2021-08-30T02:43:29Z)
Rethinking Text Line Recognition Models [57.47147190119394]
2つのデコーダファミリー(コネクショニスト時間分類と変換器)と3つのエンコーダモジュール(双方向LSTM、自己認識、GRCL)を考える。広く使用されているシーンと手書きテキストの公開データセットの精度とパフォーマンスを比較します。より一般的なTransformerベースのモデルとは異なり、このアーキテクチャは任意の長さの入力を処理できる。
論文参考訳（メタデータ） (2021-04-15T21:43:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。