論文の概要: Empowering LLMs to Understand and Generate Complex Vector Graphics
- arxiv url: http://arxiv.org/abs/2412.11102v2
- Date: Wed, 08 Jan 2025 07:22:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-09 16:10:19.428467
- Title: Empowering LLMs to Understand and Generate Complex Vector Graphics
- Title(参考訳): LLMによる複雑なベクトルグラフの理解と生成
- Authors: Ximing Xing, Juncheng Hu, Guotao Liang, Jing Zhang, Dong Xu, Qian Yu,
- Abstract要約: 大規模言語モデル(LLM)は、トレーニング中にWebページからベクターグラフィックスの部分的知識を符号化する。
最近の知見は, LLM内の意味的曖昧さとトークン化表現が, ベクトルプリミティブ予測における幻覚を引き起こす可能性を示唆している。
LLM4SVGは、LLMがベクトルグラフィックスをよりよく理解し、生成できるようにすることにより、このギャップを埋める最初のステップであるが、実質的なステップである。
- 参考スコア(独自算出の注目度): 30.21003939248769
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The unprecedented advancements in Large Language Models (LLMs) have profoundly impacted natural language processing but have yet to fully embrace the realm of scalable vector graphics (SVG) generation. While LLMs encode partial knowledge of SVG data from web pages during training, recent findings suggest that semantically ambiguous and tokenized representations within LLMs may result in hallucinations in vector primitive predictions. Additionally, LLM training typically lacks modeling and understanding of the rendering sequence of vector paths, which can lead to occlusion between output vector primitives. In this paper, we present LLM4SVG, an initial yet substantial step toward bridging this gap by enabling LLMs to better understand and generate vector graphics. LLM4SVG facilitates a deeper understanding of SVG components through learnable semantic tokens, which precisely encode these tokens and their corresponding properties to generate semantically aligned SVG outputs. Using a series of learnable semantic tokens, a structured dataset for instruction following is developed to support comprehension and generation across two primary tasks. Our method introduces a modular architecture to existing large language models, integrating semantic tags, vector instruction encoders, fine-tuned commands, and powerful LLMs to tightly combine geometric, appearance, and language information. To overcome the scarcity of SVG-text instruction data, we developed an automated data generation pipeline that collected a massive dataset of more than 250k SVG data and 580k SVG-text instructions, which facilitated the adoption of the two-stage training strategy popular in LLM development. By exploring various training strategies, we developed LLM4SVG, which significantly moves beyond optimized rendering-based approaches and language-model-based baselines to achieve remarkable results in human evaluation tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)の先例のない進歩は、自然言語処理に大きな影響を与えているが、スケーラブルなベクトルグラフィックス(SVG)生成の領域を完全には受け入れていない。
LLMは、トレーニング中のWebページからのSVGデータの部分的知識を符号化するが、最近の知見は、LLM内の意味的に曖昧でトークン化された表現が、ベクトルプリミティブ予測における幻覚をもたらす可能性があることを示唆している。
加えて、LLMトレーニングは一般的にベクトルパスのレンダリングシーケンスのモデリングと理解を欠いているため、出力ベクトルプリミティブ間の閉塞につながる可能性がある。
本稿では,LLMがベクトルグラフィックスをよりよく理解し,生成できるようにすることで,このギャップを埋める最初のステップであるLSM4SVGを提案する。
LLM4SVGは、学習可能なセマンティックトークンを通じてSVGコンポーネントのより深い理解を促進する。
一連の学習可能なセマンティックトークンを使用して,2つの主要なタスクに対する理解と生成をサポートするために,命令追従のための構造化データセットを開発する。
提案手法は,既存の大規模言語モデルにモジュールアーキテクチャを導入し,意味タグ,ベクトル命令エンコーダ,微調整コマンド,そして幾何学的,外観的,言語情報を密結合する強力なLLMを統合する。
SVGテキスト命令データの不足を克服するために,250k以上のSVGデータと580k以上のSVGテキスト命令からなる膨大なデータセットを収集する自動データ生成パイプラインを開発した。
LLM4SVGは,様々なトレーニング戦略を探求することにより,人間の評価タスクにおいて顕著な結果を得るために,最適化されたレンダリングベースのアプローチや言語モデルベースのベースラインをはるかに越えることができた。
関連論文リスト
- OmniSVG: A Unified Scalable Vector Graphics Generation Model [70.26163703054979]
我々は、エンドツーエンドのマルチモーダルSVG生成に事前訓練されたビジョンランゲージモデルを活用する統一フレームワークであるOmniSVGを提案する。
SVGコマンドと座標を離散トークンにパラメタ化することにより、OmniSVGは複雑なSVG構造の合成を維持しながら、低レベルの幾何学から構造論理を分離し、効率的なトレーニングを行う。
本稿では,200万の注釈付きSVGアセットを持つマルチモーダルデータセットMMSVG-2Mと,条件付きSVG生成タスクの標準化された評価プロトコルを紹介する。
論文 参考訳(メタデータ) (2025-04-08T17:59:49Z) - From Text to Visuals: Using LLMs to Generate Math Diagrams with Vector Graphics [4.012351415340318]
大規模言語モデル(LLM)は、教師と学生の両方のサポートを自動化することで、数学教育を強化する新しい可能性を提供する。
LLMを使ってスケーラブルベクトルグラフ(SVG)を生成する最近の研究は、図作成を自動化するための有望なアプローチを示している。
本稿では,(1)問題解のヒントを自動的に生成し,それらの品質を評価する方法,(2)SVGが数学図の効果的な中間表現であるかどうか,(3)正確なSVGベースの図を生成するためには,LSMがどのような戦略や形式を必要とするのか,という3つの研究課題に対処する。
論文 参考訳(メタデータ) (2025-03-10T15:13:38Z) - Leveraging Large Language Models For Scalable Vector Graphics Processing: A Review [0.0]
従来のベクトル化技術は、長い処理時間と過剰な出力の複雑さに悩まされている。
大規模言語モデル(LLM)の出現により、ベクトルグラフィックスの生成、編集、解析の新しい可能性が生まれた。
論文 参考訳(メタデータ) (2025-03-06T21:23:17Z) - NeuralSVG: An Implicit Representation for Text-to-Vector Generation [54.4153300455889]
本稿では,テキストプロンプトからベクトルグラフィックスを生成する暗黙的なニューラル表現であるNeuralSVGを提案する。
生成したSVGの層構造を促進するために,ドロップアウトに基づく正規化手法を導入する。
ニューラルSVGは、構造化された柔軟なSVGを生成する際に、既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-01-07T18:50:06Z) - GL-Fusion: Rethinking the Combination of Graph Neural Network and Large Language model [63.774726052837266]
グラフニューラルネットワーク(GNN)とLarge Language Models(LLM)を深く統合した新しいアーキテクチャを導入する。
本稿では,(1)GNNのメッセージパッシング機能を直接LLMのトランスフォーマー層に組み込む構造対応トランスフォーマー,(2)グラフノードとエッジから圧縮されていない全テキストを処理するグラフテキストクロスアテンション,(3)GNN-LLMツインプレクタ,(3)GNN-LLMツインプレクタ,3)GNNのスケーラブルなワンパス予測とともに,LLMの柔軟な自己回帰生成を実現する。
論文 参考訳(メタデータ) (2024-12-08T05:49:58Z) - Chat2SVG: Vector Graphics Generation with Large Language Models and Image Diffusion Models [14.917583676464266]
Chat2SVGは大規模言語モデルと画像拡散モデルを組み合わせたハイブリッドフレームワークである。
本システムにより,自然言語による直感的な編集が可能となり,プロのベクトルグラフィックス作成が可能となった。
論文 参考訳(メタデータ) (2024-11-25T17:31:57Z) - LLaMA-Mesh: Unifying 3D Mesh Generation with Language Models [62.85566496673856]
この研究は、テキストで事前訓練された大規模言語モデル(LLM)の機能を拡張して、統一モデル内で3Dメッシュを生成することを検討する。
主な課題は、3DメッシュデータをLLMがシームレスに処理できる離散トークンに効果的にトークン化することだ。
我々の研究は、LLMがテキストベースのフォーマットで3Dメッシュ生成のための複雑な空間知識を得るために微調整できることを示す最初のものである。
論文 参考訳(メタデータ) (2024-11-14T17:08:23Z) - VP-LLM: Text-Driven 3D Volume Completion with Large Language Models through Patchification [56.211321810408194]
大規模言語モデル(LLM)はマルチモーダル理解および生成タスクにおいて大きな可能性を示している。
本稿では,LLMを利用して条件付き3D補完を行うVolume Patch LLM(VP-LLM)を提案する。
以上の結果から,LLMが複雑なテキスト命令を解釈し,3Dオブジェクトを理解する能力は,最先端の拡散に基づく3Dコンプリートモデルに勝るものであることが示唆された。
論文 参考訳(メタデータ) (2024-06-08T18:17:09Z) - Visually Descriptive Language Model for Vector Graphics Reasoning [76.42082386029206]
低レベル視覚知覚と高レベル言語推論のギャップを埋めるための視覚記述型言語モデル(VDLM)を提案する。
VDLMは,様々なマルチモーダル認識および推論タスクにおいて,GPT-4oのような最先端のLMMを大幅に改善することを示す。
論文 参考訳(メタデータ) (2024-04-09T17:30:18Z) - Leveraging Large Language Models for Scalable Vector Graphics-Driven Image Understanding [46.042197741423365]
大規模言語モデル(LLM)は、自然言語理解において大きな進歩を遂げた。
本研究は,LLMが画像の理解も可能かどうかを考察する。
論文 参考訳(メタデータ) (2023-06-09T17:57:01Z) - Harnessing Explanations: LLM-to-LM Interpreter for Enhanced
Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。
提案手法は、確立されたTAGデータセットの最先端結果を実現する。
本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文 参考訳(メタデータ) (2023-05-31T03:18:03Z) - DeepSVG: A Hierarchical Generative Network for Vector Graphics Animation [217.86315551526235]
本稿では,複雑なSVGアイコンの生成と操作のために,DeepSVGと呼ばれる新しい階層型生成ネットワークを提案する。
我々のアーキテクチャは、その形状自体をエンコードする低レベルのコマンドから、効果的に高レベルの形状を分離します。
我々のネットワークは、多様なベクトルグラフィックスを正確に再構築し、強力なアニメーションツールとして機能することを実証する。
論文 参考訳(メタデータ) (2020-07-22T09:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。