論文の概要: Empowering LLMs to Understand and Generate Complex Vector Graphics
- arxiv url: http://arxiv.org/abs/2412.11102v1
- Date: Sun, 15 Dec 2024 07:49:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:57:30.358795
- Title: Empowering LLMs to Understand and Generate Complex Vector Graphics
- Title(参考訳): LLMによる複雑なベクトルグラフの理解と生成
- Authors: Ximing Xing, Juncheng Hu, Guotao Liang, Jing Zhang, Dong Xu, Qian Yu,
- Abstract要約: 大規模言語モデル(LLM)は、トレーニング中にWebページからベクターグラフィックスの部分的知識を符号化する。
最近の知見は, LLM内の意味的曖昧さとトークン化表現が, ベクトルプリミティブ予測における幻覚を引き起こす可能性を示唆している。
LLM4SVGは、LLMがベクトルグラフィックスをよりよく理解し、生成できるようにすることにより、このギャップを埋める最初のステップであるが、実質的なステップである。
- 参考スコア(独自算出の注目度): 30.21003939248769
- License:
- Abstract: The unprecedented advancements in Large Language Models (LLMs) have profoundly impacted natural language processing but have yet to fully embrace the realm of scalable vector graphics (SVG) generation. While LLMs encode partial knowledge of SVG data from web pages during training, recent findings suggest that semantically ambiguous and tokenized representations within LLMs may result in hallucinations in vector primitive predictions. Additionally, LLM training typically lacks modeling and understanding of the rendering sequence of vector paths, which can lead to occlusion between output vector primitives. In this paper, we present LLM4SVG, an initial yet substantial step toward bridging this gap by enabling LLMs to better understand and generate vector graphics. LLM4SVG facilitates a deeper understanding of SVG components through learnable semantic tokens, which precisely encode these tokens and their corresponding properties to generate semantically aligned SVG outputs. Using a series of learnable semantic tokens, a structured dataset for instruction following is developed to support comprehension and generation across two primary tasks. Our method introduces a modular architecture to existing large language models, integrating semantic tags, vector instruction encoders, fine-tuned commands, and powerful LLMs to tightly combine geometric, appearance, and language information. To overcome the scarcity of SVG-text instruction data, we developed an automated data generation pipeline that collected a massive dataset of more than 250k SVG data and 580k SVG-text instructions, which facilitated the adoption of the two-stage training strategy popular in LLM development. By exploring various training strategies, we developed LLM4SVG, which significantly moves beyond optimized rendering-based approaches and language-model-based baselines to achieve remarkable results in human evaluation tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)の先例のない進歩は、自然言語処理に大きな影響を与えているが、スケーラブルなベクトルグラフィックス(SVG)生成の領域を完全には受け入れていない。
LLMは、トレーニング中のWebページからのSVGデータの部分的知識を符号化するが、最近の知見は、LLM内の意味的に曖昧でトークン化された表現が、ベクトルプリミティブ予測における幻覚をもたらす可能性があることを示唆している。
加えて、LLMトレーニングは一般的にベクトルパスのレンダリングシーケンスのモデリングと理解を欠いているため、出力ベクトルプリミティブ間の閉塞につながる可能性がある。
本稿では,LLMがベクトルグラフィックスをよりよく理解し,生成できるようにすることで,このギャップを埋める最初のステップであるLSM4SVGを提案する。
LLM4SVGは、学習可能なセマンティックトークンを通じてSVGコンポーネントのより深い理解を促進する。
一連の学習可能なセマンティックトークンを使用して,2つの主要なタスクに対する理解と生成をサポートするために,命令追従のための構造化データセットを開発する。
提案手法は,既存の大規模言語モデルにモジュールアーキテクチャを導入し,意味タグ,ベクトル命令エンコーダ,微調整コマンド,そして幾何学的,外観的,言語情報を密結合する強力なLLMを統合する。
SVGテキスト命令データの不足を克服するために,250k以上のSVGデータと580k以上のSVGテキスト命令からなる膨大なデータセットを収集する自動データ生成パイプラインを開発した。
LLM4SVGは,様々なトレーニング戦略を探求することにより,人間の評価タスクにおいて顕著な結果を得るために,最適化されたレンダリングベースのアプローチや言語モデルベースのベースラインをはるかに越えることができた。
関連論文リスト
- Deep Semantic Graph Learning via LLM based Node Enhancement [5.312946761836463]
大規模言語モデル(LLM)は、テキストセマンティクスを理解する上で優れた能力を示している。
本稿では,グラフトランスフォーマーアーキテクチャとLLM拡張ノード機能を組み合わせた新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-11T21:55:46Z) - NeuralSVG: An Implicit Representation for Text-to-Vector Generation [54.4153300455889]
本稿では,テキストプロンプトからベクトルグラフィックスを生成する暗黙的なニューラル表現であるNeuralSVGを提案する。
生成したSVGの層構造を促進するために,ドロップアウトに基づく正規化手法を導入する。
ニューラルSVGは、構造化された柔軟なSVGを生成する際に、既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-01-07T18:50:06Z) - GL-Fusion: Rethinking the Combination of Graph Neural Network and Large Language model [63.774726052837266]
グラフニューラルネットワーク(GNN)とLarge Language Models(LLM)を深く統合した新しいアーキテクチャを導入する。
本稿では,(1)GNNのメッセージパッシング機能を直接LLMのトランスフォーマー層に組み込む構造対応トランスフォーマー,(2)グラフノードとエッジから圧縮されていない全テキストを処理するグラフテキストクロスアテンション,(3)GNN-LLMツインプレクタ,(3)GNN-LLMツインプレクタ,3)GNNのスケーラブルなワンパス予測とともに,LLMの柔軟な自己回帰生成を実現する。
論文 参考訳(メタデータ) (2024-12-08T05:49:58Z) - Chat2SVG: Vector Graphics Generation with Large Language Models and Image Diffusion Models [14.917583676464266]
Chat2SVGは大規模言語モデルと画像拡散モデルを組み合わせたハイブリッドフレームワークである。
本システムにより,自然言語による直感的な編集が可能となり,プロのベクトルグラフィックス作成が可能となった。
論文 参考訳(メタデータ) (2024-11-25T17:31:57Z) - LLaMA-Mesh: Unifying 3D Mesh Generation with Language Models [62.85566496673856]
この研究は、テキストで事前訓練された大規模言語モデル(LLM)の機能を拡張して、統一モデル内で3Dメッシュを生成することを検討する。
主な課題は、3DメッシュデータをLLMがシームレスに処理できる離散トークンに効果的にトークン化することだ。
我々の研究は、LLMがテキストベースのフォーマットで3Dメッシュ生成のための複雑な空間知識を得るために微調整できることを示す最初のものである。
論文 参考訳(メタデータ) (2024-11-14T17:08:23Z) - Multi-View Empowered Structural Graph Wordification for Language Models [12.22063024099311]
本稿では,LLM-graphアライメントのためのエンドツーエンドのモダリティアライメントフレームワークについて紹介する。
提案手法は LLM とのトークンレベルアライメントを容易にするために設計されており,グラフの内在的' を理解可能な自然言語に効果的に翻訳することができる。
我々のフレームワークは、LLMとGNN間のトークンレベルのアライメントを実現するための、有望な試みである、ある視覚的解釈可能性、効率、堅牢性を保証する。
論文 参考訳(メタデータ) (2024-06-19T16:43:56Z) - VP-LLM: Text-Driven 3D Volume Completion with Large Language Models through Patchification [56.211321810408194]
大規模言語モデル(LLM)はマルチモーダル理解および生成タスクにおいて大きな可能性を示している。
本稿では,LLMを利用して条件付き3D補完を行うVolume Patch LLM(VP-LLM)を提案する。
以上の結果から,LLMが複雑なテキスト命令を解釈し,3Dオブジェクトを理解する能力は,最先端の拡散に基づく3Dコンプリートモデルに勝るものであることが示唆された。
論文 参考訳(メタデータ) (2024-06-08T18:17:09Z) - Leveraging Large Language Models for Scalable Vector Graphics-Driven Image Understanding [46.042197741423365]
大規模言語モデル(LLM)は、自然言語理解において大きな進歩を遂げた。
本研究は,LLMが画像の理解も可能かどうかを考察する。
論文 参考訳(メタデータ) (2023-06-09T17:57:01Z) - Harnessing Explanations: LLM-to-LM Interpreter for Enhanced
Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。
提案手法は、確立されたTAGデータセットの最先端結果を実現する。
本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文 参考訳(メタデータ) (2023-05-31T03:18:03Z) - DeepSVG: A Hierarchical Generative Network for Vector Graphics Animation [217.86315551526235]
本稿では,複雑なSVGアイコンの生成と操作のために,DeepSVGと呼ばれる新しい階層型生成ネットワークを提案する。
我々のアーキテクチャは、その形状自体をエンコードする低レベルのコマンドから、効果的に高レベルの形状を分離します。
我々のネットワークは、多様なベクトルグラフィックスを正確に再構築し、強力なアニメーションツールとして機能することを実証する。
論文 参考訳(メタデータ) (2020-07-22T09:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。