論文の概要: Leveraging Large Language Models For Scalable Vector Graphics Processing: A Review
- arxiv url: http://arxiv.org/abs/2503.04983v1
- Date: Thu, 06 Mar 2025 21:23:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 15:56:49.700851
- Title: Leveraging Large Language Models For Scalable Vector Graphics Processing: A Review
- Title(参考訳): スケーラブルベクターグラフィックス処理に大規模言語モデルを活用する - レビュー
- Authors: Boris Malashenko, Ivan Jarsky, Valeria Efimova,
- Abstract要約: 従来のベクトル化技術は、長い処理時間と過剰な出力の複雑さに悩まされている。
大規模言語モデル(LLM)の出現により、ベクトルグラフィックスの生成、編集、解析の新しい可能性が生まれた。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: In recent years, rapid advances in computer vision have significantly improved the processing and generation of raster images. However, vector graphics, which is essential in digital design, due to its scalability and ease of editing, have been relatively understudied. Traditional vectorization techniques, which are often used in vector generation, suffer from long processing times and excessive output complexity, limiting their usability in practical applications. The advent of large language models (LLMs) has opened new possibilities for the generation, editing, and analysis of vector graphics, particularly in the SVG format, which is inherently text-based and well-suited for integration with LLMs. This paper provides a systematic review of existing LLM-based approaches for SVG processing, categorizing them into three main tasks: generation, editing, and understanding. We observe notable models such as IconShop, StrokeNUWA, and StarVector, highlighting their strengths and limitations. Furthermore, we analyze benchmark datasets designed for assessing SVG-related tasks, including SVGEditBench, VGBench, and SGP-Bench, and conduct a series of experiments to evaluate various LLMs in these domains. Our results demonstrate that for vector graphics reasoning-enhanced models outperform standard LLMs, particularly in generation and understanding tasks. Furthermore, our findings underscore the need to develop more diverse and richly annotated datasets to further improve LLM capabilities in vector graphics tasks.
- Abstract(参考訳): 近年、コンピュータビジョンの急速な進歩により、ラスタ画像の処理と生成が大幅に改善されている。
しかし,デジタル設計において欠かせないベクターグラフィックスは,そのスケーラビリティと編集容易性により,比較的研究が進められている。
ベクトル生成でよく使われる伝統的なベクトル化技術は、長い処理時間と過剰な出力の複雑さに悩まされ、実用用途における使用性を制限している。
大規模言語モデル(LLM)の出現により、ベクトルグラフィックスの生成、編集、解析の新たな可能性、特にSVGフォーマットは、テキストベースであり、LLMとの統合に適している。
本稿では,既存のSVG処理のためのLCMベースのアプローチを体系的にレビューし,これらを生成,編集,理解の3つの主要なタスクに分類する。
我々は、IconShop、StrokeNUWA、StarVectorなどの著名なモデルを観察し、その強みと限界を強調した。
さらに、SVGEditBench、VGBench、SGP-BenchなどのSVG関連タスクを評価するために設計されたベンチマークデータセットを分析し、これらの領域における様々なLSMを評価するための一連の実験を行った。
この結果から,ベクトルグラフィックス推論強化モデルでは,特に生成・理解タスクにおいて,標準LLMよりも優れていたことが示唆された。
さらに,本研究は,ベクトルグラフィックスタスクにおけるLLM機能を改善するために,より多様で豊富な注釈付きデータセットを開発する必要性を浮き彫りにした。
関連論文リスト
- NeuralSVG: An Implicit Representation for Text-to-Vector Generation [54.4153300455889]
本稿では,テキストプロンプトからベクトルグラフィックスを生成する暗黙的なニューラル表現であるNeuralSVGを提案する。
生成したSVGの層構造を促進するために,ドロップアウトに基づく正規化手法を導入する。
ニューラルSVGは、構造化された柔軟なSVGを生成する際に、既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-01-07T18:50:06Z) - Empowering LLMs to Understand and Generate Complex Vector Graphics [30.21003939248769]
大規模言語モデル(LLM)は、トレーニング中にWebページからベクターグラフィックスの部分的知識を符号化する。
最近の知見は, LLM内の意味的曖昧さとトークン化表現が, ベクトルプリミティブ予測における幻覚を引き起こす可能性を示唆している。
LLM4SVGは、LLMがベクトルグラフィックスをよりよく理解し、生成できるようにすることにより、このギャップを埋める最初のステップであるが、実質的なステップである。
論文 参考訳(メタデータ) (2024-12-15T07:49:31Z) - SVGDreamer++: Advancing Editability and Diversity in Text-Guided SVG Generation [31.76771064173087]
既存の手法の限界に対処する新しいテキスト誘導ベクトルグラフィックス合成法を提案する。
本稿では,階層型イメージベクタライゼーション(HIVE)フレームワークについて紹介する。
また、SVGの多様性を向上させるために、ベクトル化粒子を用いたスコア蒸留(VPSD)手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T19:13:38Z) - Chat2SVG: Vector Graphics Generation with Large Language Models and Image Diffusion Models [14.917583676464266]
Chat2SVGは大規模言語モデルと画像拡散モデルを組み合わせたハイブリッドフレームワークである。
本システムにより,自然言語による直感的な編集が可能となり,プロのベクトルグラフィックス作成が可能となった。
論文 参考訳(メタデータ) (2024-11-25T17:31:57Z) - Vector-ICL: In-context Learning with Continuous Vector Representations [75.96920867382859]
大規模言語モデル (LLM) はテキストデータに顕著なコンテキスト内学習能力を示す。
ブラックボックス事前学習エンコーダから得られる様々な領域から連続ベクトルに拡張できるかどうかを検討する。
特に,汎用言語モデリング目的のプロジェクタを事前学習することで,Vector-ICLの実現が期待できる。
論文 参考訳(メタデータ) (2024-10-08T02:25:38Z) - All Against Some: Efficient Integration of Large Language Models for Message Passing in Graph Neural Networks [51.19110891434727]
事前訓練された知識と強力なセマンティック理解能力を持つ大規模言語モデル(LLM)は、最近、視覚とテキストデータを使用してアプリケーションに恩恵をもたらす顕著な能力を示している。
E-LLaGNNは、グラフから限られたノード数を増やして、グラフ学習のメッセージパッシング手順を強化するオンデマンドLLMサービスを備えたフレームワークである。
論文 参考訳(メタデータ) (2024-07-20T22:09:42Z) - VGBench: Evaluating Large Language Models on Vector Graphics Understanding and Generation [28.1277394934428]
VGBenchは、ベクトルグラフィックスを扱うためのLLM(Large Language Models)の包括的なベンチマークである。
LLMは両面に強い能力を示し、低レベルフォーマット(SVG)では望ましい性能は低い。
論文 参考訳(メタデータ) (2024-07-15T17:59:55Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - SuperSVG: Superpixel-based Scalable Vector Graphics Synthesis [66.44553285020066]
SuperSVGは、高速かつ高精度な画像ベクトル化を実現するスーパーピクセルベースのベクトル化モデルである。
本稿では,2段階の自己学習フレームワークを提案する。そこでは,粗い段階モデルを用いて主構造を再構築し,細部を充実させるために改良段階モデルを用いる。
再現精度と推定時間の観点から, 最先端手法と比較して, 提案手法の優れた性能を示す実験を行った。
論文 参考訳(メタデータ) (2024-06-14T07:43:23Z) - Visually Descriptive Language Model for Vector Graphics Reasoning [76.42082386029206]
低レベル視覚知覚と高レベル言語推論のギャップを埋めるための視覚記述型言語モデル(VDLM)を提案する。
VDLMは,様々なマルチモーダル認識および推論タスクにおいて,GPT-4oのような最先端のLMMを大幅に改善することを示す。
論文 参考訳(メタデータ) (2024-04-09T17:30:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。