論文の概要: VGBench: Evaluating Large Language Models on Vector Graphics Understanding and Generation
- arxiv url: http://arxiv.org/abs/2407.10972v2
- Date: Thu, 29 Aug 2024 17:55:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-08-30 18:35:55.629889
- Title: VGBench: Evaluating Large Language Models on Vector Graphics Understanding and Generation
- Title(参考訳): VGBench: ベクトルグラフィックスの理解と生成に基づく大規模言語モデルの評価
- Authors: Bocheng Zou, Mu Cai, Jianrui Zhang, Yong Jae Lee,
- Abstract要約: VGBenchは、ベクトルグラフィックスを扱うためのLLM(Large Language Models)の包括的なベンチマークである。
LLMは両面に強い能力を示し、低レベルフォーマット(SVG)では望ましい性能は低い。
- 参考スコア(独自算出の注目度): 28.1277394934428
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the realm of vision models, the primary mode of representation is using pixels to rasterize the visual world. Yet this is not always the best or unique way to represent visual content, especially for designers and artists who depict the world using geometry primitives such as polygons. Vector graphics (VG), on the other hand, offer a textual representation of visual content, which can be more concise and powerful for content like cartoons, sketches and scientific figures. Recent studies have shown promising results on processing vector graphics with capable Large Language Models (LLMs). However, such works focus solely on qualitative results, understanding, or a specific type of vector graphics. We propose VGBench, a comprehensive benchmark for LLMs on handling vector graphics through diverse aspects, including (a) both visual understanding and generation, (b) evaluation of various vector graphics formats, (c) diverse question types, (d) wide range of prompting techniques, (e) under multiple LLMs and (f) comparison with VLMs on rasterized representations. Evaluating on our collected 4279 understanding and 5845 generation samples, we find that LLMs show strong capability on both aspects while exhibiting less desirable performance on low-level formats (SVG). Both data and evaluation pipeline will be open-sourced at https://vgbench.github.io.
- Abstract(参考訳): 視覚モデルの領域では、表現の第一のモードは、ピクセルを使って視覚世界をラスタライズすることである。
しかし、特に多角形のような幾何学的プリミティブを使って世界を描写するデザイナーやアーティストにとって、これは必ずしも視覚的コンテンツを表現するための最良の方法やユニークな方法ではない。
一方、ベクトルグラフィックス(VG)は、ビジュアルコンテンツのテキスト表現を提供しており、漫画、スケッチ、科学的な図形などのコンテンツに対してより簡潔で強力である。
近年,Large Language Models (LLMs) を用いたベクトルグラフィックス処理の有望な成果が報告されている。
しかし、そのような研究は質的な結果、理解、あるいは特定の種類のベクトルグラフィックスにのみ焦点をあてている。
VGBenchは、多種多様な側面を含むベクトルグラフィックスを扱うLLMの総合的なベンチマークである。
(a)視覚的理解と生成の両方
(b)ベクターグラフィックスフォーマットの評価
(c) 多様な質問タイプ。
(d)広範囲のプロンプト技術
(e)複数のLLMおよび
(f) ラスタ化表現におけるVLMとの比較。
収集した4279の理解と5845の生成サンプルから,LLMは両面に強い能力を示し,低レベルフォーマット(SVG)では望ましい性能が得られていないことがわかった。
データと評価パイプラインはhttps://vgbench.github.ioでオープンソース化される。
関連論文リスト
- Leveraging Large Language Models For Scalable Vector Graphics Processing: A Review [0.0]
従来のベクトル化技術は、長い処理時間と過剰な出力の複雑さに悩まされている。
大規模言語モデル(LLM)の出現により、ベクトルグラフィックスの生成、編集、解析の新しい可能性が生まれた。
論文 参考訳(メタデータ) (2025-03-06T21:23:17Z) - NeuralSVG: An Implicit Representation for Text-to-Vector Generation [54.4153300455889]
本稿では,テキストプロンプトからベクトルグラフィックスを生成する暗黙的なニューラル表現であるNeuralSVGを提案する。
生成したSVGの層構造を促進するために,ドロップアウトに基づく正規化手法を導入する。
ニューラルSVGは、構造化された柔軟なSVGを生成する際に、既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-01-07T18:50:06Z) - Vitron: A Unified Pixel-level Vision LLM for Understanding, Generating, Segmenting, Editing [150.0380447353081]
本稿では,静的画像とダイナミックビデオの両方の包括的理解,セグメンテーション,クラスタ化のために設計された,ユニバーサルピクセルレベルのビジョンLLMであるVITRONを紹介する。
LLMの上に構築されているVITRONは、画像、ビデオ、ピクセルレベルの地域視覚のエンコーダをモジュール内に組み込んでおり、最先端のビジュアルスペシャリストをバックエンドとして採用している。
論文 参考訳(メタデータ) (2024-10-08T08:39:04Z) - How Well Can Vision Language Models See Image Details? [53.036922527685064]
視覚言語モデルはどのようにして画像の詳細を見ることができるのか」を探求するために画素値予測タスクを導入する。
我々の研究は、VLM事前学習タスクと視覚エンコーダ適応の1つとして画素値予測を組み込むことで、下流画像言語理解タスクにおけるVLM性能が著しく向上することを明らかにする。
論文 参考訳(メタデータ) (2024-08-07T17:59:40Z) - OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding [112.87441334765693]
OMG-LLaVAは、強力なピクセルレベルの視覚理解と推論能力を組み合わせた新しいフレームワークである。
フレキシブルなユーザインタラクションのために、さまざまな視覚的およびテキストプロンプトを受け入れることができる。
OMG-LLaVAは1つのモデルで画像レベル、オブジェクトレベル、ピクセルレベルの推論と理解を実現する。
論文 参考訳(メタデータ) (2024-06-27T17:59:01Z) - Re-Thinking Inverse Graphics With Large Language Models [51.333105116400205]
逆グラフィックス -- イメージを物理変数に反転させ、レンダリングすると観察されたシーンの再現を可能にする -- は、コンピュータビジョンとグラフィックスにおいて根本的な課題である。
LLMを中心とした逆グラフフレームワークである逆グラフ大言語モデル(IG-LLM)を提案する。
我々は、凍結した事前学習されたビジュアルエンコーダと連続的な数値ヘッドを組み込んで、エンドツーエンドのトレーニングを可能にする。
論文 参考訳(メタデータ) (2024-04-23T16:59:02Z) - Visually Descriptive Language Model for Vector Graphics Reasoning [76.42082386029206]
低レベル視覚知覚と高レベル言語推論のギャップを埋めるための視覚記述型言語モデル(VDLM)を提案する。
VDLMは,様々なマルチモーダル認識および推論タスクにおいて,GPT-4oのような最先端のLMMを大幅に改善することを示す。
論文 参考訳(メタデータ) (2024-04-09T17:30:18Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - StrokeNUWA: Tokenizing Strokes for Vector Graphic Synthesis [112.25071764647683]
StrokeNUWAはベクターグラフィックスにおけるより良い視覚表現'ストロークトークン'を探求する先駆的な研究である。
ストロークトークンを備えたStrokeNUWAは、従来のLCMベースの最適化ベースのメソッドを大幅に上回ることができる。
StrokeNUWAは、SVGコード圧縮比が6.9%の従来の手法よりも94倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2024-01-30T15:20:26Z) - Im2Vec: Synthesizing Vector Graphics without Vector Supervision [31.074606918245298]
ベクトルグラフィックスはフォント、ロゴ、デジタルアートワーク、グラフィックデザインを表現するために広く使われている。
入力グラフィックを常に調整し、画像ベースの生成アプローチを利用することができる。
訓練時のベクトル表現の明示的な監督を必要とする現在のモデルは、入手が困難である。
様々なトポロジを持つ複雑なベクトルグラフを生成するニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-02-04T18:39:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。