論文の概要: Text-Based Reasoning About Vector Graphics
- arxiv url: http://arxiv.org/abs/2404.06479v2
- Date: Wed, 10 Apr 2024 02:12:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-11 11:37:32.156269
- Title: Text-Based Reasoning About Vector Graphics
- Title(参考訳): テキストによるベクトルグラフィクスの推論
- Authors: Zhenhailong Wang, Joy Hsu, Xingyao Wang, Kuan-Hao Huang, Manling Li, Jiajun Wu, Heng Ji,
- Abstract要約: 本稿では,ベクトルグラフィックスに関するテキストベースの推論を行うVisually Descriptive Language Model (VDLM)を提案する。
プリマルビジュアル記述(PVD)による事前訓練言語モデルを用いたVDLMブリッジ
我々のフレームワークは、その不整合認識と推論プロセスにより、より良い解釈可能性を提供します。
- 参考スコア(独自算出の注目度): 76.42082386029206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large multimodal models excel in broad vision-language benchmarks, they often struggle with tasks requiring precise perception of low-level visual details, such as comparing line lengths or solving simple mazes. In particular, this failure mode persists in question-answering tasks about vector graphics -- images composed purely of 2D objects and shapes. To address this challenge, we propose the Visually Descriptive Language Model (VDLM), which performs text-based reasoning about vector graphics. VDLM leverages Scalable Vector Graphics (SVG) for a more precise visual description and first uses an off-the-shelf raster-to-SVG algorithm for encoding. Since existing language models cannot understand raw SVGs in a zero-shot setting, VDLM then bridges SVG with pretrained language models through a newly introduced intermediate symbolic representation, Primal Visual Description (PVD), comprising primitive attributes (e.g., shape, position, measurement) with their corresponding predicted values. PVD is task-agnostic and represents visual primitives that are universal across all vector graphics. It can be learned with procedurally generated (SVG, PVD) pairs and also enables the direct use of LLMs for generalization to complex reasoning tasks. By casting an image to a text-based representation, we can leverage the power of language models to learn alignment from SVG to visual primitives and generalize to unseen question-answering tasks. Empirical results show that VDLM achieves stronger zero-shot performance compared to state-of-the-art LMMs, such as GPT-4V, in various low-level multimodal perception and reasoning tasks on vector graphics. We additionally present extensive analyses on VDLM's performance, demonstrating that our framework offers better interpretability due to its disentangled perception and reasoning processes. Project page: https://mikewangwzhl.github.io/VDLM/
- Abstract(参考訳): 大規模なマルチモーダルモデルは広いビジョン言語ベンチマークで優れているが、線長の比較や単純な迷路の解法など、低レベルの視覚的詳細を正確に認識するタスクに苦慮することが多い。
特に、この障害モードは、ベクトルグラフィックスに関する質問応答タスクで持続する。
この課題に対処するために,ベクトルグラフィックスに関するテキストベースの推論を行うVisually Descriptive Language Model (VDLM)を提案する。
VDLMは、より正確なビジュアル記述のために、スケーラブルベクトルグラフィックス(SVG)を活用し、最初にエンコーディングのために、既製のラスター・ツー・SVGアルゴリズムを使用する。
既存の言語モデルはゼロショット設定では生のSVGを理解できないため、VDLMは新しく導入された中間記号表現であるPrimal Visual Description (PVD)を通じて、SVGを事前訓練された言語モデルでブリッジする。
PVDはタスクに依存しず、全てのベクトルグラフィックスで普遍的な視覚的プリミティブを表す。
手続き的に生成された (SVG, PVD) ペアで学習でき、複雑な推論タスクへの一般化に LLM を直接使用することができる。
画像をテキストベース表現にキャストすることで、言語モデルのパワーを活用して、SVGからビジュアルプリミティブへのアライメントを学び、目に見えない質問応答タスクに一般化することができる。
実験結果から,VDLMはGPT-4Vのような最先端のLMMと比較して,低レベルのマルチモーダル認識やベクトルグラフィックスの推論タスクにおいて,より強力なゼロショット性能を実現することが示された。
また,VDLMの性能に関する広範囲な分析を行い,このフレームワークは,その不整合認識と推論プロセスにより,より優れた解釈性を提供することを示した。
プロジェクトページ: https://mikewangwzhl.github.io/VDLM/
関連論文リスト
- StrokeNUWA: Tokenizing Strokes for Vector Graphic Synthesis [112.25071764647683]
StrokeNUWAはベクターグラフィックスにおけるより良い視覚表現'ストロークトークン'を探求する先駆的な研究である。
ストロークトークンを備えたStrokeNUWAは、従来のLCMベースの最適化ベースのメソッドを大幅に上回ることができる。
StrokeNUWAは、SVGコード圧縮比が6.9%の従来の手法よりも94倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2024-01-30T15:20:26Z) - SVGDreamer: Text Guided SVG Generation with Diffusion Model [31.76771064173087]
SVGDreamerと呼ばれる新しいテキスト誘導ベクトルグラフィックス合成法を提案する。
SIVEプロセスは、前景オブジェクトと背景への合成の分解を可能にする。
VPSDアプローチは、形状の平滑化、彩度の過飽和、多様性の制限、収束の遅い問題に対処する。
論文 参考訳(メタデータ) (2023-12-27T08:50:01Z) - Beyond Pixels: Exploring Human-Readable SVG Generation for Simple Images
with Vision Language Models [19.145503353922038]
本稿では,Simple-SVG-Generation (Stextsuperscript2VGtextsuperscript2)を提案する。
本手法は,正確かつ簡便なSVGの生成と,人間の可読性と理解の整合性に重点を置いている。
その結果,従来のSVG生成手法よりも明らかに改善された結果が得られた。
論文 参考訳(メタデータ) (2023-11-27T05:20:11Z) - SAMVG: A Multi-stage Image Vectorization Model with the Segment-Anything
Model [59.40189857428461]
画像をSVG(Scalable Vector Graphics)にベクトル化する多段階モデルを提案する。
第一に、SAMVGはSegment-Anything Modelによって提供される一般的な画像セグメンテーションを使い、新しいフィルタリング手法を用いて画像全体の最も高密度なセグメンテーションマップを識別する。
次に、SAMVGは欠落したコンポーネントを特定し、SVGにより詳細なコンポーネントを追加する。
論文 参考訳(メタデータ) (2023-11-09T11:11:56Z) - Leveraging Large Language Models for Scalable Vector Graphics-Driven
Image Understanding [35.80409077616195]
本稿では,大規模言語モデルによる画像処理を可能にする新しい探索的アプローチを提案する。
画像の代わりにXMLベースの表現記述を活用することで、視覚とテキストのモダリティのギャップを埋めることを目指している。
提案手法は,LLM機能のみを用いた簡単な画像分類,生成,テキスト内学習を容易にする。
論文 参考訳(メタデータ) (2023-06-09T17:57:01Z) - VectorFusion: Text-to-SVG by Abstracting Pixel-Based Diffusion Models [82.93345261434943]
画像の画素表現に基づいて訓練されたテキスト条件付き拡散モデルを用いて,SVG-exportable vector graphicsを生成する。
近年のテキスト・ツー・3D研究に触発されて,Score Distillation Smpling を用いたキャプションと整合したSVGを学習した。
実験では、以前の作品よりも品質が向上し、ピクセルアートやスケッチを含む様々なスタイルが示されている。
論文 参考訳(メタデータ) (2022-11-21T10:04:27Z) - Towards Layer-wise Image Vectorization [57.26058135389497]
画像をSVGに変換し,画像トポロジを同時に維持するためのレイヤワイズ画像ベクトル化(LIVE)を提案する。
Liveは、人間の視点にセマンティックに整合した階層構造を持つコンパクトなフォームを生成する。
Liveは、デザイナの両方のために編集可能なSVGを起動し、他のアプリケーションで使用することができる。
論文 参考訳(メタデータ) (2022-06-09T17:55:02Z) - Im2Vec: Synthesizing Vector Graphics without Vector Supervision [31.074606918245298]
ベクトルグラフィックスはフォント、ロゴ、デジタルアートワーク、グラフィックデザインを表現するために広く使われている。
入力グラフィックを常に調整し、画像ベースの生成アプローチを利用することができる。
訓練時のベクトル表現の明示的な監督を必要とする現在のモデルは、入手が困難である。
様々なトポロジを持つ複雑なベクトルグラフを生成するニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-02-04T18:39:45Z) - DeepSVG: A Hierarchical Generative Network for Vector Graphics Animation [217.86315551526235]
本稿では,複雑なSVGアイコンの生成と操作のために,DeepSVGと呼ばれる新しい階層型生成ネットワークを提案する。
我々のアーキテクチャは、その形状自体をエンコードする低レベルのコマンドから、効果的に高レベルの形状を分離します。
我々のネットワークは、多様なベクトルグラフィックスを正確に再構築し、強力なアニメーションツールとして機能することを実証する。
論文 参考訳(メタデータ) (2020-07-22T09:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。