論文の概要: Beyond Pixels: Exploring Human-Readable SVG Generation for Simple Images
with Vision Language Models
- arxiv url: http://arxiv.org/abs/2311.15543v1
- Date: Mon, 27 Nov 2023 05:20:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 17:02:44.573369
- Title: Beyond Pixels: Exploring Human-Readable SVG Generation for Simple Images
with Vision Language Models
- Title(参考訳): Beyond Pixels:視覚言語モデルを用いたシンプルな画像のためのヒューマン可読SVG生成の探索
- Authors: Tong Zhang, Haoyang Liu, Peiyan Zhang, Yuxuan Cheng, Haohan Wang
- Abstract要約: 本稿では,Simple-SVG-Generation (Stextsuperscript2VGtextsuperscript2)を提案する。
本手法は,正確かつ簡便なSVGの生成と,人間の可読性と理解の整合性に重点を置いている。
その結果,従来のSVG生成手法よりも明らかに改善された結果が得られた。
- 参考スコア(独自算出の注目度): 19.145503353922038
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the field of computer graphics, the use of vector graphics, particularly
Scalable Vector Graphics (SVG), represents a notable development from
traditional pixel-based imagery. SVGs, with their XML-based format, are
distinct in their ability to directly and explicitly represent visual elements
such as shape, color, and path. This direct representation facilitates a more
accurate and logical depiction of graphical elements, enhancing reasoning and
interpretability. Recognizing the potential of SVGs, the machine learning
community has introduced multiple methods for image vectorization. However,
transforming images into SVG format while retaining the relational properties
and context of the original scene remains a key challenge. Most vectorization
methods often yield SVGs that are overly complex and not easily interpretable.
In response to this challenge, we introduce our method, Simple-SVG-Generation
(S\textsuperscript{2}VG\textsuperscript{2}). Our method focuses on producing
SVGs that are both accurate and simple, aligning with human readability and
understanding. With simple images, we evaluate our method with reasoning tasks
together with advanced language models, the results show a clear improvement
over previous SVG generation methods. We also conducted surveys for human
evaluation on the readability of our generated SVGs, the results also favor our
methods.
- Abstract(参考訳): コンピュータグラフィックスの分野では、ベクトルグラフィックス(特にスケーラブルベクトルグラフィックス(SVG))の使用は、従来のピクセルベースの画像から顕著な発展を示している。
SVGは、XMLベースのフォーマットで、形状、色、パスなどの視覚的要素を直接的かつ明示的に表現する能力が異なる。
この直接的な表現は、より正確で論理的なグラフィカル要素の描写を促進し、推論と解釈可能性を高める。
SVGの可能性を認識し、機械学習コミュニティは画像ベクトル化のための複数の方法を導入した。
しかし、元のシーンのリレーショナル特性とコンテキストを維持しながら、画像をSVGフォーマットに変換することは重要な課題である。
ほとんどのベクトル化法は、過度に複雑で容易に解釈できないSVGを生成する。
この課題に対して,本手法であるSimple-SVG-Generation (S\textsuperscript{2}VG\textsuperscript{2})を導入する。
本手法は,正確かつ簡便なSVGの生成と,人間の可読性と理解の整合性に着目している。
単純な画像を用いて,高度な言語モデルとともに推論タスクを用いて提案手法を評価することにより,従来のsvg生成法よりも明らかに改善することを示す。
また,生成したSVGの可読性に関する人間評価調査を行った。
関連論文リスト
- Chat2SVG: Vector Graphics Generation with Large Language Models and Image Diffusion Models [14.917583676464266]
Chat2SVGは大規模言語モデルと画像拡散モデルを組み合わせたハイブリッドフレームワークである。
本システムにより,自然言語による直感的な編集が可能となり,プロのベクトルグラフィックス作成が可能となった。
論文 参考訳(メタデータ) (2024-11-25T17:31:57Z) - Vector Grimoire: Codebook-based Shape Generation under Raster Image Supervision [20.325246638505714]
本稿では,GRIMOIREというテキスト誘導型生成モデルを紹介し,画像をベクトル形状に再構成して離散コードブックにマッピングする方法を提案する。
データから直接の監視を必要とする既存のモデルとは異なり、GRIMOIREはベクトル生成モデリングをはるかに多くのデータに開放するイメージ監督のみを使用して学習する。
論文 参考訳(メタデータ) (2024-10-08T12:41:31Z) - SuperSVG: Superpixel-based Scalable Vector Graphics Synthesis [66.44553285020066]
SuperSVGは、高速かつ高精度な画像ベクトル化を実現するスーパーピクセルベースのベクトル化モデルである。
本稿では,2段階の自己学習フレームワークを提案する。そこでは,粗い段階モデルを用いて主構造を再構築し,細部を充実させるために改良段階モデルを用いる。
再現精度と推定時間の観点から, 最先端手法と比較して, 提案手法の優れた性能を示す実験を行った。
論文 参考訳(メタデータ) (2024-06-14T07:43:23Z) - SVGDreamer: Text Guided SVG Generation with Diffusion Model [31.76771064173087]
SVGDreamerと呼ばれる新しいテキスト誘導ベクトルグラフィックス合成法を提案する。
SIVEプロセスは、前景オブジェクトと背景への合成の分解を可能にする。
VPSDアプローチは、形状の平滑化、彩度の過飽和、多様性の制限、収束の遅い問題に対処する。
論文 参考訳(メタデータ) (2023-12-27T08:50:01Z) - StarVector: Generating Scalable Vector Graphics Code from Images [13.995963187283321]
本稿では,コード生成大言語モデル(CodeLLM)と視覚モデルを統合する多モードSVG生成モデルであるStarを紹介する。
提案手法では,CLIP画像を用いて画素ベースの画像から視覚表現を抽出し,アダプタモジュールを介して視覚トークンに変換する。
以上の結果から,従来のSVG生成技術よりも視覚的品質と複雑さが著しく向上していることが示唆された。
論文 参考訳(メタデータ) (2023-12-17T08:07:32Z) - SAMVG: A Multi-stage Image Vectorization Model with the Segment-Anything
Model [59.40189857428461]
画像をSVG(Scalable Vector Graphics)にベクトル化する多段階モデルを提案する。
第一に、SAMVGはSegment-Anything Modelによって提供される一般的な画像セグメンテーションを使い、新しいフィルタリング手法を用いて画像全体の最も高密度なセグメンテーションマップを識別する。
次に、SAMVGは欠落したコンポーネントを特定し、SVGにより詳細なコンポーネントを追加する。
論文 参考訳(メタデータ) (2023-11-09T11:11:56Z) - VectorFusion: Text-to-SVG by Abstracting Pixel-Based Diffusion Models [82.93345261434943]
画像の画素表現に基づいて訓練されたテキスト条件付き拡散モデルを用いて,SVG-exportable vector graphicsを生成する。
近年のテキスト・ツー・3D研究に触発されて,Score Distillation Smpling を用いたキャプションと整合したSVGを学習した。
実験では、以前の作品よりも品質が向上し、ピクセルアートやスケッチを含む様々なスタイルが示されている。
論文 参考訳(メタデータ) (2022-11-21T10:04:27Z) - Towards Layer-wise Image Vectorization [57.26058135389497]
画像をSVGに変換し,画像トポロジを同時に維持するためのレイヤワイズ画像ベクトル化(LIVE)を提案する。
Liveは、人間の視点にセマンティックに整合した階層構造を持つコンパクトなフォームを生成する。
Liveは、デザイナの両方のために編集可能なSVGを起動し、他のアプリケーションで使用することができる。
論文 参考訳(メタデータ) (2022-06-09T17:55:02Z) - SVG-Net: An SVG-based Trajectory Prediction Model [67.68864911674308]
シーン内の車両の動きを予想することは、安全な自動運転システムにとって重要な問題である。
この目的のために、シーンのインフラの理解は、しばしば将来の軌跡を予測する主要な手がかりである。
提案手法のほとんどが逆逆変換方式のシーンを表現しており、近年のアプローチではカスタムベクトル化方式が採用されている。
論文 参考訳(メタデータ) (2021-10-07T18:00:08Z) - DeepSVG: A Hierarchical Generative Network for Vector Graphics Animation [217.86315551526235]
本稿では,複雑なSVGアイコンの生成と操作のために,DeepSVGと呼ばれる新しい階層型生成ネットワークを提案する。
我々のアーキテクチャは、その形状自体をエンコードする低レベルのコマンドから、効果的に高レベルの形状を分離します。
我々のネットワークは、多様なベクトルグラフィックスを正確に再構築し、強力なアニメーションツールとして機能することを実証する。
論文 参考訳(メタデータ) (2020-07-22T09:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。