論文の概要: Semantic Document Derendering: SVG Reconstruction via Vision-Language Modeling
- arxiv url: http://arxiv.org/abs/2511.13478v1
- Date: Mon, 17 Nov 2025 15:16:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:25.325344
- Title: Semantic Document Derendering: SVG Reconstruction via Vision-Language Modeling
- Title(参考訳): セマンティック文書デレンシング:視覚言語モデリングによるSVG再構成
- Authors: Adam Hazimeh, Ke Wang, Mark Collier, Gilles Baechler, Efi Kokiopoulou, Pascal Frossard,
- Abstract要約: SliDerは視覚言語モデルを用いてスライド画像をコンパクトかつ編集可能なSVG表現としてデレンダする新しいフレームワークである。
SliDerは0.069のLPIPSを復元し、最強のゼロショットVLMベースラインに比べて82.9%のケースでヒト評価者によって好まれる。
- 参考スコア(独自算出の注目度): 32.22298939812003
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimedia documents such as slide presentations and posters are designed to be interactive and easy to modify. Yet, they are often distributed in a static raster format, which limits editing and customization. Restoring their editability requires converting these raster images back into structured vector formats. However, existing geometric raster-vectorization methods, which rely on low-level primitives like curves and polygons, fall short at this task. Specifically, when applied to complex documents like slides, they fail to preserve the high-level structure, resulting in a flat collection of shapes where the semantic distinction between image and text elements is lost. To overcome this limitation, we address the problem of semantic document derendering by introducing SliDer, a novel framework that uses Vision-Language Models (VLMs) to derender slide images as compact and editable Scalable Vector Graphic (SVG) representations. SliDer detects and extracts attributes from individual image and text elements in a raster input and organizes them into a coherent SVG format. Crucially, the model iteratively refines its predictions during inference in a process analogous to human design, generating SVG code that more faithfully reconstructs the original raster upon rendering. Furthermore, we introduce Slide2SVG, a novel dataset comprising raster-SVG pairs of slide documents curated from real-world scientific presentations, to facilitate future research in this domain. Our results demonstrate that SliDer achieves a reconstruction LPIPS of 0.069 and is favored by human evaluators in 82.9% of cases compared to the strongest zero-shot VLM baseline.
- Abstract(参考訳): スライドプレゼンテーションやポスターのようなマルチメディア文書はインタラクティブで簡単に修正できるように設計されている。
しかし、それらはしばしば静的なラスタ形式で配布され、編集とカスタマイズが制限される。
編集性を取り戻すには、これらのラスタ画像を構造化ベクターフォーマットに戻す必要がある。
しかし、曲線や多角形のような低レベルプリミティブに依存する既存の幾何ラスターベクトル化法は、このタスクでは不足する。
具体的には、スライドのような複雑なドキュメントに適用すると、ハイレベルな構造を保たず、結果として画像とテキスト要素のセマンティックな区別が失われる形がフラットになる。
この制限を克服するために、視覚言語モデル(VLM)を用いてスライド画像をコンパクトで編集可能なスケーラブルベクトルグラフ(SVG)表現としてデレンダする新しいフレームワークであるSliDerを導入することで、セマンティックドキュメントのデレンダリングの問題に対処する。
SliDerは、ラスタ入力中の個々の画像およびテキスト要素から属性を検出し、抽出し、それらをコヒーレントSVGフォーマットに整理する。
重要なことに、このモデルは人間の設計に類似したプロセスで推論中に予測を反復的に洗練し、レンダリング時に元のラスタをより忠実に再構築するSVGコードを生成する。
さらに,本領域の今後の研究を促進するために,現実の科学的プレゼンテーションからキュレートした,ラスタ-SVG対のスライド文書からなる新しいデータセットであるSlide2SVGを紹介した。
以上の結果から,SliDer は 0.069 のLPIPS を達成し,最強のゼロショット VLM ベースラインに比べて82.9% の症例でヒト評価者から好まれることがわかった。
関連論文リスト
- NeuralSVG: An Implicit Representation for Text-to-Vector Generation [54.4153300455889]
本稿では,テキストプロンプトからベクトルグラフィックスを生成する暗黙的なニューラル表現であるNeuralSVGを提案する。
生成したSVGの層構造を促進するために,ドロップアウトに基づく正規化手法を導入する。
ニューラルSVGは、構造化された柔軟なSVGを生成する際に、既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-01-07T18:50:06Z) - Vector Grimoire: Codebook-based Shape Generation under Raster Image Supervision [20.325246638505714]
本稿では,GRIMOIREというテキスト誘導型生成モデルを紹介し,画像をベクトル形状に再構成して離散コードブックにマッピングする方法を提案する。
データから直接の監視を必要とする既存のモデルとは異なり、GRIMOIREはベクトル生成モデリングをはるかに多くのデータに開放するイメージ監督のみを使用して学習する。
論文 参考訳(メタデータ) (2024-10-08T12:41:31Z) - SuperSVG: Superpixel-based Scalable Vector Graphics Synthesis [66.44553285020066]
SuperSVGは、高速かつ高精度な画像ベクトル化を実現するスーパーピクセルベースのベクトル化モデルである。
本稿では,2段階の自己学習フレームワークを提案する。そこでは,粗い段階モデルを用いて主構造を再構築し,細部を充実させるために改良段階モデルを用いる。
再現精度と推定時間の観点から, 最先端手法と比較して, 提案手法の優れた性能を示す実験を行った。
論文 参考訳(メタデータ) (2024-06-14T07:43:23Z) - Visually Descriptive Language Model for Vector Graphics Reasoning [76.42082386029206]
低レベル視覚知覚と高レベル言語推論のギャップを埋めるための視覚記述型言語モデル(VDLM)を提案する。
VDLMは,様々なマルチモーダル認識および推論タスクにおいて,GPT-4oのような最先端のLMMを大幅に改善することを示す。
論文 参考訳(メタデータ) (2024-04-09T17:30:18Z) - SVGCraft: Beyond Single Object Text-to-SVG Synthesis with Comprehensive Canvas Layout [14.824205628841158]
この研究は、テキスト記述からシーン全体を描写したベクトルグラフィックスを作成するための新しいエンドツーエンドフレームワークを導入する。
SVGCraftは、訓練済みエンコーダと不透明度変調によるLPIPS損失を使って最適化され、類似性を最大化する。
抽象化、認識可能性、細部において、以前の作品を上回ることが示されている。
論文 参考訳(メタデータ) (2024-03-30T16:43:40Z) - Text-Guided Vector Graphics Customization [31.41266632288932]
テキストのプロンプトに基づいて高品質なベクトルグラフィックスを生成する新しいパイプラインを提案する。
提案手法は,大規模な事前学習されたテキスト・ツー・イメージ・モデルの能力を利用する。
我々は,ベクトルレベル,画像レベル,テキストレベルの観点から,複数の指標を用いて評価を行った。
論文 参考訳(メタデータ) (2023-09-21T17:59:01Z) - VectorFusion: Text-to-SVG by Abstracting Pixel-Based Diffusion Models [82.93345261434943]
画像の画素表現に基づいて訓練されたテキスト条件付き拡散モデルを用いて,SVG-exportable vector graphicsを生成する。
近年のテキスト・ツー・3D研究に触発されて,Score Distillation Smpling を用いたキャプションと整合したSVGを学習した。
実験では、以前の作品よりも品質が向上し、ピクセルアートやスケッチを含む様々なスタイルが示されている。
論文 参考訳(メタデータ) (2022-11-21T10:04:27Z) - Towards Layer-wise Image Vectorization [57.26058135389497]
画像をSVGに変換し,画像トポロジを同時に維持するためのレイヤワイズ画像ベクトル化(LIVE)を提案する。
Liveは、人間の視点にセマンティックに整合した階層構造を持つコンパクトなフォームを生成する。
Liveは、デザイナの両方のために編集可能なSVGを起動し、他のアプリケーションで使用することができる。
論文 参考訳(メタデータ) (2022-06-09T17:55:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。