論文の概要: From Dead Pixels to Editable Slides: Infographic Reconstruction into Native Google Slides via Vision-Language Region Understanding
- arxiv url: http://arxiv.org/abs/2602.07645v1
- Date: Sat, 07 Feb 2026 17:58:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.7411
- Title: From Dead Pixels to Editable Slides: Infographic Reconstruction into Native Google Slides via Vision-Language Region Understanding
- Title(参考訳): デッドピクセルから編集可能なスライド:視覚言語領域理解によるGoogleのネイティブスライドへのインフォグラフィック再構成
- Authors: Leonardo Gonzalez,
- Abstract要約: インフォグラフィックはテキスト、アイコン、データ視覚化の組み合わせで広く使われるが、一度画像としてエクスポートされると、そのコンテンツはピクセルにロックされ、更新、ローカライゼーション、再利用が高価になる。
静的インフォグラフィック(JPG)をネイティブな編集可能なGoogle Slidesスライドに変換するtextscImages2Slidesについて,視覚言語モデル(VLM)を用いて領域レベルの仕様を抽出することによって記述する。
テキストサイズ校正や一様でない背景など,再構築における実践的なエンジニアリング上の課題を強調し,今後の作業を支援する障害モードについて説明する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Infographics are widely used to communicate information with a combination of text, icons, and data visualizations, but once exported as images their content is locked into pixels, making updates, localization, and reuse expensive. We describe \textsc{Images2Slides}, an API-based pipeline that converts a static infographic (PNG/JPG) into a native, editable Google Slides slide by extracting a region-level specification with a vision-language model (VLM), mapping pixel geometry into slide coordinates, and recreating elements using the Google Slides batch update API. The system is model-agnostic and supports multiple VLM backends via a common JSON region schema and deterministic postprocessing. On a controlled benchmark of 29 programmatically generated infographic slides with known ground-truth regions, \textsc{Images2Slides} achieves an overall element recovery rate of $0.989\pm0.057$ (text: $0.985\pm0.083$, images: $1.000\pm0.000$), with mean text transcription error $\mathrm{CER}=0.033\pm0.149$ and mean layout fidelity $\mathrm{IoU}=0.364\pm0.161$ for text regions and $0.644\pm0.131$ for image regions. We also highlight practical engineering challenges in reconstruction, including text size calibration and non-uniform backgrounds, and describe failure modes that guide future work.
- Abstract(参考訳): インフォグラフィックは、テキスト、アイコン、データ視覚化の組み合わせで情報を伝えるために広く使われているが、一度画像としてエクスポートされると、そのコンテンツはピクセルにロックされ、更新、ローカライゼーション、再利用が高価になる。
静的インフォグラフィック(PNG/JPG)をネイティブで編集可能なGoogle Slidesスライドに変換するAPIベースのパイプラインである \textsc{Images2Slides} について説明する。
このシステムはモデルに依存しず、共通のJSONリージョンスキーマと決定論的後処理を通じて、複数のVLMバックエンドをサポートする。
29のプログラムで生成されたインフォグラフィックスライドと既知の接地領域との制御されたベンチマークにおいて、 \textsc{Images2Slides} は、平均的なテキスト書き起こしエラーが$\mathrm{CER}=0.033\pm0.049$と平均レイアウト忠実度$\mathrm{IoU}=0.364\pm0.161$と画像領域の$0.644\pm0.131$で、0.989\pm0.057$ (text: $0.985\pm0.083$, images: $1.000\pm0.000$), 全体の回復率を達成する。
また、テキストサイズの校正や一様でない背景、将来の作業を支援する障害モードの記述など、再構築における実践的なエンジニアリング上の課題も強調する。
関連論文リスト
- Semantic Document Derendering: SVG Reconstruction via Vision-Language Modeling [32.22298939812003]
SliDerは視覚言語モデルを用いてスライド画像をコンパクトかつ編集可能なSVG表現としてデレンダする新しいフレームワークである。
SliDerは0.069のLPIPSを復元し、最強のゼロショットVLMベースラインに比べて82.9%のケースでヒト評価者によって好まれる。
論文 参考訳(メタデータ) (2025-11-17T15:16:13Z) - Talking Points: Describing and Localizing Pixels [17.428135548304308]
画素レベルのグラウンド化のための新しいフレームワークを提案する。
このフレームワークは2つの補完的なコンポーネントで構成されている: 個々のキーポイントのリッチで文脈的な記述を生成するポイント記述子と、これらの記述から正確なピクセル座標を回帰するポイントローカライザである。
論文 参考訳(メタデータ) (2025-10-16T11:42:03Z) - CLIP the Landscape: Automated Tagging of Crowdsourced Landscape Images [0.5999777817331317]
ランドスケープ写真から地理的コンテキストタグを予測するためのCLIPベースのマルチモーダルマルチラベル分類器を提案する。
位置埋め込みとタイトル埋め込みを画像特徴と組み合わせることで,画像埋め込みを単独で使用するよりも精度が向上することを示す。
論文 参考訳(メタデータ) (2025-06-13T20:32:58Z) - VIXEN: Visual Text Comparison Network for Image Difference Captioning [58.16313862434814]
画像間の視覚的差異をテキストで簡潔に要約する手法であるVIXENを提案する。
提案するネットワークは,事前学習された大規模言語モデルに対するソフトプロンプトを構築し,画像特徴を一対にマッピングする。
論文 参考訳(メタデータ) (2024-02-29T12:56:18Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - Exploring Stroke-Level Modifications for Scene Text Editing [86.33216648792964]
シーンテキスト編集(STE)は、元のテキストの背景とスタイルを保存しながら、テキストを所望のテキストに置き換えることを目的としている。
画像全体を編集するには、背景領域とテキスト領域の異なる翻訳規則を同時に学習する必要がある。
Scene Text Image at strokE Level (MOSTEL) を用いた新しいネットワークを提案する。
論文 参考訳(メタデータ) (2022-12-05T02:10:59Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - Map-free Visual Relocalization: Metric Pose Relative to a Single Image [21.28513803531557]
本研究では,シーンの1枚の写真のみを用いて,地図のない再ローカライズを提案し,即時でスケールした再ローカライズを実現する。
既存のデータセットは、大きなシーンや限られた変数に焦点を当てているため、マップのない再ローカライゼーションのベンチマークには適していない。
我々は,世界規模で収集された彫刻,壁画,噴水など,655箇所の小さな関心事のデータセットを構築した。
論文 参考訳(メタデータ) (2022-10-11T14:49:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。