論文の概要: VDE Bench: Evaluating The Capability of Image Editing Models to Modify Visual Documents
- arxiv url: http://arxiv.org/abs/2602.00122v1
- Date: Tue, 27 Jan 2026 16:51:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:32.95544
- Title: VDE Bench: Evaluating The Capability of Image Editing Models to Modify Visual Documents
- Title(参考訳): VDE Bench: 画像編集モデルの可視性を評価する
- Authors: Hongzhu Yi, Yujia Yang, Yuanxiang Wang, Zhenyu Guan, Jiahuan Chen, Chenxi Bao, Tiankun Yang, Yixuan Yuan, Tianyu Zong, Xinming Wang, Tao Yu, Ruiwen Tao, Haijin Liang, Jin Ma, Jinwen Luo, Yeshani Xinyu Zuo, Jungang Xu,
- Abstract要約: マルチモーダル画像編集モデルは、ユーザがフレキシブルでインタラクティブな方法で視覚コンテンツを操作できるように、大幅に進歩した。
ビジュアル文書画像編集は、オリジナルのテキストスタイルと背景コンテキストを保存しながら、画像内のテキスト内容を変更することを含む。
AnyText、GlyphControl、TextCtrlといった既存のアプローチは主に、比較的少ないテキストレイアウトを持つ英語のシナリオとドキュメントに焦点を当てている。
- 参考スコア(独自算出の注目度): 45.37806172594631
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, multimodal image editing models have achieved substantial progress, enabling users to manipulate visual content through natural language in a flexible and interactive manner. Nevertheless, an important yet insufficiently explored research direction remains visual document image editing, which involves modifying textual content within images while faithfully preserving the original text style and background context. Existing approaches, including AnyText, GlyphControl, and TextCtrl, predominantly focus on English-language scenarios and documents with relatively sparse textual layouts, thereby failing to adequately address dense, structurally complex documents or non-Latin scripts such as Chinese. To bridge this gap, we propose \textbf{V}isual \textbf{D}oc \textbf{E}dit Bench(VDE Bench), a rigorously human-annotated and evaluated benchmark specifically designed to assess image editing models on multilingual and complex visual document editing tasks. The benchmark comprises a high-quality dataset encompassing densely textual documents in both English and Chinese, including academic papers, posters, presentation slides, examination materials, and newspapers. Furthermore, we introduce a decoupled evaluation framework that systematically quantifies editing performance at the OCR parsing level, enabling fine-grained assessment of text modification accuracy. Based on this benchmark, we conduct a comprehensive evaluation of representative state-of-the-art image editing models. Manual verification demonstrates a strong consistency between human judgments and automated evaluation metrics. VDE Bench constitutes the first systematic benchmark for evaluating image editing models on multilingual and densely textual visual documents.
- Abstract(参考訳): 近年,マルチモーダル画像編集モデルが大幅に進歩し,自然言語による視覚的コンテンツを柔軟かつインタラクティブに操作できるようになった。
それでも、重要な研究の方向性は、元のテキストスタイルと背景コンテキストを忠実に保存しながら、画像内のテキスト内容を変更することを含む、視覚的文書画像編集のままである。
AnyText、GlyphControl、TextCtrlといった既存のアプローチは、比較的テキストレイアウトの少ない英語のシナリオやドキュメントに重点を置いている。
このギャップを埋めるために,多言語および複雑なビジュアル文書編集タスクにおける画像編集モデルの評価に特化して設計された,厳密な人手による評価ベンチマークである \textbf{V}isual \textbf{D}oc \textbf{E}dit Bench(VDE Bench)を提案する。
このベンチマークは、学術論文、ポスター、プレゼンテーションスライド、試験資料、新聞など、英語と中国語の両方で密集した文書を含む高品質なデータセットで構成されている。
さらに、OCR解析レベルでの編集性能を体系的に定量化し、テキスト修正精度のきめ細かい評価を可能にする非結合評価フレームワークを提案する。
本稿では,このベンチマークに基づいて,最先端画像編集モデルの総合的な評価を行う。
手動検証は、人間の判断と自動評価メトリクスの強い一貫性を示す。
VDE Benchは、多言語および高密度のテキストビジュアルドキュメント上で画像編集モデルを評価するための最初の体系的なベンチマークである。
関連論文リスト
- TextEditBench: Evaluating Reasoning-aware Text Editing Beyond Rendering [18.337757379089037]
画像中のテキスト中心領域の総合評価ベンチマークであるTextEditBenchを紹介する。
本ベンチマークでは, 物理的妥当性, 言語的意味, 相互依存をモデルで理解する必要のある, 推論集約的な編集シナリオを強調した。
また,意味的整合性,文脈的コヒーレンス,モーダル間の整合性を維持するためのモデルの推論能力を測定するセマンティック期待(Semantic expectation)を新たに提案する。
論文 参考訳(メタデータ) (2025-12-18T07:37:08Z) - GIE-Bench: Towards Grounded Evaluation for Text-Guided Image Editing [60.66800567924348]
テキスト誘導画像編集モデルを評価するための新しいベンチマークを導入する。
このベンチマークには、20種類のコンテンツカテゴリにわたる高品質な編集例が1000以上含まれている。
我々は、GPT-Image-1をいくつかの最先端編集モデルと比較する大規模な研究を行っている。
論文 参考訳(メタデータ) (2025-05-16T17:55:54Z) - TextInVision: Text and Prompt Complexity Driven Visual Text Generation Benchmark [61.412934963260724]
既存の拡散ベースのテキスト・ツー・イメージモデルは、しばしば画像に正確にテキストを埋め込むのに苦労する。
本研究では,画像に視覚テキストを統合する拡散モデルの有効性を評価するために,大規模で,かつ,迅速な複雑性駆動型ベンチマークであるTextInVisionを紹介する。
論文 参考訳(メタデータ) (2025-03-17T21:36:31Z) - IE-Bench: Advancing the Measurement of Text-Driven Image Editing for Human Perception Alignment [6.627422081288281]
テキスト駆動画像編集ベンチマークスイート (IE-Bench) を導入し, テキスト駆動画像の評価を強化する。
IE-Benchには、さまざまなソースイメージ、さまざまな編集プロンプト、およびそれに対応する結果を含むデータベースが含まれている。
また,テキスト駆動画像編集のための品質評価手法であるIE-QAを導入する。
論文 参考訳(メタデータ) (2025-01-17T02:47:25Z) - Preserve or Modify? Context-Aware Evaluation for Balancing Preservation and Modification in Text-Guided Image Editing [26.086806549826058]
テキスト誘導画像編集は、対象のテキストに基づいて修正を実装しながら、ソース画像の中核要素の保存を求める。
既存のメトリクスは、全く異なるソースイメージとターゲットテキストのペアに対して、同じ評価基準を無差別に適用する、文脈の盲点問題を持つ。
保存・修正の側面を適応的にコーディネートする文脈対応メトリックであるAugCLIPを提案する。
論文 参考訳(メタデータ) (2024-10-15T08:12:54Z) - FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction [66.98008357232428]
我々は新しいアスペクトベースのきめ細かいテキストと画像マッチングベンチマークであるFineMatchを提案する。
FineMatchはテキストと画像のミスマッチの検出と修正に焦点を当てている。
FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力の向上を示す。
論文 参考訳(メタデータ) (2024-04-23T03:42:14Z) - Learning the Visualness of Text Using Large Vision-Language Models [42.75864384249245]
視覚的テキストは人の心の中のイメージを誘発するが、視覚的でないテキストはそれを起こさない。
テキスト内の視覚を自動的に検出する手法により、テキスト・ツー・イメージ検索と生成モデルにより、関連する画像でテキストを拡張できる。
我々は,3,620の英語文のデータセットと,複数のアノテータによって提供されるその視覚性スコアをキュレートする。
論文 参考訳(メタデータ) (2023-05-11T17:45:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。