論文の概要: TextEditBench: Evaluating Reasoning-aware Text Editing Beyond Rendering
- arxiv url: http://arxiv.org/abs/2512.16270v1
- Date: Thu, 18 Dec 2025 07:37:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.967812
- Title: TextEditBench: Evaluating Reasoning-aware Text Editing Beyond Rendering
- Title(参考訳): TextEditBench:レンダリングを超えた推論対応テキスト編集の評価
- Authors: Rui Gui, Yang Wan, Haochen Han, Dongxing Mao, Fangming Liu, Min Li, Alex Jinpeng Wang,
- Abstract要約: 画像中のテキスト中心領域の総合評価ベンチマークであるTextEditBenchを紹介する。
本ベンチマークでは, 物理的妥当性, 言語的意味, 相互依存をモデルで理解する必要のある, 推論集約的な編集シナリオを強調した。
また,意味的整合性,文脈的コヒーレンス,モーダル間の整合性を維持するためのモデルの推論能力を測定するセマンティック期待(Semantic expectation)を新たに提案する。
- 参考スコア(独自算出の注目度): 18.337757379089037
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text rendering has recently emerged as one of the most challenging frontiers in visual generation, drawing significant attention from large-scale diffusion and multimodal models. However, text editing within images remains largely unexplored, as it requires generating legible characters while preserving semantic, geometric, and contextual coherence. To fill this gap, we introduce TextEditBench, a comprehensive evaluation benchmark that explicitly focuses on text-centric regions in images. Beyond basic pixel manipulations, our benchmark emphasizes reasoning-intensive editing scenarios that require models to understand physical plausibility, linguistic meaning, and cross-modal dependencies. We further propose a novel evaluation dimension, Semantic Expectation (SE), which measures reasoning ability of model to maintain semantic consistency, contextual coherence, and cross-modal alignment during text editing. Extensive experiments on state-of-the-art editing systems reveal that while current models can follow simple textual instructions, they still struggle with context-dependent reasoning, physical consistency, and layout-aware integration. By focusing evaluation on this long-overlooked yet fundamental capability, TextEditBench establishes a new testing ground for advancing text-guided image editing and reasoning in multimodal generation.
- Abstract(参考訳): テキストレンダリングは最近、視覚生成において最も困難なフロンティアの1つとして現れ、大規模な拡散とマルチモーダルモデルから大きな注目を集めている。
しかし、画像内のテキスト編集は、意味的、幾何学的、文脈的コヒーレンスを保ちながら、正当性のある文字を生成する必要があるため、ほとんど探索されていない。
このギャップを埋めるために、画像中のテキスト中心の領域に明示的にフォーカスする総合的な評価ベンチマークであるTextEditBenchを紹介する。
我々のベンチマークでは、基本的なピクセル操作以外にも、物理的妥当性、言語的意味、相互依存を理解するためにモデルを必要とする推論集約的な編集シナリオを強調している。
さらに,テキスト編集における意味的一貫性,文脈的コヒーレンス,モーダル的アライメントの維持に関するモデル推論能力を測定するセマンティック期待度(SE)を新たに提案する。
最先端の編集システムに関する大規模な実験では、現在のモデルは単純なテキスト命令に従うことができるが、それでもコンテキスト依存の推論、物理的一貫性、レイアウト認識の統合に苦慮している。
この長年見過ごされてきた基本機能を評価することで、TextEditBenchは、マルチモーダル生成におけるテキスト誘導画像編集と推論を前進させるための新しいテスト基盤を確立する。
関連論文リスト
- Visual Text Processing: A Comprehensive Review and Unified Evaluation [99.57846940547171]
視覚テキスト処理における最近の進歩を包括的・多視点的に分析する。
本研究の目的は,視覚テキスト処理のダイナミックな分野における今後の探索と革新を促進する基礎資源として,本研究を確立することである。
論文 参考訳(メタデータ) (2025-04-30T14:19:29Z) - DanceText: A Training-Free Layered Framework for Controllable Multilingual Text Transformation in Images [28.48453375674059]
DanceTextは、画像の多言語テキスト編集のためのトレーニング不要のフレームワークである。
複雑な幾何学的変換をサポートし、シームレスに前景と背景の統合を実現する。
論文 参考訳(メタデータ) (2025-04-18T23:46:32Z) - TextInVision: Text and Prompt Complexity Driven Visual Text Generation Benchmark [61.412934963260724]
既存の拡散ベースのテキスト・ツー・イメージモデルは、しばしば画像に正確にテキストを埋め込むのに苦労する。
本研究では,画像に視覚テキストを統合する拡散モデルの有効性を評価するために,大規模で,かつ,迅速な複雑性駆動型ベンチマークであるTextInVisionを紹介する。
論文 参考訳(メタデータ) (2025-03-17T21:36:31Z) - Uncovering the Text Embedding in Text-to-Image Diffusion Models [17.108496821429494]
テキストの埋め込みは、テキストと画像の間の重要な仲介として、比較的未発見のままである。
我々は,単語ごとの埋め込みの重要性と,テキスト埋め込みにおける文脈的相関に関する2つの重要な知見を同定した。
テキスト埋め込みは本質的に多様な意味的ポテンシャルを持ち、特異値分解のレンズを通してこの性質を明らかにする。
論文 参考訳(メタデータ) (2024-04-01T14:59:13Z) - Contextualized Diffusion Models for Text-Guided Image and Video Generation [67.69171154637172]
条件拡散モデルは高忠実度テキスト誘導視覚生成および編集において優れた性能を示した。
本研究では,テキスト条件と視覚的サンプル間の相互作用とアライメントを包含するクロスモーダルコンテキストを組み込むことにより,コンテキスト拡散モデル(ContextDiff)を提案する。
理論的導出を伴うDDPMとDDIMの両方にモデルを一般化し、テキスト・ツー・イメージ生成とテキスト・ツー・ビデオ編集という2つの課題を伴う評価において、モデルの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-26T15:01:16Z) - FASTER: A Font-Agnostic Scene Text Editing and Rendering Framework [19.564048493848272]
STE(Scene Text Editing)は、画像中の既存のテキストの変更を主な目的とする、難しい研究課題である。
既存のスタイル変換ベースのアプローチでは、複雑な画像背景、多様なフォント属性、テキスト内の様々な単語長によるサブパー編集性能が示されている。
フォントに依存しない新しいシーンテキスト編集・レンダリングフレームワークであるFASTERを提案し,任意のスタイルや場所のテキストを同時に生成する。
論文 参考訳(メタデータ) (2023-08-05T15:54:06Z) - Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.71128866226768]
近年のテキスト・ツー・イメージ生成手法は、生成した画像の忠実度とテキスト関連性を漸進的に改善している。
i)シーンの形式でテキストを補完する単純な制御機構を実現することで,これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。
このモデルにより,512×512ピクセルの解像度で高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-03-24T15:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。