論文の概要: TextPecker: Rewarding Structural Anomaly Quantification for Enhancing Visual Text Rendering
- arxiv url: http://arxiv.org/abs/2602.20903v1
- Date: Tue, 24 Feb 2026 13:40:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.766955
- Title: TextPecker: Rewarding Structural Anomaly Quantification for Enhancing Visual Text Rendering
- Title(参考訳): TextPecker: 視覚的テキストレンダリングを促進する構造的異常定量化
- Authors: Hanshen Zhu, Yuliang Liu, Xuecheng Wu, An-Lan Wang, Hao Feng, Dingkang Yang, Chao Feng, Can Huang, Jingqun Tang, Xiang Bai,
- Abstract要約: TextPeckerは、プラグアンドプレイで構造的異常を知覚するRL戦略である。
ノイズの多い報酬信号を緩和し、任意のテキスト・イメージ・ジェネレータで動作する。
構造的忠実度の平均利得は4%、意味的アライメントは8.7%である。
- 参考スコア(独自算出の注目度): 76.53315206999231
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual Text Rendering (VTR) remains a critical challenge in text-to-image generation, where even advanced models frequently produce text with structural anomalies such as distortion, blurriness, and misalignment. However, we find that leading MLLMs and specialist OCR models largely fail to perceive these structural anomalies, creating a critical bottleneck for both VTR evaluation and RL-based optimization. As a result, even state-of-the-art generators (e.g., SeedDream4.0, Qwen-Image) still struggle to render structurally faithful text. To address this, we propose TextPecker, a plug-and-play structural anomaly perceptive RL strategy that mitigates noisy reward signals and works with any textto-image generator. To enable this capability, we construct a recognition dataset with character-level structural-anomaly annotations and develop a stroke-editing synthesis engine to expand structural-error coverage. Experiments show that TextPecker consistently improves diverse text-to-image models; even on the well-optimized Qwen-Image, it significantly yields average gains of 4% in structural fidelity and 8.7% in semantic alignment for Chinese text rendering, establishing a new state-of-the-art in high-fidelity VTR. Our work fills a gap in VTR optimization, providing a foundational step towards reliable and structural faithful visual text generation.
- Abstract(参考訳): ビジュアルテキストレンダリング(VTR)はテキスト・ツー・イメージ生成において依然として重要な課題であり、高度なモデルでさえ、歪み、ぼかし、誤修正のような構造上の異常のあるテキストを頻繁に生成する。
しかし,主要なMLLMとOCRモデルは,これらの構造的異常をほとんど認識できず,VTR評価とRLに基づく最適化の両方において重要なボトルネックとなることがわかった。
その結果、最先端のジェネレータ(例:SeedDream4.0、Qwen-Image)でさえ、構造的に忠実なテキストのレンダリングに苦戦している。
そこで本稿では,雑音の多い報酬信号を緩和し,任意のテキスト・イメージ・ジェネレータと連携する,プラグ・アンド・プレイ型構造異常認識型RL戦略であるTextPeckerを提案する。
この機能を実現するために,文字レベルの構造異常アノテーションを用いた認識データセットを構築し,構造エラーカバレッジを拡大するためのストローク編集合成エンジンを開発する。
実験の結果、TextPeckerは多種多様なテキスト・画像モデルの改善を一貫して行っており、Qwen-Imageでは、構造的忠実度が4%、意味的アライメントが8.7%、高忠実度VTRにおける新しい最先端技術が確立されている。
我々の研究は、VTR最適化のギャップを埋め、信頼性と構造に忠実なビジュアルテキスト生成に向けた基礎的なステップを提供する。
関連論文リスト
- Interleaving Reasoning for Better Text-to-Image Generation [83.69082794730664]
テキストベース思考と画像合成を交互に行うIRG(Interleaving Reasoning Generation)を提案する。
IRGを効果的に訓練するために,2つのサブゴールをターゲットにしたIRGL(Interleaving Reasoning Generation Learning)を提案する。
実験の結果、SoTAの性能はGenEval, WISE, TIIF, GenAI-Bench, OneIG-ENで5~10ポイント向上した。
論文 参考訳(メタデータ) (2025-09-08T17:56:23Z) - Text-Aware Real-World Image Super-Resolution via Diffusion Model with Joint Segmentation Decoders [14.655107789528673]
本稿では,テキスト認識と共同セグメンテーションデコーダを統合した新しい拡散型SRフレームワークTADiSRを紹介する。
本研究では,高精細なフルイメージのテキストマスクを用いた高品質な画像合成のための完全なパイプラインを提案する。
提案手法は,超解像におけるテキストの可読性を大幅に向上させ,複数の評価指標にまたがって最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-06-05T05:23:10Z) - Robustness in Both Domains: CLIP Needs a Robust Text Encoder [55.348860778166426]
LEAFはテキストドメインの効率の良い逆方向の微調整手法であり、大きなCLIPモデルにスケールできる。
我々のモデルは、ロバスト画像エンコーダによる視力性能を維持しながら、テキスト領域におけるゼロショット対角精度を著しく向上させる。
我々は,ロバストテキストエンコーダが直接最適化による埋め込みから入力テキストの再構築を容易にすることを示す。
論文 参考訳(メタデータ) (2025-06-03T19:57:09Z) - GlyphMastero: A Glyph Encoder for High-Fidelity Scene Text Editing [23.64662356622401]
GlyphMasteroという特殊なグリフエンコーダは、ストロークレベルの精度でテキストを生成するために、潜時拡散モデルを導出するために設計されている。
本手法は,現状のシーンテキスト編集ベースラインよりも文精度が18.02%向上した。
論文 参考訳(メタデータ) (2025-05-08T03:11:58Z) - ARTIST: Improving the Generation of Text-rich Images with Disentangled Diffusion Models and Large Language Models [52.23899502520261]
本稿では,テキスト構造の学習に特化するために,専用のテキスト拡散モデルを組み込んだARTISTという新しいフレームワークを紹介する。
我々は、事前訓練されたテキスト構造モデルからテキスト構造情報を同化できるように、視覚拡散モデルを微調整する。
この歪んだアーキテクチャ設計とトレーニング戦略は、テキストリッチな画像生成のための拡散モデルのテキストレンダリング能力を著しく向上させる。
論文 参考訳(メタデータ) (2024-06-17T19:31:24Z) - Spectral Normalization and Dual Contrastive Regularization for
Image-to-Image Translation [9.029227024451506]
二重コントラスト正規化とスペクトル正規化に基づく新しい未ペアI2I翻訳フレームワークを提案する。
SN-DCRの有効性を評価するための総合的な実験を行い、本手法が複数のタスクにおいてSOTAを実現することを実証した。
論文 参考訳(メタデータ) (2023-04-22T05:22:24Z) - A Text Attention Network for Spatial Deformation Robust Scene Text Image
Super-resolution [13.934846626570286]
シーンテキスト画像の超解像度は、低解像度画像におけるテキストの解像度と可読性を向上させることを目的としている。
空間的に変形したテキスト、特に回転して湾曲したテキストの高解像度画像の再構成は依然として困難である。
この問題に対処するために,CNN ベースの Text ATTention Network (TATT) を提案する。
論文 参考訳(メタデータ) (2022-03-17T15:28:29Z) - DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis [80.54273334640285]
本稿では,異なる生成装置間の絡み合わずに高解像度画像を直接合成する,新しい1段階のテキスト・ツー・イメージバックボーンを提案する。
また,Matching-Aware Gradient Penalty と One-Way Output を組み合わせた新たなターゲット認識識別器を提案する。
現在の最先端手法と比較して,提案するDF-GANはよりシンプルだが,現実的およびテキストマッチング画像の合成には効率的である。
論文 参考訳(メタデータ) (2020-08-13T12:51:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。