論文の概要: TextAlign: Preference Alignment for Text Rendering with Hierarchical Rewards
- arxiv url: http://arxiv.org/abs/2605.19320v1
- Date: Tue, 19 May 2026 03:55:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.108431
- Title: TextAlign: Preference Alignment for Text Rendering with Hierarchical Rewards
- Title(参考訳): TextAlign:階層的リワードによるテキストレンダリングのための優先アライメント
- Authors: Mingxuan Cui, Jingpu Yang, Fengxian Ji, Qian Jiang, Zhecheng Shi, Jiaming Wang, Zirui Song, Fajri Koto, Xiuying Chen,
- Abstract要約: テキストレンダリングを学習後の嗜好調整問題として研究する。
キーコンポーネントは階層型視覚言語モデル(VLM)ベースの報酬で、レンダリングエラーをグローバル、ワード、グリフのレベルに分解する。
FLUX.1-devとZ-Image-Turboの実験では、一般的な生成品質を劣化させることなく、OCRベースのテキスト精度が一貫した向上を示した。
- 参考スコア(独自算出の注目度): 25.768329293709176
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Faithful text rendering remains a persistent weakness of large text-to-image generative models, as it requires both semantic instruction following and fine-grained glyph-level structure. Prior methods often improve this ability through architecture-specific modules or encoder modifications, which complicate deployment across foundation models. We study text rendering as a post-training preference-alignment problem and propose TextAlign, a non-invasive framework that keeps the generator architecture unchanged. The key component is a hierarchical vision-language model (VLM)-based reward that decomposes rendering errors into global, word, and glyph levels, then converts binary defect judgments into a scalar preference signal. The resulting signal supports both Group Relative Policy Optimization (GRPO) and Direct Preference Optimization (DPO). Experiments on FLUX.1-dev and Z-Image-Turbo show consistent gains in OCR-based text accuracy without degrading general generation quality. Compared with strong foundation and text-rendering baselines, including SD3.5, Qwen-Image, AnyText, and TextDiffuser, these results indicate that reward design offers a scalable alternative to model redesign for improving text rendering.
- Abstract(参考訳): 忠実なテキストレンダリングは、意味的な指示とグリフレベルの微細な構造の両方を必要とするため、大きなテキストからイメージへの生成モデルの永続的な弱点である。
従来の手法では、アーキテクチャ固有のモジュールやエンコーダの変更によって、ファンデーションモデル間のデプロイメントが複雑になるため、この機能を改善することが多かった。
本研究では,テキストレンダリングを学習後の嗜好調整問題として研究し,ジェネレータアーキテクチャを変更せずに維持する非侵襲的フレームワークであるTextAlignを提案する。
鍵となるコンポーネントは階層的視覚言語モデル(VLM)ベースの報酬で、レンダリングエラーをグローバル、ワード、グリフレベルに分解し、二項欠陥判定をスカラー優先信号に変換する。
結果として得られる信号は、グループ相対政策最適化(GRPO)と直接選好最適化(DPO)の両方をサポートする。
FLUX.1-devとZ-Image-Turboの実験では、一般的な生成品質を劣化させることなく、OCRベースのテキスト精度が一貫した向上を示した。
SD3.5、Qwen-Image、AnyText、TextDiffuserなどの強力な基盤とテキストレンダリングベースラインと比較して、これらの結果は、報酬設計がテキストレンダリングを改善するためのモデル再設計に代わるスケーラブルな代替手段を提供することを示している。
関連論文リスト
- CycleCap: Improving VLMs Captioning Performance via Self-Supervised Cycle Consistency Fine-Tuning [65.10059440725041]
視覚言語モデル(VLM)は画像キャプション、視覚的質問応答、視覚的推論において顕著な進歩を遂げている。
ヴィジュアル言語を誤用する傾向があり、しばしば過度に汎用的あるいは幻覚的な記述を生み出している。
既存のアプローチでは、コストがかかる大規模アノテートデータセットのインストラクションチューニングと、キャプションリファインメントのための複雑なテストタイムフレームワークによって、この問題に対処している。
本研究では,サイクル一貫性のレンズを用いて,画像テキストのアライメントを再考する。
論文 参考訳(メタデータ) (2026-03-18T20:57:31Z) - GlyphPrinter: Region-Grouped Direct Preference Optimization for Glyph-Accurate Visual Text Rendering [83.65452884616624]
既存の手法は、高画質のシーンテキスト画像のトレーニングによってテキストレンダリングを強化するのが一般的である。
グリフのバリエーションと過度なスタイリゼーションの限られた範囲は、グリフの精度を損なうことも多い。
我々は、明示的な報酬モデルに依存しない嗜好ベースのテキストレンダリング手法であるGlyphPrinterを提案する。
論文 参考訳(メタデータ) (2026-03-16T17:59:31Z) - TextPecker: Rewarding Structural Anomaly Quantification for Enhancing Visual Text Rendering [76.53315206999231]
TextPeckerは、プラグアンドプレイで構造的異常を知覚するRL戦略である。
ノイズの多い報酬信号を緩和し、任意のテキスト・イメージ・ジェネレータで動作する。
構造的忠実度の平均利得は4%、意味的アライメントは8.7%である。
論文 参考訳(メタデータ) (2026-02-24T13:40:23Z) - UniGlyph: Unified Segmentation-Conditioned Diffusion for Precise Visual Text Synthesis [38.658170067715965]
画素レベルの視覚テキストマスクを統一された条件入力として用いるセグメンテーション誘導フレームワークを提案する。
提案手法は,AnyTextベンチマークの最先端性能を実現する。
レイアウトテストのためのGlyphMM-benchmarkと、小規模テキスト領域における生成品質の評価のためのMiniText-benchmarkの2つの新しいベンチマークも導入した。
論文 参考訳(メタデータ) (2025-07-01T17:42:19Z) - TextDiff: Mask-Guided Residual Diffusion Models for Scene Text Image Super-Resolution [17.95994419104427]
TextDiffは、シーンテキストイメージの超解像度に適した拡散ベースのフレームワークである。
公開ベンチマークデータセット上での最先端(SOTA)パフォーマンスを実現する。
提案するMDDモジュールは,SOTA法により生成されたテキストエッジを効果的にシャープするプラグイン・アンド・プレイである。
論文 参考訳(メタデータ) (2023-08-13T11:02:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。