論文の概要: AMO Sampler: Enhancing Text Rendering with Overshooting
- arxiv url: http://arxiv.org/abs/2411.19415v1
- Date: Thu, 28 Nov 2024 23:45:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:22:57.752387
- Title: AMO Sampler: Enhancing Text Rendering with Overshooting
- Title(参考訳): AMOサンプリング:オーバーシューティングによるテキストレンダリングの強化
- Authors: Xixi Hu, Keyang Xu, Bo Liu, Qiang Liu, Hongliang Fei,
- Abstract要約: 本稿では,テキストのレンダリング品質を大幅に向上させる,最小限の計算オーバーヘッドのトレーニング不要な手法を提案する。
AMOはSD3とFluxのテキストレンダリング精度を32.3%と35.9%改善した。
- 参考スコア(独自算出の注目度): 17.132775500029382
- License:
- Abstract: Achieving precise alignment between textual instructions and generated images in text-to-image generation is a significant challenge, particularly in rendering written text within images. Sate-of-the-art models like Stable Diffusion 3 (SD3), Flux, and AuraFlow still struggle with accurate text depiction, resulting in misspelled or inconsistent text. We introduce a training-free method with minimal computational overhead that significantly enhances text rendering quality. Specifically, we introduce an overshooting sampler for pretrained rectified flow (RF) models, by alternating between over-simulating the learned ordinary differential equation (ODE) and reintroducing noise. Compared to the Euler sampler, the overshooting sampler effectively introduces an extra Langevin dynamics term that can help correct the compounding error from successive Euler steps and therefore improve the text rendering. However, when the overshooting strength is high, we observe over-smoothing artifacts on the generated images. To address this issue, we propose an Attention Modulated Overshooting sampler (AMO), which adaptively controls the strength of overshooting for each image patch according to their attention score with the text content. AMO demonstrates a 32.3% and 35.9% improvement in text rendering accuracy on SD3 and Flux without compromising overall image quality or increasing inference cost.
- Abstract(参考訳): テキスト・ツー・イメージ生成におけるテキスト・インストラクションと生成された画像の正確なアライメントを実現することは、特に画像内のテキストの描画において重要な課題である。
Stable Diffusion 3 (SD3)、Flux、AuraFlowといった最先端のモデルはまだ正確なテキスト描写に苦慮しているため、ミススペルや一貫性のないテキストになる。
本稿では,テキストのレンダリング品質を大幅に向上させる,最小限の計算オーバーヘッドのトレーニング不要な手法を提案する。
具体的には、学習された常微分方程式(ODE)の過度なシミュレーションと再帰雑音の交互化により、事前訓練された整流(RF)モデルに対するオーバーシューティングサンプリングを導入する。
オーバーシューティング・サンプルラは、オイラー・サンプルラと比較して、連続するオイラー・ステップから合成誤差を補正し、したがってテキストレンダリングを改善するのに役立つ追加のランゲヴィン・ダイナミックス項を効果的に導入する。
しかし, オーバーシューティング強度が高い場合には, 生成した画像上で過度に滑らかなアーティファクトを観察する。
この問題に対処するため、テキストコンテンツによる注目スコアに応じて、各画像パッチに対するオーバーシューティングの強度を適応的に制御するアテンション変調オーバーシューティングサンプリング(AMO)を提案する。
AMOはSD3とFluxのテキストレンダリング精度を32.3%と35.9%改善した。
関連論文リスト
- Type-R: Automatically Retouching Typos for Text-to-Image Generation [10.159681653887237]
後処理パイプラインにおける誤ったテキストレンダリングの修正を提案する。
提案手法はType-Rと呼ばれ,生成した画像のタイポグラフィ的誤りを識別し,誤りテキストを消去し,失語のためのテキストボックスを再生し,最後にレンダリングされた単語のタイポスを補正する。
論文 参考訳(メタデータ) (2024-11-27T09:11:45Z) - TextCraftor: Your Text Encoder Can be Image Quality Controller [65.27457900325462]
拡散に基づくテキスト・画像生成モデル(例えば、安定拡散)は、コンテンツ生成の分野に革命をもたらした。
本研究では,テキスト・ツー・イメージ拡散モデルの性能を向上させるための微調整手法であるTextCraftorを提案する。
論文 参考訳(メタデータ) (2024-03-27T19:52:55Z) - Learning from Mistakes: Iterative Prompt Relabeling for Text-to-Image Diffusion Model Training [33.51524424536508]
Iterative Prompt Relabeling (IPR) は、反復的な画像サンプリングを通じて画像をテキストにアライメントし、フィードバックでリテラブルを促す新しいアルゴリズムである。
我々はSDv2とSDXLについて徹底的な実験を行い、空間関係の指示に従う能力をテストする。
論文 参考訳(メタデータ) (2023-12-23T11:10:43Z) - SwiftBrush: One-Step Text-to-Image Diffusion Model with Variational Score Distillation [1.5892730797514436]
テキストと画像の拡散モデルは、しばしば遅い反復的なサンプリングプロセスに悩まされる。
我々は$textbfSwiftBrush$という新しいイメージフリー蒸留方式を提案する。
SwiftBrushは、COCO-30Kベンチマークで、$textbf16.67$のFIDスコアと$textbf0.29$のCLIPスコアを達成している。
論文 参考訳(メタデータ) (2023-12-08T18:44:09Z) - UDiffText: A Unified Framework for High-quality Text Synthesis in
Arbitrary Images via Character-aware Diffusion Models [25.219960711604728]
本稿では,事前学習した拡散モデルを用いたテキスト画像生成手法を提案する。
我々のアプローチは、オリジナルのCLIPエンコーダを置き換える軽量文字レベルテキストエンコーダの設計と訓練である。
推論段階の精細化プロセスを用いることで、任意に与えられた画像のテキストを合成する際に、顕著に高いシーケンス精度を実現する。
論文 参考訳(メタデータ) (2023-12-08T07:47:46Z) - Enhancing Diffusion Models with Text-Encoder Reinforcement Learning [63.41513909279474]
テキストから画像への拡散モデルは通常、ログのような目的を最適化するために訓練される。
近年の研究では、強化学習や直接バックプロパゲーションを通じて人間の報酬を用いて拡散U-Netを精製することでこの問題に対処している。
我々は、強化学習によってテキストエンコーダを微調整することにより、結果のテキストイメージアライメントを強化することができることを示した。
論文 参考訳(メタデータ) (2023-11-27T09:39:45Z) - Directional Texture Editing for 3D Models [51.31499400557996]
ITEM3D は textbf3D オブジェクトの自動編集のために設計されている。
拡散モデルと微分可能レンダリングを活用して、ITEM3Dはレンダリングされた画像をテキストと3D表現のブリッジとして取り込む。
論文 参考訳(メタデータ) (2023-09-26T12:01:13Z) - High-Fidelity Guided Image Synthesis with Latent Diffusion Models [50.39294302741698]
提案手法は, ユーザ満足度スコアを85.32%以上上回り, 従来の最先端技術よりも優れていた。
人的ユーザ調査の結果、提案手法は、全体のユーザ満足度スコアにおいて、従来の最先端技術よりも85.32%以上優れていたことが示されている。
論文 参考訳(メタデータ) (2022-11-30T15:43:20Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - Scene Text Image Super-Resolution in the Wild [112.90416737357141]
低解像度のテキスト画像は、携帯電話が捉えた文書のような自然の場面でよく見られる。
従来は、合成低解像度画像に対して、単一の画像超解像法 (SISR) を訓練していた。
実際のシーンテキストSRデータセットであるTextZoomをプロポーズする。
この写真には、野生の焦点距離の異なるカメラが捉えた、実際の低解像度と高解像度の2つの画像が含まれている。
論文 参考訳(メタデータ) (2020-05-07T09:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。