Fugu-MT 論文翻訳(概要): Brush Your Text: Synthesize Any Scene Text on Images via Diffusion Model

論文の概要: Brush Your Text: Synthesize Any Scene Text on Images via Diffusion Model

arxiv url: http://arxiv.org/abs/2312.12232v1
Date: Tue, 19 Dec 2023 15:18:40 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-20 15:16:47.445345
Title: Brush Your Text: Synthesize Any Scene Text on Images via Diffusion Model
Title（参考訳）: テキストのブラシ:拡散モデルによる画像上のあらゆるシーンテキストの合成
Authors: Lingjun Zhang, Xinyuan Chen, Yaohui Wang, Yue Lu, Yu Qiao
Abstract要約: Diff-Textは、任意の言語のためのトレーニング不要のシーンテキスト生成フレームワークである。本手法は, テキスト認識の精度と, 前景と後景のブレンディングの自然性の両方において, 既存の手法よりも優れる。
参考スコア（独自算出の注目度）: 31.819060415422353
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, diffusion-based image generation methods are credited for their remarkable text-to-image generation capabilities, while still facing challenges in accurately generating multilingual scene text images. To tackle this problem, we propose Diff-Text, which is a training-free scene text generation framework for any language. Our model outputs a photo-realistic image given a text of any language along with a textual description of a scene. The model leverages rendered sketch images as priors, thus arousing the potential multilingual-generation ability of the pre-trained Stable Diffusion. Based on the observation from the influence of the cross-attention map on object placement in generated images, we propose a localized attention constraint into the cross-attention layer to address the unreasonable positioning problem of scene text. Additionally, we introduce contrastive image-level prompts to further refine the position of the textual region and achieve more accurate scene text generation. Experiments demonstrate that our method outperforms the existing method in both the accuracy of text recognition and the naturalness of foreground-background blending.
Abstract（参考訳）: 近年,多言語シーンのテキスト画像の正確な生成は困難でありながら,拡散に基づく画像生成手法が注目されている。この問題に対処するために,任意の言語を対象としたトレーニング不要シーンテキスト生成フレームワークであるDiff-Textを提案する。本モデルでは,シーンのテキスト記述とともに,任意の言語のテキストが与えられた写真リアリスティック画像を出力する。このモデルは、描画されたスケッチ画像を先行として利用し、事前訓練された安定拡散の多言語生成能力を刺激する。生成した画像のオブジェクト配置に対するクロスアテンションマップの影響から,シーンテキストにおける不合理な位置決め問題に対処するために,クロスアテンション層への局所的なアテンション制約を提案する。さらに、コントラスト画像レベルのプロンプトを導入し、テキスト領域の位置をさらに洗練し、より正確なシーンテキスト生成を実現する。提案手法は,テキスト認識の精度とフォアグラウンド・バックグラウンドブレンディングの自然性の両方において,既存の手法よりも優れることを示す。

関連論文リスト

DesignDiffusion: High-Quality Text-to-Design Image Generation with Diffusion Models [115.62816053600085]
デザインイメージをテキスト記述から合成するフレームワークであるDesignDiffusionを提案する。提案するフレームワークは,ユーザプロンプトから直接テキストおよびビジュアルデザイン要素を合成する。視覚テキストから派生した特徴的な文字埋め込みを利用して入力プロンプトを強化する。
論文参考訳（メタデータ） (2025-03-03T15:22:57Z)
SceneBooth: Diffusion-based Framework for Subject-preserved Text-to-Image Generation [46.43776651071455]
既存の手法では、しばしば主題表現を学習し、画像生成を誘導するプロンプト埋め込みに組み込む。本稿では,SceneBooth という新しいフレームワークを主題保存型テキスト・画像生成に適用する。我々のSceneBoothは、与えられた主題の画像を修正し、テキストプロンプトによってガイドされた背景画像を生成する。
論文参考訳（メタデータ） (2025-01-07T03:18:15Z)
SceneVTG++: Controllable Multilingual Visual Text Generation in the Wild [55.619708995575785]
自然景観画像のテキストは、以下の4つの重要な基準を満たす必要がある。生成されたテキストは、自然なシーンOCR(Optical Character Recognition)タスクのトレーニングを容易にする。生成された画像は、テキスト検出やテキスト認識といったOCRタスクにおいて優れている。
論文参考訳（メタデータ） (2025-01-06T12:09:08Z)
CLII: Visual-Text Inpainting via Cross-Modal Predictive Interaction [23.683636588751753]
State-of-the-art inpainting法は主に自然画像用に設計されており、シーンテキスト画像内のテキストを正しく復元することができない。高品質なシーン画像復元とテキスト補完を実現するために,視覚テキストの塗装作業を特定する。
論文参考訳（メタデータ） (2024-07-23T06:12:19Z)
Visual Text Generation in the Wild [67.37458807253064]
野生で高品質なテキスト画像を生成する視覚テキスト生成装置(SceneVTG)を提案する。提案したSceneVTGは、従来のレンダリングに基づく手法と最近の拡散に基づく手法を、忠実さと理性の観点から大きく上回っている。生成された画像は、テキスト検出とテキスト認識を含むタスクに優れたユーティリティを提供する。
論文参考訳（メタデータ） (2024-07-19T09:08:20Z)
Layout Agnostic Scene Text Image Synthesis with Diffusion Models [42.37340959594495]
SceneTextGenは、事前に定義されたレイアウトステージの必要性を回避するために特別に設計された、拡散ベースの新しいモデルである。 SceneTextGenの新規性は、3つの重要なコンポーネントを統合している: 詳細なタイポグラフィ特性をキャプチャする文字レベルエンコーダと、不要なテキスト生成とマイナーな文字不正確な問題に対処する文字レベルインスタンスセグメンテーションモデルと、ワードレベルスポッティングモデルである。
論文参考訳（メタデータ） (2024-06-03T07:20:34Z)
Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文参考訳（メタデータ） (2023-11-28T06:51:28Z)
Text-Driven Image Editing via Learnable Regions [74.45313434129005]
本研究では,ユーザが提供するマスクやスケッチを必要とせずに,テキストプロンプトによって駆動される領域ベースの画像編集手法を提案する。この単純なアプローチにより、現在の画像生成モデルと互換性のあるフレキシブルな編集が可能になることを示す。実験では,提案した言語記述に対応する忠実度とリアリズムの高い画像の操作において,提案手法の競合性能を示す。
論文参考訳（メタデータ） (2023-11-28T02:27:31Z)
LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image Generation [121.45667242282721]
レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。提案手法は,フォトリアリスティックなレイアウトと画像生成の観点から,最先端のモデルよりも優れている。
論文参考訳（メタデータ） (2023-08-09T17:45:04Z)
Weakly Supervised Scene Text Generation for Low-resource Languages [19.243705770491577]
シーンテキスト認識モデルのトレーニングには,多数の注釈付きトレーニング画像が不可欠である。既存のシーンテキスト生成手法は、典型的には大量のペアデータに依存しており、低リソース言語では入手が困難である。本稿では,いくつかの認識レベルラベルを弱監督として活用する,弱教師付きシーンテキスト生成手法を提案する。
論文参考訳（メタデータ） (2023-06-25T15:26:06Z)
SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文参考訳（メタデータ） (2022-11-25T18:59:10Z)
Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.71128866226768]
近年のテキスト・ツー・イメージ生成手法は、生成した画像の忠実度とテキスト関連性を漸進的に改善している。 i)シーンの形式でテキストを補完する単純な制御機構を実現することで,これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。このモデルにより,512×512ピクセルの解像度で高忠実度画像を生成することができる。
論文参考訳（メタデータ） (2022-03-24T15:44:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。