論文の概要: TextFlux: An OCR-Free DiT Model for High-Fidelity Multilingual Scene Text Synthesis
- arxiv url: http://arxiv.org/abs/2505.17778v1
- Date: Fri, 23 May 2025 11:46:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.039975
- Title: TextFlux: An OCR-Free DiT Model for High-Fidelity Multilingual Scene Text Synthesis
- Title(参考訳): TextFlux: 高精度多言語シーンテキスト合成のためのOCRフリーDiTモデル
- Authors: Yu Xie, Jielei Zhang, Pengyu Chen, Ziyue Wang, Weihang Wang, Longwen Gao, Peiyi Li, Huyang Sun, Qiang Zhang, Qian Qiao, Jiaqing Fan, Zhouhui Lian,
- Abstract要約: TextFluxは、多言語シーンテキスト合成を可能にするDiTベースのフレームワークである。
TextFluxは低リソースのマルチリンガル設定で有効であり、1000サンプル未満の新たな言語で高いパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 29.297349416515665
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion-based scene text synthesis has progressed rapidly, yet existing methods commonly rely on additional visual conditioning modules and require large-scale annotated data to support multilingual generation. In this work, we revisit the necessity of complex auxiliary modules and further explore an approach that simultaneously ensures glyph accuracy and achieves high-fidelity scene integration, by leveraging diffusion models' inherent capabilities for contextual reasoning. To this end, we introduce TextFlux, a DiT-based framework that enables multilingual scene text synthesis. The advantages of TextFlux can be summarized as follows: (1) OCR-free model architecture. TextFlux eliminates the need for OCR encoders (additional visual conditioning modules) that are specifically used to extract visual text-related features. (2) Strong multilingual scalability. TextFlux is effective in low-resource multilingual settings, and achieves strong performance in newly added languages with fewer than 1,000 samples. (3) Streamlined training setup. TextFlux is trained with only 1% of the training data required by competing methods. (4) Controllable multi-line text generation. TextFlux offers flexible multi-line synthesis with precise line-level control, outperforming methods restricted to single-line or rigid layouts. Extensive experiments and visualizations demonstrate that TextFlux outperforms previous methods in both qualitative and quantitative evaluations.
- Abstract(参考訳): 拡散に基づくシーンテキスト合成は急速に進歩しているが、既存の手法は視覚条件付けモジュールの追加に依存しており、多言語生成をサポートするために大規模な注釈付きデータを必要とする。
本研究では,複雑な補助モジュールの必要性を再考し,文脈的推論に拡散モデル固有の機能を活用することにより,グリフの精度を同時に確保し,高忠実なシーン統合を実現するアプローチを探究する。
この目的のために、多言語シーンのテキスト合成を可能にするDiTベースのフレームワークであるTextFluxを紹介する。
TextFluxの利点は次のように要約できる。
TextFluxは、ビジュアルテキスト関連の特徴を抽出するために特に使用されるOCRエンコーダ(追加のビジュアルコンディショニングモジュール)を不要にしている。
(2) 強い多言語拡張性。
TextFluxは低リソースのマルチリンガル設定で有効であり、1000サンプル未満の新たな言語で高いパフォーマンスを実現している。
(3) 流線形訓練装置。
TextFluxは、競合するメソッドに必要なトレーニングデータのわずか1%でトレーニングされる。
(4) 制御可能なマルチラインテキスト生成。
TextFluxは、正確なラインレベル制御を備えた柔軟なマルチライン合成を提供する。
大規模な実験と可視化により、TextFluxは定性評価と定量的評価の両方において、従来の方法よりも優れていることが示された。
関連論文リスト
- FLUX-Text: A Simple and Advanced Diffusion Transformer Baseline for Scene Text Editing [16.291792203115616]
FLUX-Fillをベースとしたシンプルで高度な多言語シーンテキスト編集フレームワークFLUX-Textを提案する。
本手法は,テキスト編集作業における最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-05-06T08:56:28Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - TextDiffuser-2: Unleashing the Power of Language Models for Text
Rendering [118.30923824681642]
TextDiffuser-2は、テキストレンダリングのための言語モデルのパワーを解き放つことを目的としている。
拡散モデル内の言語モデルを用いて,行レベルでの位置とテキストを符号化する。
我々は広範な実験を行い、GPT-4Vと同様に、ヒトの参加者を含むユーザスタディを取り入れた。
論文 参考訳(メタデータ) (2023-11-28T04:02:40Z) - AnyText: Multilingual Visual Text Generation And Editing [18.811943975513483]
拡散型多言語視覚テキスト生成・編集モデルであるAnyTextを紹介する。
AnyTextは複数の言語で文字を書くことができます。
我々は、OCRアノテーションと300万の画像テキストペアを複数言語で含む、最初の大規模多言語テキスト画像データセットであるAnyWord-3Mをコントリビュートする。
論文 参考訳(メタデータ) (2023-11-06T12:10:43Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - VX2TEXT: End-to-End Learning of Video-Based Text Generation From
Multimodal Inputs [103.99315770490163]
本稿では,ビデオ+テキスト,音声,音声によるマルチモーダル入力からテキストを生成するフレームワークを提案する。
実験により、一つのアーキテクチャに基づくアプローチは、3つのビデオベースのテキスト生成タスクにおいて最先端のタスクより優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T15:22:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。