論文の概要: TextCrafter: Accurately Rendering Multiple Texts in Complex Visual Scenes
- arxiv url: http://arxiv.org/abs/2503.23461v2
- Date: Tue, 01 Apr 2025 02:56:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-02 10:23:33.641349
- Title: TextCrafter: Accurately Rendering Multiple Texts in Complex Visual Scenes
- Title(参考訳): TextCrafter: 複雑なビジュアルシーンで複数のテキストを正確にレンダリングする
- Authors: Nikai Du, Zhennan Chen, Zhizhou Chen, Shan Gao, Xi Chen, Zhengkai Jiang, Jian Yang, Ying Tai,
- Abstract要約: 複雑なビジュアルテキスト生成(CVTG)は、視覚画像内の様々な領域に分散した複雑なテキストコンテンツを生成することに焦点を当てている。
InGでは、画像生成モデルはしばしば歪んだ、ぼやけたビジュアルテキストをレンダリングするか、あるいは視覚的なテキストを欠いている。
我々は,新しいマルチビジュアルテキストレンダリング手法であるTextCrafterを提案する。
- 参考スコア(独自算出の注目度): 30.947323186487885
- License:
- Abstract: This paper explores the task of Complex Visual Text Generation (CVTG), which centers on generating intricate textual content distributed across diverse regions within visual images. In CVTG, image generation models often rendering distorted and blurred visual text or missing some visual text. To tackle these challenges, we propose TextCrafter, a novel multi-visual text rendering method. TextCrafter employs a progressive strategy to decompose complex visual text into distinct components while ensuring robust alignment between textual content and its visual carrier. Additionally, it incorporates a token focus enhancement mechanism to amplify the prominence of visual text during the generation process. TextCrafter effectively addresses key challenges in CVTG tasks, such as text confusion, omissions, and blurriness. Moreover, we present a new benchmark dataset, CVTG-2K, tailored to rigorously evaluate the performance of generative models on CVTG tasks. Extensive experiments demonstrate that our method surpasses state-of-the-art approaches.
- Abstract(参考訳): 本稿では,視覚画像内の多様な領域に分散した複雑なテキストコンテンツを生成することを目的とした,複雑なビジュアルテキスト生成(CVTG)の課題について検討する。
CVTGでは、画像生成モデルはしばしば歪んだ、ぼやけた視覚テキストを描画したり、視覚テキストを欠いたりする。
これらの課題に対処するために,新しい多視点テキストレンダリング手法であるTextCrafterを提案する。
TextCrafterは、複雑なビジュアルテキストを別々のコンポーネントに分解し、テキストコンテンツとそのビジュアルキャリア間の堅牢なアライメントを保証する、プログレッシブな戦略を採用している。
さらに、生成プロセス中に視覚テキストの優位性を増幅するトークンフォーカス強化機構も組み込まれている。
TextCrafterは、テキストの混乱、省略、曖昧さといったCVTGタスクにおける重要な課題に効果的に対処する。
さらに,CVTGタスクにおける生成モデルの性能を厳格に評価するために,新しいベンチマークデータセットCVTG-2Kを提案する。
大規模な実験により,本手法が最先端の手法を超越していることが実証された。
関連論文リスト
- Text-Animator: Controllable Visual Text Video Generation [149.940821790235]
ビジュアルテキストビデオ生成のための革新的アプローチであるText-Animatorを提案する。
Text-Animatorには、生成されたビデオの視覚的テキスト構造を正確に描写するテキスト埋め込みインジェクションモジュールが含まれている。
また、生成した視覚テキストの安定性を向上させるために、カメラ制御モジュールとテキストリファインメントモジュールを開発する。
論文 参考訳(メタデータ) (2024-06-25T17:59:41Z) - Towards Improving Document Understanding: An Exploration on
Text-Grounding via MLLMs [96.54224331778195]
本稿では,画像中のテキストの空間的位置を識別し,MLLMを強化したテキストグラウンド文書理解モデルTGDocを提案する。
我々は,テキスト検出,認識,スポッティングなどの命令チューニングタスクを定式化し,視覚エンコーダと大言語モデルとの密接なアライメントを容易にする。
提案手法は,複数のテキストリッチベンチマークにまたがる最先端性能を実現し,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-11-22T06:46:37Z) - Story Visualization by Online Text Augmentation with Context Memory [64.86944645907771]
オンラインテキスト拡張による双方向トランスフォーマーフレームワークのための新しいメモリアーキテクチャを提案する。
提案手法は, FID, キャラクタF1, フレーム精度, BLEU-2/3, R精度など, 様々な指標において, 芸術の状態を著しく上回っている。
論文 参考訳(メタデータ) (2023-08-15T05:08:12Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - TextDiffuser: Diffusion Models as Text Painters [118.30923824681642]
我々は、背景に忠実な視覚的に魅力的なテキストで画像を生成することに焦点を当てたTextDiffuserを紹介した。
我々は,OCRアノテーションを用いた最初の大規模テキスト画像データセットであるMARIO-10Mに,1000万の画像テキストペアをコントリビュートする。
テキストプロンプトのみまたはテキストテンプレート画像と併用して高品質なテキスト画像を作成し,テキストによる不完全な画像の再構成を行う,テキストディフューザは柔軟かつ制御可能であることを示す。
論文 参考訳(メタデータ) (2023-05-18T10:16:19Z) - Aggregated Text Transformer for Scene Text Detection [5.387121933662753]
本稿では,シーン画像中のテキストをマルチスケールの自己認識機構で表現するアグリゲートテキストTRansformer(ATTR)を提案する。
マルチスケール画像表現は頑健であり、様々なサイズのテキストコンテンツに関する豊富な情報を含んでいる。
提案手法は,各テキストインスタンスを個々のバイナリマスクとして表現することで,シーンテキストを検出する。
論文 参考訳(メタデータ) (2022-11-25T09:47:34Z) - Scene Text Image Super-Resolution via Content Perceptual Loss and
Criss-Cross Transformer Blocks [48.81850740907517]
テキスト対応のテキスト・スーパー・リゾリューション・フレームワークであるTATSRについて述べる。
Criss-Cross Transformer Blocks (CCTBs) と新しい Content Perceptual (CP) Loss を用いて、ユニークなテキスト特性を効果的に学習する。
認識精度と人間の知覚の両方の観点から、最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-10-13T11:48:45Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。