論文の概要: Autoregressive Styled Text Image Generation, but Make it Reliable
- arxiv url: http://arxiv.org/abs/2510.23240v1
- Date: Mon, 27 Oct 2025 11:54:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.537603
- Title: Autoregressive Styled Text Image Generation, but Make it Reliable
- Title(参考訳): 自動回帰スタイルのテキスト画像生成は信頼性が高い
- Authors: Carmine Zaccagnino, Fabio Quattrini, Vittorio Pippi, Silvia Cascianelli, Alessio Tonioni, Rita Cucchiara,
- Abstract要約: 本研究は,最近提案されたHTGの自己回帰トランスフォーマーパラダイムによって達成された,スタイルの忠実さと一般化の両面で有望な成果を生かし,その特性を再現する戦略開発に焦点をあてる。
本研究では,HTGをマルチモーダルなプロンプト条件付き生成タスクとしてフレーミングすることで自己回帰を再考し,視覚との整合性を高めるために特別な入力トークンを導入することで,コンテンツ制御可能性の問題に対処する。
- 参考スコア(独自算出の注目度): 51.09340470015673
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating faithful and readable styled text images (especially for Styled Handwritten Text generation - HTG) is an open problem with several possible applications across graphic design, document understanding, and image editing. A lot of research effort in this task is dedicated to developing strategies that reproduce the stylistic characteristics of a given writer, with promising results in terms of style fidelity and generalization achieved by the recently proposed Autoregressive Transformer paradigm for HTG. However, this method requires additional inputs, lacks a proper stop mechanism, and might end up in repetition loops, generating visual artifacts. In this work, we rethink the autoregressive formulation by framing HTG as a multimodal prompt-conditioned generation task, and tackle the content controllability issues by introducing special textual input tokens for better alignment with the visual ones. Moreover, we devise a Classifier-Free-Guidance-based strategy for our autoregressive model. Through extensive experimental validation, we demonstrate that our approach, dubbed Eruku, compared to previous solutions requires fewer inputs, generalizes better to unseen styles, and follows more faithfully the textual prompt, improving content adherence.
- Abstract(参考訳): 忠実で読みやすいスタイルのテキストイメージを生成すること(特にスタイル付き手書きテキスト生成 - HTG)は、グラフィックデザイン、文書理解、画像編集にまたがるいくつかの可能なアプリケーションにおいて、オープンな問題である。
この課題における多くの研究課題は、HTGのための最近提案されたAutoregressive Transformerパラダイムによって達成されたスタイルの忠実さと一般化の観点から、ある著者のスタイル特性を再現する戦略の開発に費やされている。
しかし、この方法は追加の入力を必要とし、適切な停止機構がなく、繰り返しループに陥り、視覚的なアーティファクトを生成する。
本研究では,HTGをマルチモーダルなプロンプト条件付き生成タスクとしてフレーミングすることで自己回帰的定式化を再考し,視覚的操作との整合性を高めるために特別なテキスト入力トークンを導入することで,コンテンツ制御可能性の問題に取り組む。
さらに,自己回帰モデルのための分類自由誘導型戦略を考案する。
広範に実験的に検証した結果,従来のソリューションに比べて入力が少なかったこと,見当たらないスタイルを一般化すること,テキストのプロンプトをより忠実に追従し,内容の順応性を向上させること,などが証明された。
関連論文リスト
- Qwen-Image Technical Report [86.46471547116158]
Qwen-Imageは複雑なテキストのレンダリングと正確な画像編集において大きな進歩を遂げた画像生成基盤モデルである。
我々は、大規模なデータ収集、フィルタリング、アノテーション、合成、バランスを含む包括的なデータパイプラインを設計する。
Qwen-Imageは、英語のようなアルファベットの言語で非常によく機能し、中国語のようなより挑戦的なログラフ言語でも顕著な進歩を遂げている。
論文 参考訳(メタデータ) (2025-08-04T11:49:20Z) - Beyond Words: Advancing Long-Text Image Generation via Multimodal Autoregressive Models [76.68654868991517]
スライドや文書の段落などの画像中の長文は、現在の生成モデルにとって大きな課題である。
詳細なシーンテキストの特徴をキャプチャするために最適化された新しいテキスト中心のバイナリトークンーを導入します。
モデルNameは,高画質の長文画像を前例のない忠実度で生成するマルチモーダル自己回帰モデルである。
論文 参考訳(メタデータ) (2025-03-26T03:44:25Z) - Zero-Shot Styled Text Image Generation, but Make It Autoregressive [34.09957000751439]
スタイル付き手書きテキスト生成(HTG)は近年,コンピュータビジョンや文書分析コミュニティから注目を集めている。
Emuruと呼ばれるテキスト画像生成のための新しいフレームワークを提案する。
提案手法は,自動回帰変換器と組み合わせた強力なテキスト画像表現モデル(変分オートエンコーダ)を利用する。
論文 参考訳(メタデータ) (2025-03-21T11:56:20Z) - IP-Prompter: Training-Free Theme-Specific Image Generation via Dynamic Visual Prompting [71.29100512700064]
IP-Prompterは、新しいトレーニング不要なTSI生成方法である。
参照イメージを生成モデルに統合することで、ユーザはシームレスに対象テーマを指定することができる。
提案手法は,一貫したストーリー生成,キャラクターデザイン,リアルなキャラクタ生成,スタイル誘導画像生成など,多様な応用を可能にする。
論文 参考訳(メタデータ) (2025-01-26T19:01:19Z) - Towards Visual Text Design Transfer Across Languages [49.78504488452978]
マルチモーダル・スタイル翻訳(MuST-Bench)の新たな課題について紹介する。
MuST-Benchは、視覚テキスト生成モデルが様々な書き込みシステム間で翻訳を行う能力を評価するために設計されたベンチマークである。
そこで我々は,スタイル記述の必要性を解消する多モーダルなスタイル翻訳フレームワークであるSIGILを紹介した。
論文 参考訳(メタデータ) (2024-10-24T15:15:01Z) - Visual Style Prompting with Swapping Self-Attention [26.511518230332758]
本稿では,特定のスタイル要素やニュアンスを維持しつつ,多様な画像を生成する新しい手法を提案する。
denoisingプロセスの間は、クエリを元の機能から保持し、キーと値を、後期の自己アテンション層にある参照機能と交換します。
提案手法は既存のアプローチよりも優れており,参照のスタイルを最もよく反映し,得られた画像がテキストのプロンプトに最も正確に一致することを保証する。
論文 参考訳(メタデータ) (2024-02-20T12:51:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。