論文の概要: Beyond Words: Advancing Long-Text Image Generation via Multimodal Autoregressive Models
- arxiv url: http://arxiv.org/abs/2503.20198v1
- Date: Wed, 26 Mar 2025 03:44:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:20:38.750000
- Title: Beyond Words: Advancing Long-Text Image Generation via Multimodal Autoregressive Models
- Title(参考訳): 単語を超えて:マルチモーダル自己回帰モデルによる長文画像生成の促進
- Authors: Alex Jinpeng Wang, Linjie Li, Zhengyuan Yang, Lijuan Wang, Min Li,
- Abstract要約: スライドや文書の段落などの画像中の長文は、現在の生成モデルにとって大きな課題である。
詳細なシーンテキストの特徴をキャプチャするために最適化された新しいテキスト中心のバイナリトークンーを導入します。
モデルNameは,高画質の長文画像を前例のない忠実度で生成するマルチモーダル自己回帰モデルである。
- 参考スコア(独自算出の注目度): 76.68654868991517
- License:
- Abstract: Recent advancements in autoregressive and diffusion models have led to strong performance in image generation with short scene text words. However, generating coherent, long-form text in images, such as paragraphs in slides or documents, remains a major challenge for current generative models. We present the first work specifically focused on long text image generation, addressing a critical gap in existing text-to-image systems that typically handle only brief phrases or single sentences. Through comprehensive analysis of state-of-the-art autoregressive generation models, we identify the image tokenizer as a critical bottleneck in text generating quality. To address this, we introduce a novel text-focused, binary tokenizer optimized for capturing detailed scene text features. Leveraging our tokenizer, we develop \ModelName, a multimodal autoregressive model that excels in generating high-quality long-text images with unprecedented fidelity. Our model offers robust controllability, enabling customization of text properties such as font style, size, color, and alignment. Extensive experiments demonstrate that \ModelName~significantly outperforms SD3.5 Large~\cite{sd3} and GPT4o~\cite{gpt4o} with DALL-E 3~\cite{dalle3} in generating long text accurately, consistently, and flexibly. Beyond its technical achievements, \ModelName~opens up exciting opportunities for innovative applications like interleaved document and PowerPoint generation, establishing a new frontier in long-text image generating.
- Abstract(参考訳): 近年の自己回帰モデルと拡散モデルの進歩は、短いシーンテキストによる画像生成において、強いパフォーマンスをもたらしている。
しかし、スライドや文書の段落などの画像に一貫性のある長文を生成することは、現在の生成モデルにとって大きな課題である。
本稿では,長文画像生成に特化して焦点をあてた最初の研究について,通常,短いフレーズや単一文のみを扱う既存のテキスト間画像システムにおいて,重要なギャップに対処する。
現状の自己回帰生成モデルの包括的解析を通じて、画像トークン化装置をテキスト生成品質の重要なボトルネックとして認識する。
そこで本研究では,詳細なシーンテキストの特徴を捉えるために最適化された,テキスト中心のバイナリトークン機構を提案する。
トークンライザを活用することで、前代未聞の忠実さで高品質な長文画像を生成するマルチモーダル自己回帰モデルである \ModelName を開発する。
我々のモデルは堅牢な制御性を提供し、フォントスタイル、サイズ、色、アライメントなどのテキストプロパティのカスタマイズを可能にします。
大規模な実験では、SD3.5 Large~\cite{sd3} と GPT4o~\cite{gpt4o} を DALL-E 3~\cite{dalle3} で正確に、一貫して、柔軟に生成する。
技術的な成果に加えて、 \ModelName~はインターリーブドドキュメントやPowerPoint生成といった革新的なアプリケーションにエキサイティングな機会を与え、長文画像生成の新たなフロンティアを確立します。
関連論文リスト
- Visual Text Generation in the Wild [67.37458807253064]
野生で高品質なテキスト画像を生成する視覚テキスト生成装置(SceneVTG)を提案する。
提案したSceneVTGは、従来のレンダリングに基づく手法と最近の拡散に基づく手法を、忠実さと理性の観点から大きく上回っている。
生成された画像は、テキスト検出とテキスト認識を含むタスクに優れたユーティリティを提供する。
論文 参考訳(メタデータ) (2024-07-19T09:08:20Z) - ARTIST: Improving the Generation of Text-rich Images with Disentangled Diffusion Models and Large Language Models [52.23899502520261]
本稿では,テキスト構造の学習に特化するために,専用のテキスト拡散モデルを組み込んだARTISTという新しいフレームワークを紹介する。
我々は、事前訓練されたテキスト構造モデルからテキスト構造情報を同化できるように、視覚拡散モデルを微調整する。
この歪んだアーキテクチャ設計とトレーニング戦略は、テキストリッチな画像生成のための拡散モデルのテキストレンダリング能力を著しく向上させる。
論文 参考訳(メタデータ) (2024-06-17T19:31:24Z) - CustomText: Customized Textual Image Generation using Diffusion Models [13.239661107392324]
テキスト画像生成は、広告、教育、製品パッケージング、ソーシャルメディア、情報視覚化、ブランディングといった様々な分野にまたがる。
拡散モデルを用いた言語誘導画像合成における最近の進歩にもかかわらず、現在のモデルは画像生成に優れ、正確なテキストレンダリングに苦慮し、フォント属性の限定的な制御を提供する。
本稿では,高精度なテキストカスタマイズによる高品質な画像合成の実現を目標とし,画像生成モデルの進歩に寄与する。
論文 参考訳(メタデータ) (2024-05-21T06:43:03Z) - Paragraph-to-Image Generation with Information-Enriched Diffusion Model [67.9265336953134]
パラディフュージョン(英: ParaDiffusion)は、パラディフュージョンモデルである。
これは、大きな言語モデルの広範囲な意味理解能力を画像生成のタスクに移すことを念頭に置いている。
コードとデータセットは、長文アライメントに関するコミュニティの研究を促進するためにリリースされます。
論文 参考訳(メタデータ) (2023-11-24T05:17:01Z) - GlyphDiffusion: Text Generation as Image Generation [100.98428068214736]
テキスト誘導画像生成によるテキスト生成のための新しい拡散手法であるGlyphDiffusionを提案する。
私たちのキーとなるアイデアは、ターゲットのテキストを視覚言語コンテンツを含むグリフイメージとしてレンダリングすることです。
また,本モデルでは,近年の拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-04-25T02:14:44Z) - GlyphDraw: Seamlessly Rendering Text with Intricate Spatial Structures
in Text-to-Image Generation [18.396131717250793]
GlyphDrawは、画像生成モデルに特定の言語に対して、テキストにコヒーレントに埋め込まれた画像を生成する能力を持たせることを目的とした、一般的な学習フレームワークである。
提案手法は,プロンプトのように正確な言語文字を生成するだけでなく,生成したテキストを背景にシームレスにブレンドする。
論文 参考訳(メタデータ) (2023-03-31T08:06:33Z) - Zero-shot Generation of Coherent Storybook from Plain Text Story using
Diffusion Models [43.32978092618245]
本稿では,ストーリーの平文からコヒーレントなストーリーブックを生成するためのニューラルパイプラインを提案する。
我々は,事前学習された大規模言語モデルとテキスト誘導型潜在拡散モデルを組み合わせて,コヒーレントな画像を生成する。
論文 参考訳(メタデータ) (2023-02-08T06:24:06Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。