論文の概要: Infinite-Story: A Training-Free Consistent Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2511.13002v1
- Date: Mon, 17 Nov 2025 05:46:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.700092
- Title: Infinite-Story: A Training-Free Consistent Text-to-Image Generation
- Title(参考訳): Infinite-Story: トレーニング不要の一貫性のあるテキスト・ツー・イメージ生成
- Authors: Jihun Park, Kyoungmin Lee, Jongmin Gim, Hyeonseo Jo, Minseok Oh, Wonhyeok Choi, Kyumin Hwang, Jaeyeul Kim, Minwoo Choi, Sunghoon Im,
- Abstract要約: Infinite-Storyは、一貫したテキスト・ツー・イメージ(T2I)生成のためのトレーニング不要のフレームワークである。
本手法は, 整合性T2I生成における2つの重要な課題, 同一性不整合とスタイル不整合に対処する。
提案手法は,既存の高速なT2Iモデルよりも6倍高速な推論(画像1枚あたり1.72秒)を提供するとともに,最先端の生成性能を実現する。
- 参考スコア(独自算出の注目度): 21.872330710303036
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Infinite-Story, a training-free framework for consistent text-to-image (T2I) generation tailored for multi-prompt storytelling scenarios. Built upon a scale-wise autoregressive model, our method addresses two key challenges in consistent T2I generation: identity inconsistency and style inconsistency. To overcome these issues, we introduce three complementary techniques: Identity Prompt Replacement, which mitigates context bias in text encoders to align identity attributes across prompts; and a unified attention guidance mechanism comprising Adaptive Style Injection and Synchronized Guidance Adaptation, which jointly enforce global style and identity appearance consistency while preserving prompt fidelity. Unlike prior diffusion-based approaches that require fine-tuning or suffer from slow inference, Infinite-Story operates entirely at test time, delivering high identity and style consistency across diverse prompts. Extensive experiments demonstrate that our method achieves state-of-the-art generation performance, while offering over 6X faster inference (1.72 seconds per image) than the existing fastest consistent T2I models, highlighting its effectiveness and practicality for real-world visual storytelling.
- Abstract(参考訳): Infinite-Storyは、マルチプロンプトストーリーテリングシナリオに適した、一貫したテキスト・ツー・イメージ(T2I)生成のためのトレーニングフリーフレームワークである。
我々の手法はスケールワイド自己回帰モデルに基づいており、一貫性のあるT2I生成における2つの重要な課題、すなわちアイデンティティの不整合とスタイルの不整合に対処する。
これらの問題を解決するために、テキストエンコーダにおけるコンテキストバイアスを緩和し、プロンプト間でアイデンティティ属性を整列させるアイデンティティ・プロンプト・リプレースメント(Identity Prompt Replacement)と、アダプティブ・スタイル・インジェクション(Adaptive Style Injection)とシンクロナイズド・ガイダンス・アダプテーション(Synchronized Guidance Adaptation)を組み合わせた統一的な注意誘導機構(Identity Adaptation)を導入する。
微調整や推論の遅い従来の拡散ベースのアプローチとは異なり、Infinite-Storyはテスト時に完全に動作し、多様なプロンプトに高いアイデンティティとスタイルの一貫性を提供する。
大規模な実験により,本手法は既存の最速のT2Iモデルよりも6倍高速な推論(画像1枚当たり1.72秒)を提供し,実世界のビジュアルストーリーテリングの有効性と実用性を強調した。
関連論文リスト
- Subject-Consistent and Pose-Diverse Text-to-Image Generation [36.67159307721023]
本稿では,CoDi と呼ばれる主観的かつポーズ的T2I フレームワークを提案する。
多様なポーズとレイアウトで一貫した主題生成を可能にする。
CoDiは、すべてのメトリクスに対して、より優れた視覚的知覚とより強力なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-07-11T08:15:56Z) - One-Prompt-One-Story: Free-Lunch Consistent Text-to-Image Generation Using a Single Prompt [101.17660804110409]
テキスト画像生成モデルは、入力プロンプトから高品質な画像を生成することができる。
彼らはストーリーテリングのアイデンティティ保存要件の一貫性のある生成をサポートするのに苦労している。
本稿では,一貫したテキスト・画像生成のための新しいトレーニングフリー手法を提案する。
論文 参考訳(メタデータ) (2025-01-23T10:57:22Z) - Fusion is all you need: Face Fusion for Customized Identity-Preserving Image Synthesis [7.099258248662009]
テキスト・ツー・イメージ(T2I)モデルは人工知能の開発を著しく進歩させてきた。
しかし、既存のT2Iベースの手法は、参照画像から個人を正確に再現するのに苦労することが多い。
我々は、安定拡散から得られた事前学習されたUNetを利用して、対象の顔画像を直接生成プロセスに組み込む。
論文 参考訳(メタデータ) (2024-09-27T19:31:04Z) - ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning [57.91881829308395]
AIポートレートや広告といった幅広いアプリケーションシナリオのために、ID-T2I(ID-preserving text-to-image generation)が注目されている。
我々は,ID-T2I性能を向上させるための一般的なフィードバック学習フレームワークである textbfID-Aligner を提案する。
論文 参考訳(メタデータ) (2024-04-23T18:41:56Z) - Style Aligned Image Generation via Shared Attention [61.121465570763085]
本稿では,一連の生成画像間のスタイルアライメントを確立する技術であるStyleAlignedを紹介する。
拡散過程において、最小限の注意共有を生かして、T2Iモデル内の画像間のスタイル整合性を維持する。
本手法は,多種多様なスタイルやテキストのプロンプトにまたがって評価を行い,高品質で忠実であることを示す。
論文 参考訳(メタデータ) (2023-12-04T18:55:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。