論文の概要: StorySync: Training-Free Subject Consistency in Text-to-Image Generation via Region Harmonization
- arxiv url: http://arxiv.org/abs/2508.03735v1
- Date: Thu, 31 Jul 2025 11:24:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.346976
- Title: StorySync: Training-Free Subject Consistency in Text-to-Image Generation via Region Harmonization
- Title(参考訳): ストーリーシンク:地域調和によるテキスト・画像生成における学習自由主題の一貫性
- Authors: Gopalji Gaur, Mohammadreza Zolfaghari, Thomas Brox,
- Abstract要約: 既存のアプローチは、通常、微調整または再訓練モデルに依存し、計算コストが高く、時間がかかり、しばしば既存のモデルの能力に干渉する。
本稿では,効率的な一貫したオブジェクト生成法を提案する。
実験により,様々なシナリオにまたがって,視覚的に一貫した被写体を生成することができた。
- 参考スコア(独自算出の注目度): 31.250596607318364
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating a coherent sequence of images that tells a visual story, using text-to-image diffusion models, often faces the critical challenge of maintaining subject consistency across all story scenes. Existing approaches, which typically rely on fine-tuning or retraining models, are computationally expensive, time-consuming, and often interfere with the model's pre-existing capabilities. In this paper, we follow a training-free approach and propose an efficient consistent-subject-generation method. This approach works seamlessly with pre-trained diffusion models by introducing masked cross-image attention sharing to dynamically align subject features across a batch of images, and Regional Feature Harmonization to refine visually similar details for improved subject consistency. Experimental results demonstrate that our approach successfully generates visually consistent subjects across a variety of scenarios while maintaining the creative abilities of the diffusion model.
- Abstract(参考訳): テキストから画像への拡散モデルを用いて、視覚的なストーリーを伝えるコヒーレントな画像列を生成することは、すべてのストーリーシーンにおける主観的一貫性を維持するという重要な課題に直面している。
既存のアプローチは、通常、微調整または再訓練モデルに依存し、計算コストが高く、時間がかかり、しばしば既存のモデルの能力に干渉する。
本稿では,トレーニング不要な手法を踏襲し,効率的な一貫したオブジェクト生成法を提案する。
本手法は,被写体特徴を一括して動的にアライメントするマスク付きクロスイメージアテンション共有と,被写体整合性を改善するために視覚的に類似した詳細を洗練するための地域特徴調和を導入することで,事前学習した拡散モデルとシームレスに機能する。
実験により,拡散モデルの創造的能力を維持しつつ,様々なシナリオで視覚的に一貫した主題を生成できることが実証された。
関連論文リスト
- WAVE: Warp-Based View Guidance for Consistent Novel View Synthesis Using a Single Image [3.4248731707266264]
本稿では,モジュールを追加せずに拡散モデルを利用するビュー一貫性画像生成手法を提案する。
我々のキーとなる考え方は、適応的な注意操作と雑音の再生を可能にする訓練不要な手法で拡散モデルを強化することである。
本手法は,様々な拡散モデル間での視界の整合性を向上し,その適用性を示す。
論文 参考訳(メタデータ) (2025-06-30T05:00:47Z) - Consistent Story Generation with Asymmetry Zigzag Sampling [24.504304503689866]
非対称なプロンプトとビジュアルシェアリングを備えたZigzag Smplingと呼ばれる新しいトレーニング不要サンプリング戦略を導入する。
提案手法は、非対称なプロンプト間の交互に対象特性を保持するジグザグサンプリング機構を提案する。
本手法は,コヒーレントで一貫した視覚的ストーリーの生成において,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2025-06-11T11:14:27Z) - Muddit: Liberating Generation Beyond Text-to-Image with a Unified Discrete Diffusion Model [87.23753533733046]
テキストと画像の両モードをまたいで高速かつ並列に生成できる,統一的な離散拡散変換器であるMudditを導入する。
Mudditは、スクラッチからトレーニングされた以前の統一拡散モデルとは異なり、トレーニング済みのテキストからイメージまでのバックボーンから、強力な視覚的事前情報を軽量のテキストデコーダに統合する。
論文 参考訳(メタデータ) (2025-05-29T16:15:48Z) - Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models [65.82564074712836]
テキストと画像の拡散モデルに光を流す新しいHOI検出器であるDIFfusionHOIを紹介する。
まず、埋め込み空間における人間と物体の関係パターンの表現をインバージョンベースで学習する戦略を考案する。
これらの学習された関係埋め込みはテキストのプロンプトとして機能し、スタイア拡散モデルが特定の相互作用を記述する画像を生成する。
論文 参考訳(メタデータ) (2024-10-26T12:00:33Z) - Enhancing Semantic Fidelity in Text-to-Image Synthesis: Attention
Regulation in Diffusion Models [23.786473791344395]
拡散モデルにおけるクロスアテンション層は、生成プロセス中に特定のトークンに不均等に集中する傾向がある。
本研究では,アテンションマップと入力テキストプロンプトを一致させるために,アテンション・レギュレーション(アテンション・レギュレーション)という,オン・ザ・フライの最適化手法を導入する。
実験結果から,本手法が他のベースラインより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-03-11T02:18:27Z) - ViewFusion: Towards Multi-View Consistency via Interpolated Denoising [48.02829400913904]
既存のトレーニング済み拡散モデルにシームレスに統合可能なトレーニングフリーアルゴリズムであるViewFusionを導入する。
提案手法では,事前生成したビューを,次のビュー生成のコンテキストとして暗黙的に活用する自動回帰手法を採用する。
我々のフレームワークは、追加の微調整なしで複数ビュー条件設定で機能するように、単一ビュー条件付きモデルをうまく拡張しました。
論文 参考訳(メタデータ) (2024-02-29T04:21:38Z) - Training-Free Consistent Text-to-Image Generation [80.4814768762066]
テキスト・ツー・イメージ・モデルは様々なプロンプトで同じ主題を表現できる。
既存のアプローチは、特定のユーザが提供する主題を記述する新しい単語を教えるためにモデルを微調整する。
本研究では、事前学習モデルの内部アクティベーションを共有することによって、一貫した主題生成を可能にする、トレーニング不要なアプローチであるConsiStoryを提案する。
論文 参考訳(メタデータ) (2024-02-05T18:42:34Z) - Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image
Diffusion Models [103.61066310897928]
最近のテキスト・ツー・イメージ生成モデルは、ターゲットのテキスト・プロンプトによって導かれる多様な創造的な画像を生成する非例外的な能力を実証している。
革命的ではあるが、現在の最先端拡散モデルは、与えられたテキストプロンプトのセマンティクスを完全に伝達するイメージの生成に失敗する可能性がある。
本研究では, 一般に公開されている安定拡散モデルを分析し, 破滅的無視の有無を評価し, そのモデルが入力プロンプトから1つ以上の被写体を生成するのに失敗した場合について検討する。
提案するジェネレーティブ・セマンティック・ナーシング(GSN)の概念は、推論時間中にハエの生殖過程に介入し、忠実性を改善するものである。
論文 参考訳(メタデータ) (2023-01-31T18:10:38Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。