論文の概要: Consistent Story Generation with Asymmetry Zigzag Sampling
- arxiv url: http://arxiv.org/abs/2506.09612v1
- Date: Wed, 11 Jun 2025 11:14:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.876566
- Title: Consistent Story Generation with Asymmetry Zigzag Sampling
- Title(参考訳): 非対称性ジグザグサンプリングによる一貫したストーリー生成
- Authors: Mingxiao LI, mang ning, Marie-Francine Moens,
- Abstract要約: 非対称なプロンプトとビジュアルシェアリングを備えたZigzag Smplingと呼ばれる新しいトレーニング不要サンプリング戦略を導入する。
提案手法は、非対称なプロンプト間の交互に対象特性を保持するジグザグサンプリング機構を提案する。
本手法は,コヒーレントで一貫した視覚的ストーリーの生成において,従来の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 24.504304503689866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image generation models have made significant progress in producing high-quality images from textual descriptions, yet they continue to struggle with maintaining subject consistency across multiple images, a fundamental requirement for visual storytelling. Existing methods attempt to address this by either fine-tuning models on large-scale story visualization datasets, which is resource-intensive, or by using training-free techniques that share information across generations, which still yield limited success. In this paper, we introduce a novel training-free sampling strategy called Zigzag Sampling with Asymmetric Prompts and Visual Sharing to enhance subject consistency in visual story generation. Our approach proposes a zigzag sampling mechanism that alternates between asymmetric prompting to retain subject characteristics, while a visual sharing module transfers visual cues across generated images to %further enforce consistency. Experimental results, based on both quantitative metrics and qualitative evaluations, demonstrate that our method significantly outperforms previous approaches in generating coherent and consistent visual stories. The code is available at https://github.com/Mingxiao-Li/Asymmetry-Zigzag-StoryDiffusion.
- Abstract(参考訳): テキスト・ツー・イメージ生成モデルは、テキスト記述から高品質な画像を生成する上で大きな進歩を遂げてきたが、視覚的なストーリーテリングの基本的な要件である複数の画像にわたる主観的一貫性の維持に苦慮し続けている。
既存の手法では、リソース集約型の大規模ストーリ視覚化データセットの微調整モデルや、世代間で情報を共有するトレーニング不要のテクニックを使用することによって、この問題に対処しようとしている。
本稿では,非対称プロンプトとビジュアルシェアリングを併用したZigzag Smplingと呼ばれる新しいトレーニング不要サンプリング手法を導入し,ビジュアルストーリー生成における主観的一貫性を高める。
提案手法では,非対称なプロンプトと主観的特性の交換を行うジグザグサンプリング機構を提案する。
定量的評価と定性評価の両方に基づく実験結果から,コヒーレントで一貫したビジュアルストーリーの生成において,従来の手法よりも有意に優れていたことを示す。
コードはhttps://github.com/Mingxiao-Li/Asymmetric-Zigzag-StoryDiffusionで公開されている。
関連論文リスト
- Unified Autoregressive Visual Generation and Understanding with Continuous Tokens [52.21981295470491]
We present UniFluid, a unified autoregressive framework for joint visual generation and understanding。
我々の統合自己回帰アーキテクチャはマルチモーダル画像とテキスト入力を処理し、テキストの離散トークンと画像の連続トークンを生成する。
画像生成と理解タスクの間には本質的にトレードオフがあることに気付きましたが、注意深く調整されたトレーニングレシピによって互いに改善できるようになりました。
論文 参考訳(メタデータ) (2025-03-17T17:58:30Z) - ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。
本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文 参考訳(メタデータ) (2024-08-10T08:53:41Z) - Kaleido Diffusion: Improving Conditional Diffusion Models with Autoregressive Latent Modeling [49.41822427811098]
本稿では, 自己回帰性潜伏前駆体を組み込むことにより, サンプルの多様性を高める新しいアプローチであるKaleidoを紹介する。
Kaleidoは、オリジナルのキャプションをエンコードして潜伏変数を生成する自動回帰言語モデルを統合する。
そこで我々は,Kaleidoが生成した潜在変数のガイダンスに忠実に従属していることを示し,画像生成過程を効果的に制御し,指示する能力を示す。
論文 参考訳(メタデータ) (2024-05-31T17:41:11Z) - OneActor: Consistent Character Generation via Cluster-Conditioned Guidance [29.426558840522734]
我々はOneActorと呼ばれる新しいワンショットチューニングパラダイムを提案する。
プロンプトのみによって駆動される一貫した主題生成を効率よく行う。
提案手法は多目的生成が可能であり, 一般的な拡散拡張と互換性がある。
論文 参考訳(メタデータ) (2024-04-16T03:45:45Z) - Masked Generative Story Transformer with Character Guidance and Caption
Augmentation [2.1392064955842023]
ストーリービジュアライゼーションは、生成した画像シーケンス内の異なるフレーム間の視覚的品質と一貫性の両方を必要とする、難しい生成的視覚タスクである。
以前のアプローチでは、イメージシーケンスの自動回帰生成を通してコンテキストを維持するために何らかのメモリメカニズムを使用していたり、文字とその背景の生成を別々にモデル化したりしていた。
我々は,過去と将来のキャプションとのクロスアテンションに頼って整合性を実現する,完全に並列なトランスフォーマーベースのアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-13T13:10:20Z) - StoryDALL-E: Adapting Pretrained Text-to-Image Transformers for Story
Continuation [76.44802273236081]
生成したビジュアルストーリーをソースイメージに条件付けしたストーリー継続のためのモデルであるStoryDALL-Eを開発した。
提案手法は, ストーリー継続のためのGANモデルよりも優れており, 画像からの視覚要素のコピーを容易にする。
全体として、本研究は、事前訓練されたテキスト-画像合成モデルがストーリー継続のような複雑で低リソースなタスクに適応できることを実証している。
論文 参考訳(メタデータ) (2022-09-13T17:47:39Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。