論文の概要: Boosting Consistency in Story Visualization with Rich-Contextual Conditional Diffusion Models
- arxiv url: http://arxiv.org/abs/2407.02482v2
- Date: Wed, 3 Jul 2024 18:17:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 12:21:54.742508
- Title: Boosting Consistency in Story Visualization with Rich-Contextual Conditional Diffusion Models
- Title(参考訳): リッチコンテクスト条件付き拡散モデルによるストーリービジュアライゼーションにおけるブースティング一貫性
- Authors: Fei Shen, Hu Ye, Sibo Liu, Jun Zhang, Cong Wang, Xiao Han, Wei Yang,
- Abstract要約: 本稿では,ストーリ生成のセマンティック一貫性と時間的一貫性を高めるために,リッチコンテキスト拡散モデル(RCDM)を提案する。
RCDMは、自動回帰モデルと比較して、1つの前方推論で一貫したストーリーを生成することができる。
- 参考スコア(独自算出の注目度): 12.907590808274358
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent research showcases the considerable potential of conditional diffusion models for generating consistent stories. However, current methods, which predominantly generate stories in an autoregressive and excessively caption-dependent manner, often underrate the contextual consistency and relevance of frames during sequential generation. To address this, we propose a novel Rich-contextual Conditional Diffusion Models (RCDMs), a two-stage approach designed to enhance story generation's semantic consistency and temporal consistency. Specifically, in the first stage, the frame-prior transformer diffusion model is presented to predict the frame semantic embedding of the unknown clip by aligning the semantic correlations between the captions and frames of the known clip. The second stage establishes a robust model with rich contextual conditions, including reference images of the known clip, the predicted frame semantic embedding of the unknown clip, and text embeddings of all captions. By jointly injecting these rich contextual conditions at the image and feature levels, RCDMs can generate semantic and temporal consistency stories. Moreover, RCDMs can generate consistent stories with a single forward inference compared to autoregressive models. Our qualitative and quantitative results demonstrate that our proposed RCDMs outperform in challenging scenarios. The code and model will be available at https://github.com/muzishen/RCDMs.
- Abstract(参考訳): 最近の研究では、一貫したストーリーを生成するための条件拡散モデルのかなりの可能性を示している。
しかし, 自己回帰的かつ過剰にキャプションに依存した方法で物語を主に生成する現在の手法は, 逐次生成時のフレームの文脈的一貫性と関連性を低くすることが多い。
そこで本研究では,ストーリ生成のセマンティック一貫性と時間的一貫性を高めるための2段階アプローチであるRich-Contextual Conditional Diffusion Models (RCDMs)を提案する。
具体的には、第1段階では、未知クリップのフレーム意味埋め込みを予測するために、既知のクリップのキャプションとフレーム間のセマンティック相関を整列させることにより、フレーム優先トランスフォーマー拡散モデルを提示する。
第2段階は、既知のクリップの参照画像、未知のクリップの予測フレームセマンティック埋め込み、すべてのキャプションのテキスト埋め込みを含む、リッチなコンテキスト条件を持つロバストモデルを確立する。
画像と特徴レベルでこれらのリッチなコンテキスト条件を共同で注入することで、RCDMは意味的および時間的一貫性のストーリーを生成することができる。
さらに、RCDMは自動回帰モデルと比較して、1つの前方推論で一貫したストーリーを生成することができる。
定性的かつ定量的な結果から,提案したRCDMは難易度の高いシナリオにおいて優れた性能を示した。
コードとモデルはhttps://github.com/muzishen/RCDMsで入手できる。
関連論文リスト
- Meta-DiffuB: A Contextualized Sequence-to-Sequence Text Diffusion Model with Meta-Exploration [53.63593099509471]
本稿では,既存のS2S-拡散モデルの限界を克服するために,スケジューラ・エクスロイタS2S-拡散パラダイムを提案する。
我々はメタ探索を用いて、各文の文脈化ノイズをスケジューリングするための追加スケジューラモデルを訓練する。
我々のエクスプローラーモデルであるS2S-拡散モデルでは、スケジューラモデルによってスケジュールされたノイズを利用して更新と生成を行う。
論文 参考訳(メタデータ) (2024-10-17T04:06:02Z) - NarrativeBridge: Enhancing Video Captioning with Causal-Temporal Narrative [19.79736018383692]
既存のビデオキャプションベンチマークとモデルは、因果的時間的物語のコヒーレントな表現を欠いている。
本研究では,(1)大規模言語モデルと少数ショットプロンプトを用いて生成された新しい因果的ナラティブ(CTN)キャプションベンチマークと,(2)原因と影響のダイナミクスを独立に捉えるための別個のエンコーダを備えた専用因果的ネットワーク(CEN)アーキテクチャからなるナラティブブリッジを提案する。
論文 参考訳(メタデータ) (2024-06-10T17:34:24Z) - StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation [117.13475564834458]
本稿では,一貫性自己注意という新たな自己注意計算手法を提案する。
提案手法を長距離ビデオ生成に拡張するために,新しい意味空間時間運動予測モジュールを導入する。
これら2つの新しいコンポーネントを統合することで、StoryDiffusionと呼ばれるフレームワークは、一貫した画像やビデオでテキストベースのストーリーを記述することができます。
論文 参考訳(メタデータ) (2024-05-02T16:25:16Z) - LaDiC: Are Diffusion Models Really Inferior to Autoregressive Counterparts for Image-to-Text Generation? [10.72249123249003]
我々は拡散モデルを再検討し、全体論的文脈モデリングと並列復号化の能力を強調した。
本稿では,分割BERTを用いた新しいアーキテクチャLaDiCを導入し,キャプション専用のラテント空間を創出する。
LaDiCは、38.2 BLEU@4と126.2 CIDErのMSデータセット上で拡散ベースのメソッドの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-04-16T17:47:16Z) - Contextualized Diffusion Models for Text-Guided Image and Video Generation [67.69171154637172]
条件拡散モデルは高忠実度テキスト誘導視覚生成および編集において優れた性能を示した。
本研究では,テキスト条件と視覚的サンプル間の相互作用とアライメントを包含するクロスモーダルコンテキストを組み込むことにより,コンテキスト拡散モデル(ContextDiff)を提案する。
理論的導出を伴うDDPMとDDIMの両方にモデルを一般化し、テキスト・ツー・イメージ生成とテキスト・ツー・ビデオ編集という2つの課題を伴う評価において、モデルの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-26T15:01:16Z) - Causal-Story: Local Causal Attention Utilizing Parameter-Efficient
Tuning For Visual Story Synthesis [12.766712398098646]
本稿では,従来のキャプション,フレーム,現在のキャプションの因果関係を考察したCausal-Storyを提案する。
我々はPororoSVとFlintstonesSVのデータセットでモデルを評価し、最先端のFIDスコアを得た。
論文 参考訳(メタデータ) (2023-09-18T08:06:06Z) - RealignDiff: Boosting Text-to-Image Diffusion Model with Coarse-to-fine Semantic Re-alignment [112.45442468794658]
本稿では,RealignDiffという2段階の粗大なセマンティックアライメント手法を提案する。
粗いセマンティックリアライメントフェーズにおいて、生成された画像キャプションと与えられたテキストプロンプトとのセマンティックな相違を評価するために、新しいキャプション報酬を提案する。
微妙なセマンティックリアライメントステージは、局所的な密集キャプション生成モジュールと再重み付けアテンション変調モジュールを用いて、局所的なセマンティックビューから生成された画像を洗練する。
論文 参考訳(メタデータ) (2023-05-31T06:59:21Z) - Make-A-Story: Visual Memory Conditioned Consistent Story Generation [57.691064030235985]
本稿では,アクタと背景コンテキストを暗黙的にキャプチャするビジュアルメモリモジュールを備えた,自己回帰拡散に基づく新しいフレームワークを提案する。
本手法は,視覚的品質の高いフレーム生成において,先行技術よりも優れていた。
MUGEN, PororoSV, FlintstonesSVデータセット上でのストーリー生成実験により, この手法は, 視覚的品質の高いフレーム生成において, 先行技術よりも優れるだけでなく, キャラクタと背景との適切な対応をモデル化した。
論文 参考訳(メタデータ) (2022-11-23T21:38:51Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。