論文の概要: Synthesizing Coherent Story with Auto-Regressive Latent Diffusion Models
- arxiv url: http://arxiv.org/abs/2211.10950v1
- Date: Sun, 20 Nov 2022 11:22:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 20:25:05.460592
- Title: Synthesizing Coherent Story with Auto-Regressive Latent Diffusion Models
- Title(参考訳): 自己回帰潜在拡散モデルによるコヒーレントストーリーの合成
- Authors: Xichen Pan, Pengda Qin, Yuhong Li, Hui Xue, Wenhu Chen
- Abstract要約: 本稿では,歴史キャプションや生成画像に自動条件付き遅延拡散モデルAR-LDMを提案する。
これは、コヒーレントなビジュアルストーリー合成のための拡散モデルの利用に成功している最初の作品である。
- 参考スコア(独自算出の注目度): 33.69732363040526
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Conditioned diffusion models have demonstrated state-of-the-art text-to-image
synthesis capacity. Recently, most works focus on synthesizing independent
images; While for real-world applications, it is common and necessary to
generate a series of coherent images for story-stelling. In this work, we
mainly focus on story visualization and continuation tasks and propose AR-LDM,
a latent diffusion model auto-regressively conditioned on history captions and
generated images. Moreover, AR-LDM can generalize to new characters through
adaptation. To our best knowledge, this is the first work successfully
leveraging diffusion models for coherent visual story synthesizing.
Quantitative results show that AR-LDM achieves SoTA FID scores on PororoSV,
FlintstonesSV, and the newly introduced challenging dataset VIST containing
natural images. Large-scale human evaluations show that AR-LDM has superior
performance in terms of quality, relevance, and consistency.
- Abstract(参考訳): 条件付き拡散モデルは、最先端のテキスト-画像合成能力を示している。
近年、ほとんどの作品は独立したイメージの合成に焦点を当てているが、現実のアプリケーションではストーリーステアリングのために一連のコヒーレントなイメージを生成するのが一般的で必要である。
本研究では,主に物語の可視化と継続作業に焦点をあて,歴史キャプションや生成した画像に自己回帰した潜在拡散モデルAR-LDMを提案する。
さらに、AR-LDMは適応によって新しい文字に一般化することができる。
私たちの知る限りでは、コヒーレントなビジュアルストーリー合成に拡散モデルをうまく活用した最初の作品です。
定量的な結果から,AR-LDM は PororoSV,FlintstonesSV,および自然画像を含む新たな挑戦データセット VIST の SoTA FID スコアを達成できた。
大規模評価では、AR-LDMは品質、妥当性、一貫性の点で優れた性能を示している。
関連論文リスト
- MultiDiff: Consistent Novel View Synthesis from a Single Image [60.04215655745264]
MultiDiffは、単一のRGB画像からシーンを一貫した新しいビュー合成のための新しいアプローチである。
以上の結果から,MultiDiffは,課題の多いリアルタイムデータセットであるRealEstate10KとScanNetにおいて,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-26T17:53:51Z) - DiffuVST: Narrating Fictional Scenes with Global-History-Guided
Denoising Models [6.668241588219693]
ビジュアルなストーリーテリングは、現実のイメージを超えてますます求められている。
一般的に自己回帰デコーダを使用する現在の技術は、推論速度が低く、合成シーンには適していない。
本稿では,一連の視覚的記述を単一条件記述プロセスとしてモデル化する拡散型システムDiffuVSTを提案する。
論文 参考訳(メタデータ) (2023-12-12T08:40:38Z) - Multi-View Unsupervised Image Generation with Cross Attention Guidance [23.07929124170851]
本稿では,単一カテゴリデータセット上でのポーズ条件拡散モデルの教師なし学習のための新しいパイプラインを提案する。
特定のオブジェクト部分の可視性と位置を比較することで、データセットをクラスタリングすることで、オブジェクトのポーズを識別する。
我々のモデルであるMIRAGEは、実画像における新しいビュー合成における先行研究を超越している。
論文 参考訳(メタデータ) (2023-12-07T14:55:13Z) - SODA: Bottleneck Diffusion Models for Representation Learning [75.7331354734152]
本稿では,表現学習のための自己教師付き拡散モデルSODAを紹介する。
このモデルには、ソースビューをコンパクトな表現に蒸留するイメージエンコーダが組み込まれており、関連する新規ビューの生成を導く。
エンコーダと復調復調復調復調復調復調復調復調復号器の密集ボトルネックを付与することにより,拡散モデルを強力な表現学習器に変換することができることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:53:34Z) - Improved Visual Story Generation with Adaptive Context Modeling [39.04249009170821]
本稿では,適応型コンテキストモデリングによる先行システムを改善するための簡易な手法を提案する。
我々は, PororoSV と FlintstonesSV のデータセットを用いたモデルの評価を行い,本手法が物語の可視化と継続シナリオの両面において最先端の FID スコアを達成することを示す。
論文 参考訳(メタデータ) (2023-05-26T10:43:42Z) - Motion-Conditioned Diffusion Model for Controllable Video Synthesis [75.367816656045]
本稿では,開始画像フレームと一組のストロークから映像を生成する条件拡散モデルであるMCDiffを紹介する。
MCDiffはストローク誘導制御可能なビデオ合成における最先端の視覚的品質を実現する。
論文 参考訳(メタデータ) (2023-04-27T17:59:32Z) - Consistent View Synthesis with Pose-Guided Diffusion Models [51.37925069307313]
単一の画像から新しいビューを合成することは、多くのバーチャルリアリティーアプリケーションにとって画期的な問題である。
本稿では,ポーズ誘導拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-03-30T17:59:22Z) - StoryDALL-E: Adapting Pretrained Text-to-Image Transformers for Story
Continuation [76.44802273236081]
生成したビジュアルストーリーをソースイメージに条件付けしたストーリー継続のためのモデルであるStoryDALL-Eを開発した。
提案手法は, ストーリー継続のためのGANモデルよりも優れており, 画像からの視覚要素のコピーを容易にする。
全体として、本研究は、事前訓練されたテキスト-画像合成モデルがストーリー継続のような複雑で低リソースなタスクに適応できることを実証している。
論文 参考訳(メタデータ) (2022-09-13T17:47:39Z) - DiVAE: Photorealistic Images Synthesis with Denoising Diffusion Decoder [73.1010640692609]
本稿では,拡散デコーダ(DiVAE)を用いたVQ-VAEアーキテクチャモデルを提案する。
我々のモデルは最先端の成果を達成し、さらに多くのフォトリアリスティックな画像を生成する。
論文 参考訳(メタデータ) (2022-06-01T10:39:12Z) - High-Resolution Image Synthesis with Latent Diffusion Models [14.786952412297808]
オートエンコーダ上での拡散モデルの訓練は、複雑性の低減と詳細保存の間のほぼ最適点に初めて到達することができる。
我々の潜伏拡散モデル(LDMs)は,様々なタスクにおける画像インペイントと高い競争性能の新たな技術を実現する。
論文 参考訳(メタデータ) (2021-12-20T18:55:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。