論文の概要: Intelligent Grimm -- Open-ended Visual Storytelling via Latent Diffusion
Models
- arxiv url: http://arxiv.org/abs/2306.00973v1
- Date: Thu, 1 Jun 2023 17:58:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 13:49:42.994804
- Title: Intelligent Grimm -- Open-ended Visual Storytelling via Latent Diffusion
Models
- Title(参考訳): Intelligent Grimm - 潜伏拡散モデルによるオープンエンドビジュアルストーリーテリング
- Authors: Chang Liu, Haoning Wu, Yujie Zhong, Xiaoyun Zhang, Weidi Xie
- Abstract要約: 我々は,オープンエンドなビジュアルストーリーテリングと表現された,与えられたストーリーラインに基づいて一連の一貫性のある画像列を生成するタスクに焦点をあてる。
本研究では,テキストプロンプトと先行フレームの両方を条件にすることで,現在のフレームを生成することができる自動回帰画像生成装置であるStoryGenを構築した。
ビデオや電子書籍など,さまざまなオンラインソースをソーシングして,ペア画像とテキストのサンプルを収集し,StorySalonという,多様なデータセットを構築するためのデータ処理パイプラインを構築した。
- 参考スコア(独自算出の注目度): 35.43588644940152
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative models have recently exhibited exceptional capabilities in various
scenarios, for example, image generation based on text description. In this
work, we focus on the task of generating a series of coherent image sequence
based on a given storyline, denoted as open-ended visual storytelling. We make
the following three contributions: (i) to fulfill the task of visual
storytelling, we introduce two modules into a pre-trained stable diffusion
model, and construct an auto-regressive image generator, termed as StoryGen,
that enables to generate the current frame by conditioning on both a text
prompt and a preceding frame; (ii) to train our proposed model, we collect
paired image and text samples by sourcing from various online sources, such as
videos, E-books, and establish a data processing pipeline for constructing a
diverse dataset, named StorySalon, with a far larger vocabulary than existing
animation-specific datasets; (iii) we adopt a three-stage curriculum training
strategy, that enables style transfer, visual context conditioning, and human
feedback alignment, respectively. Quantitative experiments and human evaluation
have validated the superiority of our proposed model, in terms of image
quality, style consistency, content consistency, and visual-language alignment.
We will make the code, model, and dataset publicly available to the research
community.
- Abstract(参考訳): 生成モデルは最近、テキスト記述に基づく画像生成など、様々なシナリオで例外的な機能を示した。
本研究では,与えられたストーリーラインに基づいて一連のコヒーレントな画像列を生成するタスクに焦点を合わせ,オープンエンドなビジュアルストーリーテリングと表現する。
私たちは以下の3つの貢献をします
i) ビジュアルストーリーテリングのタスクを実現するために,事前訓練された安定拡散モデルに2つのモジュールを導入するとともに,テキストプロンプトと先行フレームの両方を条件付けして現在のフレームを生成することができる自動回帰画像生成器を構築する。
(ii)提案するモデルを訓練するために,ビデオや電子書籍などの様々なオンラインソースから抽出し,既存のアニメーション特有のデータセットよりもはるかに大きな語彙を持つ多種多様なデータセットであるstorysalonを構築するためのデータ処理パイプラインを構築することにより,ペア画像とテキストのサンプルを収集する。
3) 3段階のカリキュラム学習戦略を採用し, 視覚的文脈条件付け, 人間のフィードバックアライメントを可能にした。
定量的実験と人的評価により,画像品質,スタイル整合性,コンテンツ整合性,視覚言語整合性の観点から,提案モデルの有効性が検証された。
コード、モデル、データセットを研究コミュニティに公開します。
関連論文リスト
- Openstory++: A Large-scale Dataset and Benchmark for Instance-aware Open-domain Visual Storytelling [81.69474860607542]
画像とテキストの両方にインスタンスレベルのアノテーションを追加する大規模データセットであるOpenstory++を提示する。
また、長いマルチモーダルコンテキストが提供される際に、画像生成タスクを評価するための先駆的なベンチマークフレームワークであるCohere-Benchについても紹介する。
論文 参考訳(メタデータ) (2024-08-07T11:20:37Z) - TARN-VIST: Topic Aware Reinforcement Network for Visual Storytelling [14.15543866199545]
クロスモーダルなタスクとして、視覚的なストーリーテリングは、順序付けられた画像シーケンスのためのストーリーを自動的に生成することを目的としている。
視覚的ストーリーテリングのための新しい手法,Topic Aware Reinforcement Network(TARN-VIST)を提案する。
特に,視覚的,言語的両面から,物語の話題情報を事前に抽出した。
論文 参考訳(メタデータ) (2024-03-18T08:01:23Z) - Visual Storytelling with Question-Answer Plans [70.89011289754863]
本稿では、事前訓練された言語モデルと計画に視覚表現を統合する新しいフレームワークを提案する。
我々のモデルは、画像列を視覚的な接頭辞、つまり言語モデルで解釈できる連続的な埋め込みの列に変換する。
また、一連の質問と回答のペアを青写真プランとして利用して、健全な視覚概念を選択し、物語にどのように組み立てるべきかを決定する。
論文 参考訳(メタデータ) (2023-10-08T21:45:34Z) - Zero-shot Generation of Coherent Storybook from Plain Text Story using
Diffusion Models [43.32978092618245]
本稿では,ストーリーの平文からコヒーレントなストーリーブックを生成するためのニューラルパイプラインを提案する。
我々は,事前学習された大規模言語モデルとテキスト誘導型潜在拡散モデルを組み合わせて,コヒーレントな画像を生成する。
論文 参考訳(メタデータ) (2023-02-08T06:24:06Z) - Visual Writing Prompts: Character-Grounded Story Generation with Curated
Image Sequences [67.61940880927708]
画像ベースのストーリー生成に関する現在の研究は、既存の画像シーケンスコレクションが背後にコヒーレントなプロットを持たないという事実に悩まされている。
我々は、新しい画像グラウンドデータセット、Visual Writing Prompts (VWP) を作成することで、ビジュアルストーリー生成を改善する。
VWPには5~10枚の画像を含む約2Kの映像が選択されている。
画像シーケンスは、画像シーケンスと対応する画像シーケンスから接地文字のセットを与えられたクラウドソーシングを介して収集された合計12Kストーリーと整列する。
論文 参考訳(メタデータ) (2023-01-20T13:38:24Z) - StoryDALL-E: Adapting Pretrained Text-to-Image Transformers for Story
Continuation [76.44802273236081]
生成したビジュアルストーリーをソースイメージに条件付けしたストーリー継続のためのモデルであるStoryDALL-Eを開発した。
提案手法は, ストーリー継続のためのGANモデルよりも優れており, 画像からの視覚要素のコピーを容易にする。
全体として、本研究は、事前訓練されたテキスト-画像合成モデルがストーリー継続のような複雑で低リソースなタスクに適応できることを実証している。
論文 参考訳(メタデータ) (2022-09-13T17:47:39Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。