論文の概要: Let Storytelling Tell Vivid Stories: An Expressive and Fluent Multimodal
Storyteller
- arxiv url: http://arxiv.org/abs/2403.07301v1
- Date: Tue, 12 Mar 2024 04:07:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 22:51:08.002561
- Title: Let Storytelling Tell Vivid Stories: An Expressive and Fluent Multimodal
Storyteller
- Title(参考訳): ストーリーテリングがバイビッドストーリーを語る: 表現力とフルエントなマルチモーダルストーリーテラー
- Authors: Chuanqi Zang, Jiji Tang, Rongsheng Zhang, Zeng Zhao, Tangjie Lv,
Mingtao Pei, Wei Liang
- Abstract要約: 我々はLLaMSと呼ばれる新しいパイプラインを提案し、マルチモーダルな人間レベルのストーリーを生成する。
まず、実写コンテンツ表現を強化するために、シーケンスデータ自動強調戦略を用いる。
次に,SQ-Adatpterモジュールを提案する。
- 参考スコア(独自算出の注目度): 21.953766228135827
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Storytelling aims to generate reasonable and vivid narratives based on an
ordered image stream. The fidelity to the image story theme and the divergence
of story plots attract readers to keep reading. Previous works iteratively
improved the alignment of multiple modalities but ultimately resulted in the
generation of simplistic storylines for image streams. In this work, we propose
a new pipeline, termed LLaMS, to generate multimodal human-level stories that
are embodied in expressiveness and consistency. Specifically, by fully
exploiting the commonsense knowledge within the LLM, we first employ a sequence
data auto-enhancement strategy to enhance factual content expression and
leverage a textual reasoning architecture for expressive story generation and
prediction. Secondly, we propose SQ-Adatpter module for story illustration
generation which can maintain sequence consistency. Numerical results are
conducted through human evaluation to verify the superiority of proposed LLaMS.
Evaluations show that LLaMS achieves state-of-the-art storytelling performance
and 86% correlation and 100% consistency win rate as compared with previous
SOTA methods. Furthermore, ablation experiments are conducted to verify the
effectiveness of proposed sequence data enhancement and SQ-Adapter.
- Abstract(参考訳): ストーリーテリングは、順序付けられた画像ストリームに基づいて合理的で鮮明な物語を生成することを目的としている。
イメージストーリーのテーマへの忠実さとストーリープロットの多様化は読者を惹きつけ、読み続ける。
以前の作品では、複数のモダリティのアライメントを反復的に改善していたが、最終的には画像ストリームのためのシンプルなストーリーラインの生成につながった。
本研究では,表現性と一貫性を具現化したマルチモーダルな人間レベルの物語を生成するパイプラインLLaMSを提案する。
具体的には, LLM内のコモンセンス知識を十分に活用することにより, まず, 実写コンテンツ表現の強化と, 表現力のあるストーリー生成と予測にテキスト推論アーキテクチャを利用する。
次に,シーケンス一貫性を維持するストーリーイラストレーション生成のためのsq-adatpterモジュールを提案する。
提案するLLaMSの優位性を検証するため,人間の評価を通じて数値計算を行った。
評価の結果,従来のSOTA法と比較して,LLaMSは現状のストーリーテリング性能と86%の相関,100%の一貫性の獲得率を実現していることがわかった。
さらに,提案するシーケンスデータエンハンスメントとsq-adapterの有効性を検証するため,アブレーション実験を行った。
関連論文リスト
- StoryGPT-V: Large Language Models as Consistent Story Visualizers [39.790319429455856]
生成モデルは、テキストのプロンプトに基づいて、現実的で視覚的に喜ばしい画像を生成する素晴らしい能力を示しています。
しかし、新興のLarge Language Model(LLM)はあいまいな参照をナビゲートする堅牢な推論能力を示している。
遅延拡散(LDM)とLDMの利点を生かしたtextbfStoryGPT-V を導入し,一貫した高品質な画像を生成する。
論文 参考訳(メタデータ) (2023-12-04T18:14:29Z) - Text-Only Training for Visual Storytelling [107.19873669536523]
視覚条件付きストーリー生成問題として視覚的ストーリーテリングを定式化する。
本稿では,モダリティ間のアライメントとストーリー生成の学習を分離するテキストのみのトレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-17T09:32:17Z) - Intelligent Grimm -- Open-ended Visual Storytelling via Latent Diffusion
Models [70.86603627188519]
我々は,オープンエンドなビジュアルストーリーテリングとして表現された,与えられたストーリーラインに基づいてコヒーレントな画像列を生成するという,斬新で挑戦的な課題に焦点をあてる。
本稿では,新しい視覚言語コンテキストモジュールを用いた学習に基づく自動回帰画像生成モデル(StoryGen)を提案する。
StoryGenは最適化なしに文字を一般化することができ、一貫性のあるコンテンツと一貫した文字で画像列を生成する。
論文 参考訳(メタデータ) (2023-06-01T17:58:50Z) - Album Storytelling with Iterative Story-aware Captioning and Large
Language Models [86.6548090965982]
私たちはアルバムを鮮明で一貫性のあるストーリーに変える方法を研究し、これは「アルバム・ストーリーテリング」と呼ぶタスクである。
近年のLarge Language Models (LLMs) の進歩により、長いコヒーレントなテキストを生成することが可能になった。
本手法は,アルバムのコヒーレンスと鮮明さを向上し,より正確で魅力的なストーリーを効果的に生成する。
論文 参考訳(メタデータ) (2023-05-22T11:45:10Z) - StoryDALL-E: Adapting Pretrained Text-to-Image Transformers for Story
Continuation [76.44802273236081]
生成したビジュアルストーリーをソースイメージに条件付けしたストーリー継続のためのモデルであるStoryDALL-Eを開発した。
提案手法は, ストーリー継続のためのGANモデルよりも優れており, 画像からの視覚要素のコピーを容易にする。
全体として、本研究は、事前訓練されたテキスト-画像合成モデルがストーリー継続のような複雑で低リソースなタスクに適応できることを実証している。
論文 参考訳(メタデータ) (2022-09-13T17:47:39Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - Topic Adaptation and Prototype Encoding for Few-Shot Visual Storytelling [81.33107307509718]
トピック間一般化の能力をモデル化するためのトピック適応型ストーリーテラを提案する。
また,アトピー内導出能力のモデル化を目的とした符号化手法の試作も提案する。
実験結果から,トピック適応とプロトタイプ符号化構造が相互に利益をもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2020-08-11T03:55:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。