論文の概要: Let Storytelling Tell Vivid Stories: An Expressive and Fluent Multimodal
Storyteller
- arxiv url: http://arxiv.org/abs/2403.07301v1
- Date: Tue, 12 Mar 2024 04:07:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 22:51:08.002561
- Title: Let Storytelling Tell Vivid Stories: An Expressive and Fluent Multimodal
Storyteller
- Title(参考訳): ストーリーテリングがバイビッドストーリーを語る: 表現力とフルエントなマルチモーダルストーリーテラー
- Authors: Chuanqi Zang, Jiji Tang, Rongsheng Zhang, Zeng Zhao, Tangjie Lv,
Mingtao Pei, Wei Liang
- Abstract要約: 我々はLLaMSと呼ばれる新しいパイプラインを提案し、マルチモーダルな人間レベルのストーリーを生成する。
まず、実写コンテンツ表現を強化するために、シーケンスデータ自動強調戦略を用いる。
次に,SQ-Adatpterモジュールを提案する。
- 参考スコア(独自算出の注目度): 21.953766228135827
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Storytelling aims to generate reasonable and vivid narratives based on an
ordered image stream. The fidelity to the image story theme and the divergence
of story plots attract readers to keep reading. Previous works iteratively
improved the alignment of multiple modalities but ultimately resulted in the
generation of simplistic storylines for image streams. In this work, we propose
a new pipeline, termed LLaMS, to generate multimodal human-level stories that
are embodied in expressiveness and consistency. Specifically, by fully
exploiting the commonsense knowledge within the LLM, we first employ a sequence
data auto-enhancement strategy to enhance factual content expression and
leverage a textual reasoning architecture for expressive story generation and
prediction. Secondly, we propose SQ-Adatpter module for story illustration
generation which can maintain sequence consistency. Numerical results are
conducted through human evaluation to verify the superiority of proposed LLaMS.
Evaluations show that LLaMS achieves state-of-the-art storytelling performance
and 86% correlation and 100% consistency win rate as compared with previous
SOTA methods. Furthermore, ablation experiments are conducted to verify the
effectiveness of proposed sequence data enhancement and SQ-Adapter.
- Abstract(参考訳): ストーリーテリングは、順序付けられた画像ストリームに基づいて合理的で鮮明な物語を生成することを目的としている。
イメージストーリーのテーマへの忠実さとストーリープロットの多様化は読者を惹きつけ、読み続ける。
以前の作品では、複数のモダリティのアライメントを反復的に改善していたが、最終的には画像ストリームのためのシンプルなストーリーラインの生成につながった。
本研究では,表現性と一貫性を具現化したマルチモーダルな人間レベルの物語を生成するパイプラインLLaMSを提案する。
具体的には, LLM内のコモンセンス知識を十分に活用することにより, まず, 実写コンテンツ表現の強化と, 表現力のあるストーリー生成と予測にテキスト推論アーキテクチャを利用する。
次に,シーケンス一貫性を維持するストーリーイラストレーション生成のためのsq-adatpterモジュールを提案する。
提案するLLaMSの優位性を検証するため,人間の評価を通じて数値計算を行った。
評価の結果,従来のSOTA法と比較して,LLaMSは現状のストーリーテリング性能と86%の相関,100%の一貫性の獲得率を実現していることがわかった。
さらに,提案するシーケンスデータエンハンスメントとsq-adapterの有効性を検証するため,アブレーション実験を行った。
関連論文リスト
- DataNarrative: Automated Data-Driven Storytelling with Visualizations and Texts [27.218934418961197]
データストーリ生成のための新しいタスクと,さまざまなソースから1,449のストーリを含むベンチマークを導入する。
2つのLLMエージェントを用いたマルチエージェントフレームワークを提案する。
我々のエージェント・フレームワークは一般的にモデルベースと人的評価の両方において非エージェント・フレームワークよりも優れていますが、結果はデータ・ストーリー・ジェネレーションにおけるユニークな課題を明らかにします。
論文 参考訳(メタデータ) (2024-08-09T21:31:33Z) - SEED-Story: Multimodal Long Story Generation with Large Language Model [66.37077224696242]
SEED-Storyは、MLLM(Multimodal Large Language Model)を利用して拡張マルチモーダルストーリーを生成する新しい手法である。
マルチモーダルアテンションシンク機構を提案し,最大25個のストーリー(トレーニング用10個)を高い効率で自動回帰的に生成する。
本稿では,大規模かつ高解像度なStoryStreamというデータセットを提案する。
論文 参考訳(メタデータ) (2024-07-11T17:21:03Z) - Improving Visual Storytelling with Multimodal Large Language Models [1.325953054381901]
本稿では,大規模言語モデル(LLM)と大規模視覚言語モデル(LVLM)を活用した新しいアプローチを提案する。
様々な視覚的ストーリーからなる新しいデータセットを導入し、詳細なキャプションとマルチモーダル要素を付加する。
本手法では,教師付き学習と強化学習を組み合わせてモデルを微調整し,物語生成能力を向上する。
論文 参考訳(メタデータ) (2024-07-02T18:13:55Z) - TARN-VIST: Topic Aware Reinforcement Network for Visual Storytelling [14.15543866199545]
クロスモーダルなタスクとして、視覚的なストーリーテリングは、順序付けられた画像シーケンスのためのストーリーを自動的に生成することを目的としている。
視覚的ストーリーテリングのための新しい手法,Topic Aware Reinforcement Network(TARN-VIST)を提案する。
特に,視覚的,言語的両面から,物語の話題情報を事前に抽出した。
論文 参考訳(メタデータ) (2024-03-18T08:01:23Z) - Text-Only Training for Visual Storytelling [107.19873669536523]
視覚条件付きストーリー生成問題として視覚的ストーリーテリングを定式化する。
本稿では,モダリティ間のアライメントとストーリー生成の学習を分離するテキストのみのトレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-17T09:32:17Z) - Intelligent Grimm -- Open-ended Visual Storytelling via Latent Diffusion
Models [70.86603627188519]
我々は,オープンエンドなビジュアルストーリーテリングとして表現された,与えられたストーリーラインに基づいてコヒーレントな画像列を生成するという,斬新で挑戦的な課題に焦点をあてる。
本稿では,新しい視覚言語コンテキストモジュールを用いた学習に基づく自動回帰画像生成モデル(StoryGen)を提案する。
StoryGenは最適化なしに文字を一般化することができ、一貫性のあるコンテンツと一貫した文字で画像列を生成する。
論文 参考訳(メタデータ) (2023-06-01T17:58:50Z) - Album Storytelling with Iterative Story-aware Captioning and Large
Language Models [86.6548090965982]
私たちはアルバムを鮮明で一貫性のあるストーリーに変える方法を研究し、これは「アルバム・ストーリーテリング」と呼ぶタスクである。
近年のLarge Language Models (LLMs) の進歩により、長いコヒーレントなテキストを生成することが可能になった。
本手法は,アルバムのコヒーレンスと鮮明さを向上し,より正確で魅力的なストーリーを効果的に生成する。
論文 参考訳(メタデータ) (2023-05-22T11:45:10Z) - StoryDALL-E: Adapting Pretrained Text-to-Image Transformers for Story
Continuation [76.44802273236081]
生成したビジュアルストーリーをソースイメージに条件付けしたストーリー継続のためのモデルであるStoryDALL-Eを開発した。
提案手法は, ストーリー継続のためのGANモデルよりも優れており, 画像からの視覚要素のコピーを容易にする。
全体として、本研究は、事前訓練されたテキスト-画像合成モデルがストーリー継続のような複雑で低リソースなタスクに適応できることを実証している。
論文 参考訳(メタデータ) (2022-09-13T17:47:39Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。