Fugu-MT 論文翻訳(概要): Let Storytelling Tell Vivid Stories: An Expressive and Fluent Multimodal Storyteller

論文の概要: Let Storytelling Tell Vivid Stories: An Expressive and Fluent Multimodal Storyteller

arxiv url: http://arxiv.org/abs/2403.07301v1
Date: Tue, 12 Mar 2024 04:07:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-13 22:51:08.002561
Title: Let Storytelling Tell Vivid Stories: An Expressive and Fluent Multimodal Storyteller
Title（参考訳）: ストーリーテリングがバイビッドストーリーを語る: 表現力とフルエントなマルチモーダルストーリーテラー
Authors: Chuanqi Zang, Jiji Tang, Rongsheng Zhang, Zeng Zhao, Tangjie Lv, Mingtao Pei, Wei Liang
Abstract要約: 我々はLLaMSと呼ばれる新しいパイプラインを提案し、マルチモーダルな人間レベルのストーリーを生成する。まず、実写コンテンツ表現を強化するために、シーケンスデータ自動強調戦略を用いる。次に,SQ-Adatpterモジュールを提案する。
参考スコア（独自算出の注目度）: 21.953766228135827
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Storytelling aims to generate reasonable and vivid narratives based on an ordered image stream. The fidelity to the image story theme and the divergence of story plots attract readers to keep reading. Previous works iteratively improved the alignment of multiple modalities but ultimately resulted in the generation of simplistic storylines for image streams. In this work, we propose a new pipeline, termed LLaMS, to generate multimodal human-level stories that are embodied in expressiveness and consistency. Specifically, by fully exploiting the commonsense knowledge within the LLM, we first employ a sequence data auto-enhancement strategy to enhance factual content expression and leverage a textual reasoning architecture for expressive story generation and prediction. Secondly, we propose SQ-Adatpter module for story illustration generation which can maintain sequence consistency. Numerical results are conducted through human evaluation to verify the superiority of proposed LLaMS. Evaluations show that LLaMS achieves state-of-the-art storytelling performance and 86% correlation and 100% consistency win rate as compared with previous SOTA methods. Furthermore, ablation experiments are conducted to verify the effectiveness of proposed sequence data enhancement and SQ-Adapter.
Abstract（参考訳）: ストーリーテリングは、順序付けられた画像ストリームに基づいて合理的で鮮明な物語を生成することを目的としている。イメージストーリーのテーマへの忠実さとストーリープロットの多様化は読者を惹きつけ、読み続ける。以前の作品では、複数のモダリティのアライメントを反復的に改善していたが、最終的には画像ストリームのためのシンプルなストーリーラインの生成につながった。本研究では,表現性と一貫性を具現化したマルチモーダルな人間レベルの物語を生成するパイプラインLLaMSを提案する。具体的には, LLM内のコモンセンス知識を十分に活用することにより, まず, 実写コンテンツ表現の強化と, 表現力のあるストーリー生成と予測にテキスト推論アーキテクチャを利用する。次に,シーケンス一貫性を維持するストーリーイラストレーション生成のためのsq-adatpterモジュールを提案する。提案するLLaMSの優位性を検証するため,人間の評価を通じて数値計算を行った。評価の結果,従来のSOTA法と比較して,LLaMSは現状のストーリーテリング性能と86%の相関,100%の一貫性の獲得率を実現していることがわかった。さらに,提案するシーケンスデータエンハンスメントとsq-adapterの有効性を検証するため,アブレーション実験を行った。

関連論文リスト

Learning to Reason for Long-Form Story Generation [98.273323001781]
一般的なストーリー生成タスク(Next-Chapter Prediction)と報酬定式化(Completion Likelihood Improvementによる検証リワード)を提案する。私たちは、物語の凝縮した情報を推論し、次の章の詳細な計画を作成することを学びます。私たちの推論は、ストーリージェネレータ作成を支援する章を通じて評価され、トレーニングされていない、教師なしの微調整(SFT)ベースラインと比較されます。
論文参考訳（メタデータ） (2025-03-28T18:48:26Z)
DataNarrative: Automated Data-Driven Storytelling with Visualizations and Texts [27.218934418961197]
データストーリ生成のための新しいタスクと,さまざまなソースから1,449のストーリを含むベンチマークを導入する。 2つのLLMエージェントを用いたマルチエージェントフレームワークを提案する。我々のエージェント・フレームワークは一般的にモデルベースと人的評価の両方において非エージェント・フレームワークよりも優れていますが、結果はデータ・ストーリー・ジェネレーションにおけるユニークな課題を明らかにします。
論文参考訳（メタデータ） (2024-08-09T21:31:33Z)
ContextualStory: Consistent Visual Storytelling with Spatially-Enhanced and Storyline Context [50.572907418430155]
ContextualStoryは、コヒーレントなストーリーフレームを生成し、ビジュアルなストーリーテリングのためにフレームを拡張するように設計されたフレームワークである。ストーリーライン埋め込みにおけるコンテキストを豊かにするストーリーラインコンテクストアライザと、フレーム間のシーン変化を測定するストーリーフローアダプタを導入する。 PororoSVとFlintstonesSVデータセットの実験では、ContextualStoryはストーリーの可視化と継続の両方で既存のSOTAメソッドよりも大幅に優れています。
論文参考訳（メタデータ） (2024-07-13T05:02:42Z)
SEED-Story: Multimodal Long Story Generation with Large Language Model [66.37077224696242]
SEED-Storyは、MLLM(Multimodal Large Language Model)を利用して拡張マルチモーダルストーリーを生成する新しい手法である。マルチモーダルアテンションシンク機構を提案し,最大25個のストーリー(トレーニング用10個)を高い効率で自動回帰的に生成する。本稿では,大規模かつ高解像度なStoryStreamというデータセットを提案する。
論文参考訳（メタデータ） (2024-07-11T17:21:03Z)
Improving Visual Storytelling with Multimodal Large Language Models [1.325953054381901]
本稿では,大規模言語モデル(LLM)と大規模視覚言語モデル(LVLM)を活用した新しいアプローチを提案する。様々な視覚的ストーリーからなる新しいデータセットを導入し、詳細なキャプションとマルチモーダル要素を付加する。本手法では,教師付き学習と強化学習を組み合わせてモデルを微調整し,物語生成能力を向上する。
論文参考訳（メタデータ） (2024-07-02T18:13:55Z)
TARN-VIST: Topic Aware Reinforcement Network for Visual Storytelling [14.15543866199545]
クロスモーダルなタスクとして、視覚的なストーリーテリングは、順序付けられた画像シーケンスのためのストーリーを自動的に生成することを目的としている。視覚的ストーリーテリングのための新しい手法,Topic Aware Reinforcement Network(TARN-VIST)を提案する。特に,視覚的,言語的両面から,物語の話題情報を事前に抽出した。
論文参考訳（メタデータ） (2024-03-18T08:01:23Z)
Text-Only Training for Visual Storytelling [107.19873669536523]
視覚条件付きストーリー生成問題として視覚的ストーリーテリングを定式化する。本稿では,モダリティ間のアライメントとストーリー生成の学習を分離するテキストのみのトレーニング手法を提案する。
論文参考訳（メタデータ） (2023-08-17T09:32:17Z)
Intelligent Grimm -- Open-ended Visual Storytelling via Latent Diffusion Models [70.86603627188519]
我々は,オープンエンドなビジュアルストーリーテリングとして表現された,与えられたストーリーラインに基づいてコヒーレントな画像列を生成するという,斬新で挑戦的な課題に焦点をあてる。本稿では,新しい視覚言語コンテキストモジュールを用いた学習に基づく自動回帰画像生成モデル(StoryGen)を提案する。 StoryGenは最適化なしに文字を一般化することができ、一貫性のあるコンテンツと一貫した文字で画像列を生成する。
論文参考訳（メタデータ） (2023-06-01T17:58:50Z)
Album Storytelling with Iterative Story-aware Captioning and Large Language Models [86.6548090965982]
私たちはアルバムを鮮明で一貫性のあるストーリーに変える方法を研究し、これは「アルバム・ストーリーテリング」と呼ぶタスクである。近年のLarge Language Models (LLMs) の進歩により、長いコヒーレントなテキストを生成することが可能になった。本手法は,アルバムのコヒーレンスと鮮明さを向上し,より正確で魅力的なストーリーを効果的に生成する。
論文参考訳（メタデータ） (2023-05-22T11:45:10Z)
StoryDALL-E: Adapting Pretrained Text-to-Image Transformers for Story Continuation [76.44802273236081]
生成したビジュアルストーリーをソースイメージに条件付けしたストーリー継続のためのモデルであるStoryDALL-Eを開発した。提案手法は, ストーリー継続のためのGANモデルよりも優れており, 画像からの視覚要素のコピーを容易にする。全体として、本研究は、事前訓練されたテキスト-画像合成モデルがストーリー継続のような複雑で低リソースなタスクに適応できることを実証している。
論文参考訳（メタデータ） (2022-09-13T17:47:39Z)
Improving Generation and Evaluation of Visual Stories via Semantic Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文参考訳（メタデータ） (2021-05-20T20:42:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。