論文の概要: Album Storytelling with Iterative Story-aware Captioning and Large
Language Models
- arxiv url: http://arxiv.org/abs/2305.12943v2
- Date: Wed, 24 May 2023 02:58:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 11:14:04.228071
- Title: Album Storytelling with Iterative Story-aware Captioning and Large
Language Models
- Title(参考訳): 反復型キャプションと大規模言語モデルを用いたアルバムストーリーテリング
- Authors: Munan Ning, Yujia Xie, Dongdong Chen, Zeyin Song, Lu Yuan, Yonghong
Tian, Qixiang Ye, Li Yuan
- Abstract要約: 私たちはアルバムを鮮明で一貫性のあるストーリーに変える方法を研究し、これは「アルバム・ストーリーテリング」と呼ぶタスクである。
近年のLarge Language Models (LLMs) の進歩により、長いコヒーレントなテキストを生成することが可能になった。
本手法は,アルバムのコヒーレンスと鮮明さを向上し,より正確で魅力的なストーリーを効果的に生成する。
- 参考スコア(独自算出の注目度): 86.6548090965982
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work studies how to transform an album to vivid and coherent stories, a
task we refer to as "album storytelling". While this task can help preserve
memories and facilitate experience sharing, it remains an underexplored area in
current literature. With recent advances in Large Language Models (LLMs), it is
now possible to generate lengthy, coherent text, opening up the opportunity to
develop an AI assistant for album storytelling. One natural approach is to use
caption models to describe each photo in the album, and then use LLMs to
summarize and rewrite the generated captions into an engaging story. However,
we find this often results in stories containing hallucinated information that
contradicts the images, as each generated caption ("story-agnostic") is not
always about the description related to the whole story or miss some necessary
information. To address these limitations, we propose a new iterative album
storytelling pipeline. Specifically, we start with an initial story and build a
story-aware caption model to refine the captions using the whole story as
guidance. The polished captions are then fed into the LLMs to generate a new
refined story. This process is repeated iteratively until the story contains
minimal factual errors while maintaining coherence. To evaluate our proposed
pipeline, we introduce a new dataset of image collections from vlogs and a set
of systematic evaluation metrics. Our results demonstrate that our method
effectively generates more accurate and engaging stories for albums, with
enhanced coherence and vividness.
- Abstract(参考訳): この研究は、アルバムを鮮明でコヒーレントなストーリーに変換する方法を研究し、これは私たちが「アルバムストーリーテリング」と呼ぶタスクである。
このタスクは記憶を保存し、経験を共有するのに役立つが、現在の文献では未熟な領域である。
近年のLarge Language Models (LLMs) の発展により、長い一貫性のあるテキストを生成することが可能となり、アルバムストーリーテリングのためのAIアシスタントを開発する機会が開かれた。
自然なアプローチの1つは、アルバムの各写真を記述するためにキャプションモデルを使用し、LLMを使用して生成されたキャプションを要約し、エンゲージメントなストーリーに書き換えることである。
しかし,この結果から,画像と矛盾する幻覚的な情報を含むストーリーが生まれることがしばしばあり,それぞれのキャプション(ストーリー非依存)が必ずしも物語全体に関する記述や必要な情報を見逃しているわけではない。
これらの制約に対処するため、我々は新しい反復的なアルバムストーリーテリングパイプラインを提案する。
具体的には、最初のストーリーから始めて、ストーリー全体をガイダンスとして、キャプションを洗練させるストーリー対応キャプションモデルを構築する。
精製されたキャプションはLLMに入力され、新しい精巧なストーリーを生成する。
このプロセスは、ストーリーが一貫性を維持しながら事実上の誤りを最小限に抑えるまで繰り返される。
提案するパイプラインを評価するために,vlogからのイメージコレクションの新たなデータセットと体系的な評価メトリクスを導入する。
提案手法はアルバムのより正確で魅力的なストーリーを効果的に生成し,コヒーレンスと鮮明さを高めた。
関連論文リスト
- TARN-VIST: Topic Aware Reinforcement Network for Visual Storytelling [14.15543866199545]
クロスモーダルなタスクとして、視覚的なストーリーテリングは、順序付けられた画像シーケンスのためのストーリーを自動的に生成することを目的としている。
視覚的ストーリーテリングのための新しい手法,Topic Aware Reinforcement Network(TARN-VIST)を提案する。
特に,視覚的,言語的両面から,物語の話題情報を事前に抽出した。
論文 参考訳(メタデータ) (2024-03-18T08:01:23Z) - Let Storytelling Tell Vivid Stories: An Expressive and Fluent Multimodal
Storyteller [21.953766228135827]
我々はLLaMSと呼ばれる新しいパイプラインを提案し、マルチモーダルな人間レベルのストーリーを生成する。
まず、実写コンテンツ表現を強化するために、シーケンスデータ自動強調戦略を用いる。
次に,SQ-Adatpterモジュールを提案する。
論文 参考訳(メタデータ) (2024-03-12T04:07:00Z) - Visual Storytelling with Question-Answer Plans [70.89011289754863]
本稿では、事前訓練された言語モデルと計画に視覚表現を統合する新しいフレームワークを提案する。
我々のモデルは、画像列を視覚的な接頭辞、つまり言語モデルで解釈できる連続的な埋め込みの列に変換する。
また、一連の質問と回答のペアを青写真プランとして利用して、健全な視覚概念を選択し、物語にどのように組み立てるべきかを決定する。
論文 参考訳(メタデータ) (2023-10-08T21:45:34Z) - Intelligent Grimm -- Open-ended Visual Storytelling via Latent Diffusion
Models [70.86603627188519]
我々は,オープンエンドなビジュアルストーリーテリングとして表現された,与えられたストーリーラインに基づいてコヒーレントな画像列を生成するという,斬新で挑戦的な課題に焦点をあてる。
本稿では,新しい視覚言語コンテキストモジュールを用いた学習に基づく自動回帰画像生成モデル(StoryGen)を提案する。
StoryGenは最適化なしに文字を一般化することができ、一貫性のあるコンテンツと一貫した文字で画像列を生成する。
論文 参考訳(メタデータ) (2023-06-01T17:58:50Z) - Visual Writing Prompts: Character-Grounded Story Generation with Curated
Image Sequences [67.61940880927708]
画像ベースのストーリー生成に関する現在の研究は、既存の画像シーケンスコレクションが背後にコヒーレントなプロットを持たないという事実に悩まされている。
我々は、新しい画像グラウンドデータセット、Visual Writing Prompts (VWP) を作成することで、ビジュアルストーリー生成を改善する。
VWPには5~10枚の画像を含む約2Kの映像が選択されている。
画像シーケンスは、画像シーケンスと対応する画像シーケンスから接地文字のセットを与えられたクラウドソーシングを介して収集された合計12Kストーリーと整列する。
論文 参考訳(メタデータ) (2023-01-20T13:38:24Z) - On Narrative Information and the Distillation of Stories [4.224809458327516]
現代のニューラルネットワークがいかにして物語を蒸留するかを示す。
次に、進化的アルゴリズムがこれを活用して、一連の物語テンプレートを抽出する方法を実証する。
その過程で、既存のアルバムにこれらの物語情報テンプレートが存在するという強い統計的証拠を与える。
論文 参考訳(メタデータ) (2022-11-22T17:30:36Z) - StoryDALL-E: Adapting Pretrained Text-to-Image Transformers for Story
Continuation [76.44802273236081]
生成したビジュアルストーリーをソースイメージに条件付けしたストーリー継続のためのモデルであるStoryDALL-Eを開発した。
提案手法は, ストーリー継続のためのGANモデルよりも優れており, 画像からの視覚要素のコピーを容易にする。
全体として、本研究は、事前訓練されたテキスト-画像合成モデルがストーリー継続のような複雑で低リソースなタスクに適応できることを実証している。
論文 参考訳(メタデータ) (2022-09-13T17:47:39Z) - Hide-and-Tell: Learning to Bridge Photo Streams for Visual Storytelling [86.42719129731907]
視覚的ギャップを埋めるストーリーラインを明示的に学習することを提案する。
私たちは、欠落した写真であっても、ネットワークをトレーニングして、完全なプラウティブルなストーリーを作り出す。
実験では,本手法とネットワーク設計がストーリーテリングに有効であることを示す。
論文 参考訳(メタデータ) (2020-02-03T14:22:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。