論文の概要: From Image Captioning to Visual Storytelling
- arxiv url: http://arxiv.org/abs/2508.14045v1
- Date: Thu, 31 Jul 2025 16:44:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-24 10:27:26.519204
- Title: From Image Captioning to Visual Storytelling
- Title(参考訳): イメージキャプションからビジュアルストーリーテリングへ
- Authors: Admitos Passadakis, Yingjin Song, Albert Gatt,
- Abstract要約: この作業の目的は、ビジュアルストーリーテリングをイメージキャプションのスーパーセットとして扱うことで、これらの側面のバランスをとることである。
これは、まず、入力画像のキャプションを取得するために視覚-言語モデルを使用し、その後、これらのキャプションを言語-言語手法を用いてコヒーレントな物語に変換することを意味する。
本評価は,キャプションとストーリーテリングを統合した枠組みで統合することで,生成したストーリーの品質に肯定的な影響を与えることを示す。
- 参考スコア(独自算出の注目度): 2.0333131475480917
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Visual Storytelling is a challenging multimodal task between Vision & Language, where the purpose is to generate a story for a stream of images. Its difficulty lies on the fact that the story should be both grounded to the image sequence but also narrative and coherent. The aim of this work is to balance between these aspects, by treating Visual Storytelling as a superset of Image Captioning, an approach quite different compared to most of prior relevant studies. This means that we firstly employ a vision-to-language model for obtaining captions of the input images, and then, these captions are transformed into coherent narratives using language-to-language methods. Our multifarious evaluation shows that integrating captioning and storytelling under a unified framework, has a positive impact on the quality of the produced stories. In addition, compared to numerous previous studies, this approach accelerates training time and makes our framework readily reusable and reproducible by anyone interested. Lastly, we propose a new metric/tool, named ideality, that can be used to simulate how far some results are from an oracle model, and we apply it to emulate human-likeness in visual storytelling.
- Abstract(参考訳): ビジュアルストーリーテリング(Visual Storytelling)は、視覚と言語の間の挑戦的なマルチモーダルタスクであり、画像ストリームのためのストーリーを生成することを目的としている。
その難しさは、物語がイメージシーケンスだけでなく、物語やコヒーレントにも根ざすべきであるという事実にある。
この研究の目的は、ビジュアルストーリーテリングをイメージキャプションのスーパーセットとして扱うことで、これらの側面のバランスをとることである。
これは、まず、入力画像のキャプションを取得するために視覚-言語モデルを使用し、その後、これらのキャプションを言語-言語手法を用いてコヒーレントな物語に変換することを意味する。
筆者らは,キャプションとストーリーテリングを統一した枠組みで統合することで,生成したストーリーの品質に肯定的な影響を及ぼすことを示す。
さらに,従来の多くの研究と比較して,本手法はトレーニング時間を短縮し,我々のフレームワークを誰でも容易に再利用し,再現できるようにする。
最後に,視覚的ストーリーテリングにおいて,視覚的ストーリーテリングにおいて,ある結果がオラクルモデルからどの程度の距離にあるかをシミュレートするために,理想性という新しい計量/ツールを提案する。
関連論文リスト
- Context-aware Visual Storytelling with Visual Prefix Tuning and Contrastive Learning [2.401993998791928]
本稿では、モダリティを接続するための軽量な視覚言語マッピングネットワークを訓練するフレームワークを提案する。
視覚的関連性やストーリー情報性も向上するマルチモーダルなコントラスト目標を提案する。
論文 参考訳(メタデータ) (2024-08-12T16:15:32Z) - TARN-VIST: Topic Aware Reinforcement Network for Visual Storytelling [14.15543866199545]
クロスモーダルなタスクとして、視覚的なストーリーテリングは、順序付けられた画像シーケンスのためのストーリーを自動的に生成することを目的としている。
視覚的ストーリーテリングのための新しい手法,Topic Aware Reinforcement Network(TARN-VIST)を提案する。
特に,視覚的,言語的両面から,物語の話題情報を事前に抽出した。
論文 参考訳(メタデータ) (2024-03-18T08:01:23Z) - Visual Storytelling with Question-Answer Plans [70.89011289754863]
本稿では、事前訓練された言語モデルと計画に視覚表現を統合する新しいフレームワークを提案する。
我々のモデルは、画像列を視覚的な接頭辞、つまり言語モデルで解釈できる連続的な埋め込みの列に変換する。
また、一連の質問と回答のペアを青写真プランとして利用して、健全な視覚概念を選択し、物語にどのように組み立てるべきかを決定する。
論文 参考訳(メタデータ) (2023-10-08T21:45:34Z) - Text-Only Training for Visual Storytelling [107.19873669536523]
視覚条件付きストーリー生成問題として視覚的ストーリーテリングを定式化する。
本稿では,モダリティ間のアライメントとストーリー生成の学習を分離するテキストのみのトレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-17T09:32:17Z) - Album Storytelling with Iterative Story-aware Captioning and Large
Language Models [86.6548090965982]
私たちはアルバムを鮮明で一貫性のあるストーリーに変える方法を研究し、これは「アルバム・ストーリーテリング」と呼ぶタスクである。
近年のLarge Language Models (LLMs) の進歩により、長いコヒーレントなテキストを生成することが可能になった。
本手法は,アルバムのコヒーレンスと鮮明さを向上し,より正確で魅力的なストーリーを効果的に生成する。
論文 参考訳(メタデータ) (2023-05-22T11:45:10Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - Hide-and-Tell: Learning to Bridge Photo Streams for Visual Storytelling [86.42719129731907]
視覚的ギャップを埋めるストーリーラインを明示的に学習することを提案する。
私たちは、欠落した写真であっても、ネットワークをトレーニングして、完全なプラウティブルなストーリーを作り出す。
実験では,本手法とネットワーク設計がストーリーテリングに有効であることを示す。
論文 参考訳(メタデータ) (2020-02-03T14:22:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。