論文の概要: VIST-GPT: Ushering in the Era of Visual Storytelling with LLMs?
- arxiv url: http://arxiv.org/abs/2504.19267v1
- Date: Sun, 27 Apr 2025 14:55:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.207664
- Title: VIST-GPT: Ushering in the Era of Visual Storytelling with LLMs?
- Title(参考訳): VIST-GPT:LLMによるビジュアルストーリーテリングの時代への取り組み?
- Authors: Mohamed Gado, Towhid Taliee, Muhammad Memon, Dmitry Ignatov, Radu Timofte,
- Abstract要約: 本稿では,視覚的ストーリーテリングタスクにおけるマルチモーダルモデルの最近の進歩を活用する新しいアプローチを提案する。
我々は,視覚的接地,コヒーレンス,非冗長性に着目し,視覚的ストーリーテリングを評価するための新しい基準フリーメトリクスであるRoViSTとGROOVISTを利用する。
- 参考スコア(独自算出の注目度): 42.362388367152256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual storytelling is an interdisciplinary field combining computer vision and natural language processing to generate cohesive narratives from sequences of images. This paper presents a novel approach that leverages recent advancements in multimodal models, specifically adapting transformer-based architectures and large multimodal models, for the visual storytelling task. Leveraging the large-scale Visual Storytelling (VIST) dataset, our VIST-GPT model produces visually grounded, contextually appropriate narratives. We address the limitations of traditional evaluation metrics, such as BLEU, METEOR, ROUGE, and CIDEr, which are not suitable for this task. Instead, we utilize RoViST and GROOVIST, novel reference-free metrics designed to assess visual storytelling, focusing on visual grounding, coherence, and non-redundancy. These metrics provide a more nuanced evaluation of narrative quality, aligning closely with human judgment.
- Abstract(参考訳): ビジュアルストーリーテリング(Visual Storytelling)は、コンピュータビジョンと自然言語処理を組み合わせた学際的な分野であり、画像列から結束的な物語を生成する。
本稿では,近年のマルチモーダルモデル,特にトランスフォーマーベースアーキテクチャと大規模マルチモーダルモデルをビジュアルストーリーテリングタスクに適用した新しいアプローチを提案する。
大規模ビジュアルストーリーテリング(VIST)データセットを活用することで、VIST-GPTモデルは、視覚的に基礎があり、文脈的に適切な物語を生成する。
本稿では,この課題に適さないBLEU,METEOR,ROUGE,CIDErといった従来の評価指標の限界に対処する。
代わりに、視覚的接地、コヒーレンス、非冗長性に着目し、視覚的ストーリーテリングを評価するために設計された新しい基準のないメトリクスであるRoViSTとGROOVISTを利用する。
これらの指標は物語の質をより微妙に評価し、人間の判断と密接に一致している。
関連論文リスト
- Generating Visual Stories with Grounded and Coreferent Characters [63.07511918366848]
本稿では,一貫した接地的・中核的な特徴を持つ視覚的ストーリーを予測できる最初のモデルを提案する。
我々のモデルは、広く使われているVISTベンチマークの上に構築された新しいデータセットに基づいて微調整されています。
また、物語における文字の豊かさとコア参照を測定するための新しい評価指標を提案する。
論文 参考訳(メタデータ) (2024-09-20T14:56:33Z) - Not (yet) the whole story: Evaluating Visual Storytelling Requires More than Measuring Coherence, Grounding, and Repetition [8.058451580903123]
人間の類似性の観点から,物語の質を計測する新しい手法を提案する。
次に、この手法を用いて、複数のモデルによって生成されたストーリーを評価する。
TAPMのビジュアルコンポーネントと言語コンポーネントをアップグレードすると、競合するパフォーマンスをもたらすモデルが得られる。
論文 参考訳(メタデータ) (2024-07-05T14:48:15Z) - Improving Visual Storytelling with Multimodal Large Language Models [1.325953054381901]
本稿では,大規模言語モデル(LLM)と大規模視覚言語モデル(LVLM)を活用した新しいアプローチを提案する。
様々な視覚的ストーリーからなる新しいデータセットを導入し、詳細なキャプションとマルチモーダル要素を付加する。
本手法では,教師付き学習と強化学習を組み合わせてモデルを微調整し,物語生成能力を向上する。
論文 参考訳(メタデータ) (2024-07-02T18:13:55Z) - TARN-VIST: Topic Aware Reinforcement Network for Visual Storytelling [14.15543866199545]
クロスモーダルなタスクとして、視覚的なストーリーテリングは、順序付けられた画像シーケンスのためのストーリーを自動的に生成することを目的としている。
視覚的ストーリーテリングのための新しい手法,Topic Aware Reinforcement Network(TARN-VIST)を提案する。
特に,視覚的,言語的両面から,物語の話題情報を事前に抽出した。
論文 参考訳(メタデータ) (2024-03-18T08:01:23Z) - Visual Storytelling with Question-Answer Plans [70.89011289754863]
本稿では、事前訓練された言語モデルと計画に視覚表現を統合する新しいフレームワークを提案する。
我々のモデルは、画像列を視覚的な接頭辞、つまり言語モデルで解釈できる連続的な埋め込みの列に変換する。
また、一連の質問と回答のペアを青写真プランとして利用して、健全な視覚概念を選択し、物語にどのように組み立てるべきかを決定する。
論文 参考訳(メタデータ) (2023-10-08T21:45:34Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z) - Topic Adaptation and Prototype Encoding for Few-Shot Visual Storytelling [81.33107307509718]
トピック間一般化の能力をモデル化するためのトピック適応型ストーリーテラを提案する。
また,アトピー内導出能力のモデル化を目的とした符号化手法の試作も提案する。
実験結果から,トピック適応とプロトタイプ符号化構造が相互に利益をもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2020-08-11T03:55:11Z) - Hide-and-Tell: Learning to Bridge Photo Streams for Visual Storytelling [86.42719129731907]
視覚的ギャップを埋めるストーリーラインを明示的に学習することを提案する。
私たちは、欠落した写真であっても、ネットワークをトレーニングして、完全なプラウティブルなストーリーを作り出す。
実験では,本手法とネットワーク設計がストーリーテリングに有効であることを示す。
論文 参考訳(メタデータ) (2020-02-03T14:22:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。