論文の概要: SCO-VIST: Social Interaction Commonsense Knowledge-based Visual
Storytelling
- arxiv url: http://arxiv.org/abs/2402.00319v1
- Date: Thu, 1 Feb 2024 04:09:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 16:37:56.823259
- Title: SCO-VIST: Social Interaction Commonsense Knowledge-based Visual
Storytelling
- Title(参考訳): SCO-VIST:ソーシャルインタラクションコモンセンス知識に基づくビジュアルストーリーテリング
- Authors: Eileen Wang, Soyeon Caren Han, Josiah Poon
- Abstract要約: 本稿では、画像シーケンスをオブジェクトと関係を持つグラフとして表現するフレームワークであるSCO-VISTを紹介する。
SCO-VIST はこのグラフをプロットポイントを表し、意味的および発生に基づくエッジウェイトを持つプロットポイント間のブリッジを生成する。
この重み付きストーリーグラフは、Floyd-Warshallのアルゴリズムを用いて一連のイベントでストーリーラインを生成する。
- 参考スコア(独自算出の注目度): 12.560014305032437
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual storytelling aims to automatically generate a coherent story based on
a given image sequence. Unlike tasks like image captioning, visual stories
should contain factual descriptions, worldviews, and human social commonsense
to put disjointed elements together to form a coherent and engaging
human-writeable story. However, most models mainly focus on applying factual
information and using taxonomic/lexical external knowledge when attempting to
create stories. This paper introduces SCO-VIST, a framework representing the
image sequence as a graph with objects and relations that includes human action
motivation and its social interaction commonsense knowledge. SCO-VIST then
takes this graph representing plot points and creates bridges between plot
points with semantic and occurrence-based edge weights. This weighted story
graph produces the storyline in a sequence of events using Floyd-Warshall's
algorithm. Our proposed framework produces stories superior across multiple
metrics in terms of visual grounding, coherence, diversity, and humanness, per
both automatic and human evaluations.
- Abstract(参考訳): ビジュアルストーリーテリングは、与えられた画像シーケンスに基づいてコヒーレントストーリーを自動的に生成することを目的としている。
画像キャプションのようなタスクと異なり、ビジュアルストーリーには事実記述、世界観、人間社会の常識が含まれ、無関係な要素を組み合わせることで、コヒーレントで魅力的なヒューマン・ライティング可能なストーリーを形成する。
しかし、ほとんどのモデルは、ストーリーを作ろうとするときに、事実情報の適用と、分類学/語彙学的な外部知識の使用に重点を置いている。
本稿では,人間の行動モチベーションと社会的相互作用のコモンセンス知識を含む対象と関係のグラフとして,画像シーケンスを表現するフレームワークSCO-VISTを紹介する。
SCO-VIST はこのグラフをプロットポイントを表し、意味的および発生に基づくエッジウェイトを持つプロットポイント間のブリッジを生成する。
この重み付きストーリーグラフは、Floyd-Warshallのアルゴリズムを用いて一連のイベントでストーリーラインを生成する。
提案手法は,視覚的グラウンドニング,コヒーレンス,多様性,人間性の観点から,自動評価と人的評価の両方において,複数の指標で優れたストーリーを生成する。
関連論文リスト
- Generating Visual Stories with Grounded and Coreferent Characters [63.07511918366848]
本稿では,一貫した接地的・中核的な特徴を持つ視覚的ストーリーを予測できる最初のモデルを提案する。
我々のモデルは、広く使われているVISTベンチマークの上に構築された新しいデータセットに基づいて微調整されています。
また、物語における文字の豊かさとコア参照を測定するための新しい評価指標を提案する。
論文 参考訳(メタデータ) (2024-09-20T14:56:33Z) - TARN-VIST: Topic Aware Reinforcement Network for Visual Storytelling [14.15543866199545]
クロスモーダルなタスクとして、視覚的なストーリーテリングは、順序付けられた画像シーケンスのためのストーリーを自動的に生成することを目的としている。
視覚的ストーリーテリングのための新しい手法,Topic Aware Reinforcement Network(TARN-VIST)を提案する。
特に,視覚的,言語的両面から,物語の話題情報を事前に抽出した。
論文 参考訳(メタデータ) (2024-03-18T08:01:23Z) - Visual Storytelling with Question-Answer Plans [70.89011289754863]
本稿では、事前訓練された言語モデルと計画に視覚表現を統合する新しいフレームワークを提案する。
我々のモデルは、画像列を視覚的な接頭辞、つまり言語モデルで解釈できる連続的な埋め込みの列に変換する。
また、一連の質問と回答のペアを青写真プランとして利用して、健全な視覚概念を選択し、物語にどのように組み立てるべきかを決定する。
論文 参考訳(メタデータ) (2023-10-08T21:45:34Z) - Intelligent Grimm -- Open-ended Visual Storytelling via Latent Diffusion
Models [70.86603627188519]
我々は,オープンエンドなビジュアルストーリーテリングとして表現された,与えられたストーリーラインに基づいてコヒーレントな画像列を生成するという,斬新で挑戦的な課題に焦点をあてる。
本稿では,新しい視覚言語コンテキストモジュールを用いた学習に基づく自動回帰画像生成モデル(StoryGen)を提案する。
StoryGenは最適化なしに文字を一般化することができ、一貫性のあるコンテンツと一貫した文字で画像列を生成する。
論文 参考訳(メタデータ) (2023-06-01T17:58:50Z) - Incorporating Commonsense Knowledge into Story Ending Generation via
Heterogeneous Graph Networks [16.360265861788253]
本研究では,異なるレベルにおけるストーリーコンテキストの情報と,それら間の多義的な対話性の両方を明示的にモデル化するために,ストーリー異種グラフネットワーク(SHGN)を提案する。
より詳しくは、常識知識、単語、文を3種類のノードとみなす。
感情傾向を暗黙的に捉えるための2つの補助タスクを設計し、重要なイベントをコンテキストに配置する。
論文 参考訳(メタデータ) (2022-01-29T09:33:11Z) - Towards Coherent Visual Storytelling with Ordered Image Attention [73.422281039592]
我々は秩序あるイメージアテンション(OIA)とイメージセンテンスアテンション(ISA)を開発する。
OIAは、シーケンスの他の画像における文対応画像と重要な領域間の相互作用をモデル化する。
ストーリーの文を生成するために、イメージ・センス・アテンション(ISA)を用いて重要なイメージアテンション・ベクターをハイライトする。
論文 参考訳(メタデータ) (2021-08-04T17:12:39Z) - Enhancing Social Relation Inference with Concise Interaction Graph and
Discriminative Scene Representation [56.25878966006678]
我々はtextbfSocial rtextbfElation (PRISE) における textbfPractical textbfInference のアプローチを提案する。
人の対話的特徴と全体主義的な場面の識別的特徴を簡潔に学習する。
PRISEはPIPAデータセットにおけるドメイン分類の改善を6.8$%で達成している。
論文 参考訳(メタデータ) (2021-07-30T04:20:13Z) - Plot and Rework: Modeling Storylines for Visual Storytelling [12.353812582863837]
本稿では,入力画像シーケンスをストーリーグラフとして表現するフレームワークであるPR-VISTについて紹介する。
PR-VISTは反復的なトレーニングプロセスを通じて最終ストーリーを生成することを学ぶ。
アブレーション研究は、プロットとリワークの両方がモデルの優位性に貢献していることを示している。
論文 参考訳(メタデータ) (2021-05-14T16:41:29Z) - Hide-and-Tell: Learning to Bridge Photo Streams for Visual Storytelling [86.42719129731907]
視覚的ギャップを埋めるストーリーラインを明示的に学習することを提案する。
私たちは、欠落した写真であっても、ネットワークをトレーニングして、完全なプラウティブルなストーリーを作り出す。
実験では,本手法とネットワーク設計がストーリーテリングに有効であることを示す。
論文 参考訳(メタデータ) (2020-02-03T14:22:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。