論文の概要: Hide-and-Tell: Learning to Bridge Photo Streams for Visual Storytelling
- arxiv url: http://arxiv.org/abs/2002.00774v1
- Date: Mon, 3 Feb 2020 14:22:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-04 09:05:52.430969
- Title: Hide-and-Tell: Learning to Bridge Photo Streams for Visual Storytelling
- Title(参考訳): hide-and-tell: ビジュアルストーリーテリングのための写真ストリームブリッジの学習
- Authors: Yunjae Jung, Dahun Kim, Sanghyun Woo, Kyungsu Kim, Sungjin Kim, In So
Kweon
- Abstract要約: 視覚的ギャップを埋めるストーリーラインを明示的に学習することを提案する。
私たちは、欠落した写真であっても、ネットワークをトレーニングして、完全なプラウティブルなストーリーを作り出す。
実験では,本手法とネットワーク設計がストーリーテリングに有効であることを示す。
- 参考スコア(独自算出の注目度): 86.42719129731907
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual storytelling is a task of creating a short story based on photo
streams. Unlike existing visual captioning, storytelling aims to contain not
only factual descriptions, but also human-like narration and semantics.
However, the VIST dataset consists only of a small, fixed number of photos per
story. Therefore, the main challenge of visual storytelling is to fill in the
visual gap between photos with narrative and imaginative story. In this paper,
we propose to explicitly learn to imagine a storyline that bridges the visual
gap. During training, one or more photos is randomly omitted from the input
stack, and we train the network to produce a full plausible story even with
missing photo(s). Furthermore, we propose for visual storytelling a
hide-and-tell model, which is designed to learn non-local relations across the
photo streams and to refine and improve conventional RNN-based models. In
experiments, we show that our scheme of hide-and-tell, and the network design
are indeed effective at storytelling, and that our model outperforms previous
state-of-the-art methods in automatic metrics. Finally, we qualitatively show
the learned ability to interpolate storyline over visual gaps.
- Abstract(参考訳): ビジュアルストーリーテリングは、写真ストリームに基づいた短編ストーリーを作成するタスクである。
既存のビジュアルキャプションとは異なり、ストーリーテリングは事実記述だけでなく、人間のようなナレーションや意味論も含んでいる。
しかし、VISTデータセットは1ストーリーあたりの写真の小さな数だけで構成されている。
したがって、視覚的なストーリーテリングの主な課題は、物語と想像的なストーリーとの視覚的ギャップを埋めることである。
本稿では,視覚的なギャップを橋渡しするストーリーラインを明示的に学習することを提案する。
トレーニング中、1つ以上の写真が入力スタックからランダムに削除され、欠落した写真であっても、ネットワークをトレーニングして完全な可読なストーリーを生成する。
さらに,写真ストリーム間の非局所的関係を学習し,従来のRNNモデルの改良と改良を目的とした隠れ星モデルを提案する。
実験では,提案手法とネットワーク設計が,実際にストーリーテリングに有効であること,および,従来の最先端手法よりも優れた自動計測手法であることを示す。
最後に、視覚的ギャップを越えてストーリーラインを補間する学習能力を質的に示す。
関連論文リスト
- TARN-VIST: Topic Aware Reinforcement Network for Visual Storytelling [14.15543866199545]
クロスモーダルなタスクとして、視覚的なストーリーテリングは、順序付けられた画像シーケンスのためのストーリーを自動的に生成することを目的としている。
視覚的ストーリーテリングのための新しい手法,Topic Aware Reinforcement Network(TARN-VIST)を提案する。
特に,視覚的,言語的両面から,物語の話題情報を事前に抽出した。
論文 参考訳(メタデータ) (2024-03-18T08:01:23Z) - SCO-VIST: Social Interaction Commonsense Knowledge-based Visual
Storytelling [12.560014305032437]
本稿では、画像シーケンスをオブジェクトと関係を持つグラフとして表現するフレームワークであるSCO-VISTを紹介する。
SCO-VIST はこのグラフをプロットポイントを表し、意味的および発生に基づくエッジウェイトを持つプロットポイント間のブリッジを生成する。
この重み付きストーリーグラフは、Floyd-Warshallのアルゴリズムを用いて一連のイベントでストーリーラインを生成する。
論文 参考訳(メタデータ) (2024-02-01T04:09:17Z) - Visual Storytelling with Question-Answer Plans [70.89011289754863]
本稿では、事前訓練された言語モデルと計画に視覚表現を統合する新しいフレームワークを提案する。
我々のモデルは、画像列を視覚的な接頭辞、つまり言語モデルで解釈できる連続的な埋め込みの列に変換する。
また、一連の質問と回答のペアを青写真プランとして利用して、健全な視覚概念を選択し、物語にどのように組み立てるべきかを決定する。
論文 参考訳(メタデータ) (2023-10-08T21:45:34Z) - Text-Only Training for Visual Storytelling [107.19873669536523]
視覚条件付きストーリー生成問題として視覚的ストーリーテリングを定式化する。
本稿では,モダリティ間のアライメントとストーリー生成の学習を分離するテキストのみのトレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-17T09:32:17Z) - Intelligent Grimm -- Open-ended Visual Storytelling via Latent Diffusion
Models [70.86603627188519]
我々は,オープンエンドなビジュアルストーリーテリングとして表現された,与えられたストーリーラインに基づいてコヒーレントな画像列を生成するという,斬新で挑戦的な課題に焦点をあてる。
本稿では,新しい視覚言語コンテキストモジュールを用いた学習に基づく自動回帰画像生成モデル(StoryGen)を提案する。
StoryGenは最適化なしに文字を一般化することができ、一貫性のあるコンテンツと一貫した文字で画像列を生成する。
論文 参考訳(メタデータ) (2023-06-01T17:58:50Z) - Album Storytelling with Iterative Story-aware Captioning and Large
Language Models [86.6548090965982]
私たちはアルバムを鮮明で一貫性のあるストーリーに変える方法を研究し、これは「アルバム・ストーリーテリング」と呼ぶタスクである。
近年のLarge Language Models (LLMs) の進歩により、長いコヒーレントなテキストを生成することが可能になった。
本手法は,アルバムのコヒーレンスと鮮明さを向上し,より正確で魅力的なストーリーを効果的に生成する。
論文 参考訳(メタデータ) (2023-05-22T11:45:10Z) - What You Say Is What You Show: Visual Narration Detection in
Instructional Videos [108.77600799637172]
本稿では,映像中の行動によってナレーションが視覚的に表現されるか否かを判断する,視覚的ナレーション検出の新たな課題を紹介する。
We propose What You Say is What You Show (WYS2), a method with multi-modal cues and pseudo-labeling to learn to detect visual narrations with only weakly labeled data。
本モデルでは,映像中の視覚的ナレーションの検出に成功し,高いベースラインを達成し,映像の最先端の要約や時間的アライメントに対する影響を実証する。
論文 参考訳(メタデータ) (2023-01-05T21:43:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。