論文の概要: Towards Coherent Visual Storytelling with Ordered Image Attention
- arxiv url: http://arxiv.org/abs/2108.02180v1
- Date: Wed, 4 Aug 2021 17:12:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-05 13:49:58.635111
- Title: Towards Coherent Visual Storytelling with Ordered Image Attention
- Title(参考訳): 順序付き画像注意によるコヒーレントなビジュアルストーリーテリングに向けて
- Authors: Tom Braude, Idan Schwartz, Alexander Schwing, Ariel Shamir
- Abstract要約: 我々は秩序あるイメージアテンション(OIA)とイメージセンテンスアテンション(ISA)を開発する。
OIAは、シーケンスの他の画像における文対応画像と重要な領域間の相互作用をモデル化する。
ストーリーの文を生成するために、イメージ・センス・アテンション(ISA)を用いて重要なイメージアテンション・ベクターをハイライトする。
- 参考スコア(独自算出の注目度): 73.422281039592
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We address the problem of visual storytelling, i.e., generating a story for a
given sequence of images. While each sentence of the story should describe a
corresponding image, a coherent story also needs to be consistent and relate to
both future and past images. To achieve this we develop ordered image attention
(OIA). OIA models interactions between the sentence-corresponding image and
important regions in other images of the sequence. To highlight the important
objects, a message-passing-like algorithm collects representations of those
objects in an order-aware manner. To generate the story's sentences, we then
highlight important image attention vectors with an Image-Sentence Attention
(ISA). Further, to alleviate common linguistic mistakes like repetitiveness, we
introduce an adaptive prior. The obtained results improve the METEOR score on
the VIST dataset by 1%. In addition, an extensive human study verifies
coherency improvements and shows that OIA and ISA generated stories are more
focused, shareable, and image-grounded.
- Abstract(参考訳): 視覚的なストーリーテリングの問題、すなわち、与えられた画像列のストーリーを生成する問題に対処する。
ストーリーの各文は対応するイメージを記述する必要があるが、コヒーレントなストーリーは一貫性を持ち、未来と過去のイメージの両方に関連付ける必要がある。
そこで我々はoia(ordered image attention)を開発した。
OIAは、シーケンスの他の画像における文対応画像と重要な領域間の相互作用をモデル化する。
重要なオブジェクトを強調するために、メッセージパッシングのようなアルゴリズムは、それらのオブジェクトの表現を順序対応で収集する。
ストーリーの文章を生成するために,重要画像注意ベクトルをイメージ・センス・アテンション(isa)で強調する。
さらに,反復性などの共通言語的誤りを緩和するために,適応的前置法を導入する。
得られた結果は,VISTデータセット上でのMETEORスコアを1%改善した。
さらに、人間による広範な研究により、コヒーレンシーの改善が検証され、OIAとISAが生成したストーリーがより焦点を合わせ、共有可能、イメージグラウンド化されていることを示す。
関連論文リスト
- TARN-VIST: Topic Aware Reinforcement Network for Visual Storytelling [14.15543866199545]
クロスモーダルなタスクとして、視覚的なストーリーテリングは、順序付けられた画像シーケンスのためのストーリーを自動的に生成することを目的としている。
視覚的ストーリーテリングのための新しい手法,Topic Aware Reinforcement Network(TARN-VIST)を提案する。
特に,視覚的,言語的両面から,物語の話題情報を事前に抽出した。
論文 参考訳(メタデータ) (2024-03-18T08:01:23Z) - SCO-VIST: Social Interaction Commonsense Knowledge-based Visual
Storytelling [12.560014305032437]
本稿では、画像シーケンスをオブジェクトと関係を持つグラフとして表現するフレームワークであるSCO-VISTを紹介する。
SCO-VIST はこのグラフをプロットポイントを表し、意味的および発生に基づくエッジウェイトを持つプロットポイント間のブリッジを生成する。
この重み付きストーリーグラフは、Floyd-Warshallのアルゴリズムを用いて一連のイベントでストーリーラインを生成する。
論文 参考訳(メタデータ) (2024-02-01T04:09:17Z) - GROOViST: A Metric for Grounding Objects in Visual Storytelling [3.650221968508535]
我々は、画像に示される実体について、物語がどの程度にあるかを評価することに集中する。
本稿では,視覚的接地における相互依存,時間的ミスアライメント,人間の直感を考慮に入れた新しい評価ツールGROOViSTを提案する。
論文 参考訳(メタデータ) (2023-10-26T20:27:16Z) - Visual Storytelling with Question-Answer Plans [70.89011289754863]
本稿では、事前訓練された言語モデルと計画に視覚表現を統合する新しいフレームワークを提案する。
我々のモデルは、画像列を視覚的な接頭辞、つまり言語モデルで解釈できる連続的な埋め込みの列に変換する。
また、一連の質問と回答のペアを青写真プランとして利用して、健全な視覚概念を選択し、物語にどのように組み立てるべきかを決定する。
論文 参考訳(メタデータ) (2023-10-08T21:45:34Z) - Make-A-Story: Visual Memory Conditioned Consistent Story Generation [57.691064030235985]
本稿では,アクタと背景コンテキストを暗黙的にキャプチャするビジュアルメモリモジュールを備えた,自己回帰拡散に基づく新しいフレームワークを提案する。
本手法は,視覚的品質の高いフレーム生成において,先行技術よりも優れていた。
MUGEN, PororoSV, FlintstonesSVデータセット上でのストーリー生成実験により, この手法は, 視覚的品質の高いフレーム生成において, 先行技術よりも優れるだけでなく, キャラクタと背景との適切な対応をモデル化した。
論文 参考訳(メタデータ) (2022-11-23T21:38:51Z) - Word-Level Fine-Grained Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、動的シーンやキャラクターをまたいだグローバルな一貫性を備えた多文ストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は画像の品質と一貫性に苦慮しており、追加のセマンティック情報や補助的なキャプションネットワークに依存している。
まず,全ての物語文からの単語情報を取り入れた新しい文表現を導入し,不整合問題を緩和する。
そこで本稿では,画像の質とストーリーの整合性を改善するために,融合機能を備えた新たな識別器を提案する。
論文 参考訳(メタデータ) (2022-08-03T21:01:47Z) - Integrating Visuospatial, Linguistic and Commonsense Structure into
Story Visualization [81.26077816854449]
まず、構造的入力を符号化するための選挙区解析木の利用について検討する。
第二に、構造化されたインプットをコモンセンス情報で強化し、この外部知識が視覚的ストーリーの生成に与える影響について検討する。
第3に、境界ボックスと高密度キャプションによって視覚構造を組み込んで、生成された画像の文字やオブジェクトに関するフィードバックを提供する。
論文 参考訳(メタデータ) (2021-10-21T00:16:02Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。