論文の概要: Multimodal Event Transformer for Image-guided Story Ending Generation
- arxiv url: http://arxiv.org/abs/2301.11357v1
- Date: Thu, 26 Jan 2023 19:10:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-30 17:24:07.135502
- Title: Multimodal Event Transformer for Image-guided Story Ending Generation
- Title(参考訳): 画像誘導ストーリーエンディング生成のためのマルチモーダルイベントトランス
- Authors: Yucheng Zhou, Guodong Long
- Abstract要約: 画像誘導ストーリーエンディング生成(IgSEG)は、与えられたストーリープロットとエンディング画像に基づいてストーリーエンディングを生成する。
既存の手法は、クロスモーダルな特徴融合に重点を置いているが、ストーリープロットやエンディングイメージから暗黙の情報を推論し、マイニングするのを見落としている。
IgSEGのイベントベースの推論フレームワークであるマルチモーダルイベントトランスフォーマーを提案する。
- 参考スコア(独自算出の注目度): 36.1319565907582
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-guided story ending generation (IgSEG) is to generate a story ending
based on given story plots and ending image. Existing methods focus on
cross-modal feature fusion but overlook reasoning and mining implicit
information from story plots and ending image. To tackle this drawback, we
propose a multimodal event transformer, an event-based reasoning framework for
IgSEG. Specifically, we construct visual and semantic event graphs from story
plots and ending image, and leverage event-based reasoning to reason and mine
implicit information in a single modality. Next, we connect visual and semantic
event graphs and utilize cross-modal fusion to integrate different-modality
features. In addition, we propose a multimodal injector to adaptive pass
essential information to decoder. Besides, we present an incoherence detection
to enhance the understanding context of a story plot and the robustness of
graph modeling for our model. Experimental results show that our method
achieves state-of-the-art performance for the image-guided story ending
generation.
- Abstract(参考訳): 画像誘導ストーリーエンディング生成(IgSEG)は、与えられたストーリープロットとエンディング画像に基づいてストーリーエンディングを生成する。
既存の手法では、クロスモーダルな特徴融合にフォーカスしているが、推論や、ストーリープロットやエンディングイメージからの暗黙の情報のマイニングは見落としている。
この欠点に対処するため、IgSEGのイベントベースの推論フレームワークであるマルチモーダルイベントトランスフォーマーを提案する。
具体的には、ストーリープロットとエンドイメージから視覚的かつセマンティックなイベントグラフを構築し、イベントベースの推論を利用して、暗黙の情報を単一のモダリティで推論しマイニングする。
次に,視覚的およびセマンティックなイベントグラフを接続し,クロスモーダル融合を利用して異なるモーダリティ機能を統合する。
さらに,デコーダに必須情報を適応的に渡すマルチモーダルインジェクタを提案する。
さらに,ストーリープロットの文脈理解とモデルに対するグラフモデリングの堅牢性を高めるために,一貫性のない検出手法を提案する。
実験結果から,本手法は画像誘導ストーリーエンディング生成のための最先端性能を実現する。
関連論文リスト
- Joint Generative Modeling of Scene Graphs and Images via Diffusion
Models [37.788957749123725]
共同シーングラフ - 画像生成という,新しい生成タスクを提案する。
本稿では,隣接行列と不均一なノードとエッジ属性を併用した新しい拡散モデルDiffuseSGを提案する。
グラフ変換器をデノイザとし、DiffuseSGは連続空間におけるシーングラフ表現を連続的にデノイズし、最終表現を識別してクリーンなシーングラフを生成する。
論文 参考訳(メタデータ) (2024-01-02T10:10:29Z) - Vision Transformer Based Model for Describing a Set of Images as a Story [26.717033245063092]
本稿では,画像の集合を物語として記述する新しいビジョントランスフォーマーベースモデルを提案する。
提案手法は視覚変換器(ViT)を用いて入力画像の特徴を抽出する。
提案モデルの性能はVisual Story-Telling dataset (VIST)を用いて評価する。
論文 参考訳(メタデータ) (2022-10-06T09:01:50Z) - StoryDALL-E: Adapting Pretrained Text-to-Image Transformers for Story
Continuation [76.44802273236081]
生成したビジュアルストーリーをソースイメージに条件付けしたストーリー継続のためのモデルであるStoryDALL-Eを開発した。
提案手法は, ストーリー継続のためのGANモデルよりも優れており, 画像からの視覚要素のコピーを容易にする。
全体として、本研究は、事前訓練されたテキスト-画像合成モデルがストーリー継続のような複雑で低リソースなタスクに適応できることを実証している。
論文 参考訳(メタデータ) (2022-09-13T17:47:39Z) - CLIP-Event: Connecting Text and Images with Event Structures [123.31452120399827]
視覚言語事前学習モデルを適用したコントラスト学習フレームワークを提案する。
我々は、イベント構造知識を得るために、テキスト情報抽出技術を利用する。
実験により、ゼロショットCLIP-Eventは引数抽出において最先端の教師付きモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2022-01-13T17:03:57Z) - SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense
Reasoning [61.57887011165744]
マルチモーダルトランスフォーマーはVisual Commonsense Reasoningのタスクにおいて大きな進歩を遂げた。
視覚的なシーングラフを常識的推論に組み込むためのScene Graph Enhanced Image-Text Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-16T03:16:30Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - GraphPlan: Story Generation by Planning with Event Graph [31.29515089313627]
イベントグラフを補助する一連のイベントを計画することに集中し、イベントを使用してジェネレータをガイドします。
本稿では,シーケンス・ツー・シーケンス・モデルを用いてストーリーラインを出力する代わりに,イベントグラフ上を歩くことでイベントシーケンスを生成することを提案する。
論文 参考訳(メタデータ) (2021-02-05T03:18:55Z) - Dynamic Graph Representation Learning for Video Dialog via Multi-Modal
Shuffled Transformers [89.00926092864368]
音声・視覚シーン認識ダイアログタスクのためのセマンティクス制御型マルチモーダルシャッフルトランスフォーマー推論フレームワークを提案する。
また,フレーム内推論層を用いた動的シーングラフ表現学習パイプラインを提案する。
その結果,全ての評価指標について最先端の性能を示すことができた。
論文 参考訳(メタデータ) (2020-07-08T02:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。