論文の概要: Multimodal Event Transformer for Image-guided Story Ending Generation
- arxiv url: http://arxiv.org/abs/2301.11357v1
- Date: Thu, 26 Jan 2023 19:10:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-30 17:24:07.135502
- Title: Multimodal Event Transformer for Image-guided Story Ending Generation
- Title(参考訳): 画像誘導ストーリーエンディング生成のためのマルチモーダルイベントトランス
- Authors: Yucheng Zhou, Guodong Long
- Abstract要約: 画像誘導ストーリーエンディング生成(IgSEG)は、与えられたストーリープロットとエンディング画像に基づいてストーリーエンディングを生成する。
既存の手法は、クロスモーダルな特徴融合に重点を置いているが、ストーリープロットやエンディングイメージから暗黙の情報を推論し、マイニングするのを見落としている。
IgSEGのイベントベースの推論フレームワークであるマルチモーダルイベントトランスフォーマーを提案する。
- 参考スコア(独自算出の注目度): 36.1319565907582
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-guided story ending generation (IgSEG) is to generate a story ending
based on given story plots and ending image. Existing methods focus on
cross-modal feature fusion but overlook reasoning and mining implicit
information from story plots and ending image. To tackle this drawback, we
propose a multimodal event transformer, an event-based reasoning framework for
IgSEG. Specifically, we construct visual and semantic event graphs from story
plots and ending image, and leverage event-based reasoning to reason and mine
implicit information in a single modality. Next, we connect visual and semantic
event graphs and utilize cross-modal fusion to integrate different-modality
features. In addition, we propose a multimodal injector to adaptive pass
essential information to decoder. Besides, we present an incoherence detection
to enhance the understanding context of a story plot and the robustness of
graph modeling for our model. Experimental results show that our method
achieves state-of-the-art performance for the image-guided story ending
generation.
- Abstract(参考訳): 画像誘導ストーリーエンディング生成(IgSEG)は、与えられたストーリープロットとエンディング画像に基づいてストーリーエンディングを生成する。
既存の手法では、クロスモーダルな特徴融合にフォーカスしているが、推論や、ストーリープロットやエンディングイメージからの暗黙の情報のマイニングは見落としている。
この欠点に対処するため、IgSEGのイベントベースの推論フレームワークであるマルチモーダルイベントトランスフォーマーを提案する。
具体的には、ストーリープロットとエンドイメージから視覚的かつセマンティックなイベントグラフを構築し、イベントベースの推論を利用して、暗黙の情報を単一のモダリティで推論しマイニングする。
次に,視覚的およびセマンティックなイベントグラフを接続し,クロスモーダル融合を利用して異なるモーダリティ機能を統合する。
さらに,デコーダに必須情報を適応的に渡すマルチモーダルインジェクタを提案する。
さらに,ストーリープロットの文脈理解とモデルに対するグラフモデリングの堅牢性を高めるために,一貫性のない検出手法を提案する。
実験結果から,本手法は画像誘導ストーリーエンディング生成のための最先端性能を実現する。
関連論文リスト
- Scene Graph Disentanglement and Composition for Generalizable Complex Image Generation [44.457347230146404]
我々は、複雑な画像生成に強力な構造化表現であるシーングラフを利用する。
本稿では,変分オートエンコーダと拡散モデルの生成能力を一般化可能な方法で活用する。
本手法は,テキスト,レイアウト,シーングラフに基づいて,近年の競合より優れています。
論文 参考訳(メタデータ) (2024-10-01T07:02:46Z) - StoryImager: A Unified and Efficient Framework for Coherent Story Visualization and Completion [78.1014542102578]
ストーリービジュアライゼーションは、ストーリーラインに基づいて現実的で一貫性のある画像を生成することを目的としている。
現在のモデルは、事前訓練されたテキストから画像へのモデルを自動回帰的な方法で変換することで、フレーム・バイ・フレームアーキテクチャを採用している。
双方向で統一的で効率的なフレームワーク,すなわちStoryImagerを提案する。
論文 参考訳(メタデータ) (2024-04-09T03:22:36Z) - EventDance: Unsupervised Source-free Cross-modal Adaptation for Event-based Object Recognition [9.573188010530217]
我々は、ラベル付きソース画像データにアクセスすることなく、イベントベースのオブジェクト認識のためのクロスモーダル(画像からイベントへの)適応を実現するための最初の試みを行う。
我々は、この教師なしソースフリーのクロスモーダル適応問題に対して、EventDanceと呼ばれる新しいフレームワークを提案する。
2つの設定を持つ3つのベンチマークデータセットの実験は、EventDanceがソースデータを利用する以前のメソッドと同等であることを示している。
論文 参考訳(メタデータ) (2024-03-21T02:19:54Z) - TARN-VIST: Topic Aware Reinforcement Network for Visual Storytelling [14.15543866199545]
クロスモーダルなタスクとして、視覚的なストーリーテリングは、順序付けられた画像シーケンスのためのストーリーを自動的に生成することを目的としている。
視覚的ストーリーテリングのための新しい手法,Topic Aware Reinforcement Network(TARN-VIST)を提案する。
特に,視覚的,言語的両面から,物語の話題情報を事前に抽出した。
論文 参考訳(メタデータ) (2024-03-18T08:01:23Z) - StoryDALL-E: Adapting Pretrained Text-to-Image Transformers for Story
Continuation [76.44802273236081]
生成したビジュアルストーリーをソースイメージに条件付けしたストーリー継続のためのモデルであるStoryDALL-Eを開発した。
提案手法は, ストーリー継続のためのGANモデルよりも優れており, 画像からの視覚要素のコピーを容易にする。
全体として、本研究は、事前訓練されたテキスト-画像合成モデルがストーリー継続のような複雑で低リソースなタスクに適応できることを実証している。
論文 参考訳(メタデータ) (2022-09-13T17:47:39Z) - SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense
Reasoning [61.57887011165744]
マルチモーダルトランスフォーマーはVisual Commonsense Reasoningのタスクにおいて大きな進歩を遂げた。
視覚的なシーングラフを常識的推論に組み込むためのScene Graph Enhanced Image-Text Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-16T03:16:30Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - Dynamic Graph Representation Learning for Video Dialog via Multi-Modal
Shuffled Transformers [89.00926092864368]
音声・視覚シーン認識ダイアログタスクのためのセマンティクス制御型マルチモーダルシャッフルトランスフォーマー推論フレームワークを提案する。
また,フレーム内推論層を用いた動的シーングラフ表現学習パイプラインを提案する。
その結果,全ての評価指標について最先端の性能を示すことができた。
論文 参考訳(メタデータ) (2020-07-08T02:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。