Fugu-MT 論文翻訳(概要): Multimodal Event Transformer for Image-guided Story Ending Generation

論文の概要: Multimodal Event Transformer for Image-guided Story Ending Generation

arxiv url: http://arxiv.org/abs/2301.11357v1
Date: Thu, 26 Jan 2023 19:10:07 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-30 17:24:07.135502
Title: Multimodal Event Transformer for Image-guided Story Ending Generation
Title（参考訳）: 画像誘導ストーリーエンディング生成のためのマルチモーダルイベントトランス
Authors: Yucheng Zhou, Guodong Long
Abstract要約: 画像誘導ストーリーエンディング生成(IgSEG)は、与えられたストーリープロットとエンディング画像に基づいてストーリーエンディングを生成する。既存の手法は、クロスモーダルな特徴融合に重点を置いているが、ストーリープロットやエンディングイメージから暗黙の情報を推論し、マイニングするのを見落としている。 IgSEGのイベントベースの推論フレームワークであるマルチモーダルイベントトランスフォーマーを提案する。
参考スコア（独自算出の注目度）: 36.1319565907582
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Image-guided story ending generation (IgSEG) is to generate a story ending based on given story plots and ending image. Existing methods focus on cross-modal feature fusion but overlook reasoning and mining implicit information from story plots and ending image. To tackle this drawback, we propose a multimodal event transformer, an event-based reasoning framework for IgSEG. Specifically, we construct visual and semantic event graphs from story plots and ending image, and leverage event-based reasoning to reason and mine implicit information in a single modality. Next, we connect visual and semantic event graphs and utilize cross-modal fusion to integrate different-modality features. In addition, we propose a multimodal injector to adaptive pass essential information to decoder. Besides, we present an incoherence detection to enhance the understanding context of a story plot and the robustness of graph modeling for our model. Experimental results show that our method achieves state-of-the-art performance for the image-guided story ending generation.
Abstract（参考訳）: 画像誘導ストーリーエンディング生成(IgSEG)は、与えられたストーリープロットとエンディング画像に基づいてストーリーエンディングを生成する。既存の手法では、クロスモーダルな特徴融合にフォーカスしているが、推論や、ストーリープロットやエンディングイメージからの暗黙の情報のマイニングは見落としている。この欠点に対処するため、IgSEGのイベントベースの推論フレームワークであるマルチモーダルイベントトランスフォーマーを提案する。具体的には、ストーリープロットとエンドイメージから視覚的かつセマンティックなイベントグラフを構築し、イベントベースの推論を利用して、暗黙の情報を単一のモダリティで推論しマイニングする。次に,視覚的およびセマンティックなイベントグラフを接続し,クロスモーダル融合を利用して異なるモーダリティ機能を統合する。さらに,デコーダに必須情報を適応的に渡すマルチモーダルインジェクタを提案する。さらに,ストーリープロットの文脈理解とモデルに対するグラフモデリングの堅牢性を高めるために,一貫性のない検出手法を提案する。実験結果から,本手法は画像誘導ストーリーエンディング生成のための最先端性能を実現する。

関連論文リスト

Consistent Story Generation with Asymmetry Zigzag Sampling [24.504304503689866]
非対称なプロンプトとビジュアルシェアリングを備えたZigzag Smplingと呼ばれる新しいトレーニング不要サンプリング戦略を導入する。提案手法は、非対称なプロンプト間の交互に対象特性を保持するジグザグサンプリング機構を提案する。本手法は,コヒーレントで一貫した視覚的ストーリーの生成において,従来の手法よりも優れていた。
論文参考訳（メタデータ） (2025-06-11T11:14:27Z)
ImageChain: Advancing Sequential Image-to-Text Reasoning in Multimodal Large Language Models [12.265270657795275]
ImageChainは、画像データに対するシーケンシャルな推論機能を備えたMLLMを強化するフレームワークである。提案手法は,次の場面における記述課題の性能向上に寄与する。 ImageChainは、コミックからロボティクスまで幅広いアプリケーションにおいて、堅牢なゼロショット・アウト・オブ・ドメインのパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-02-26T18:55:06Z)
Scene Graph Disentanglement and Composition for Generalizable Complex Image Generation [44.457347230146404]
我々は、複雑な画像生成に強力な構造化表現であるシーングラフを利用する。本稿では,変分オートエンコーダと拡散モデルの生成能力を一般化可能な方法で活用する。本手法は,テキスト,レイアウト,シーングラフに基づいて,近年の競合より優れています。
論文参考訳（メタデータ） (2024-10-01T07:02:46Z)
StoryImager: A Unified and Efficient Framework for Coherent Story Visualization and Completion [78.1014542102578]
ストーリービジュアライゼーションは、ストーリーラインに基づいて現実的で一貫性のある画像を生成することを目的としている。現在のモデルは、事前訓練されたテキストから画像へのモデルを自動回帰的な方法で変換することで、フレーム・バイ・フレームアーキテクチャを採用している。双方向で統一的で効率的なフレームワーク,すなわちStoryImagerを提案する。
論文参考訳（メタデータ） (2024-04-09T03:22:36Z)
EventDance: Unsupervised Source-free Cross-modal Adaptation for Event-based Object Recognition [9.573188010530217]
我々は、ラベル付きソース画像データにアクセスすることなく、イベントベースのオブジェクト認識のためのクロスモーダル(画像からイベントへの)適応を実現するための最初の試みを行う。我々は、この教師なしソースフリーのクロスモーダル適応問題に対して、EventDanceと呼ばれる新しいフレームワークを提案する。 2つの設定を持つ3つのベンチマークデータセットの実験は、EventDanceがソースデータを利用する以前のメソッドと同等であることを示している。
論文参考訳（メタデータ） (2024-03-21T02:19:54Z)
TARN-VIST: Topic Aware Reinforcement Network for Visual Storytelling [14.15543866199545]
クロスモーダルなタスクとして、視覚的なストーリーテリングは、順序付けられた画像シーケンスのためのストーリーを自動的に生成することを目的としている。視覚的ストーリーテリングのための新しい手法,Topic Aware Reinforcement Network(TARN-VIST)を提案する。特に,視覚的,言語的両面から,物語の話題情報を事前に抽出した。
論文参考訳（メタデータ） (2024-03-18T08:01:23Z)
StoryDALL-E: Adapting Pretrained Text-to-Image Transformers for Story Continuation [76.44802273236081]
生成したビジュアルストーリーをソースイメージに条件付けしたストーリー継続のためのモデルであるStoryDALL-Eを開発した。提案手法は, ストーリー継続のためのGANモデルよりも優れており, 画像からの視覚要素のコピーを容易にする。全体として、本研究は、事前訓練されたテキスト-画像合成モデルがストーリー継続のような複雑で低リソースなタスクに適応できることを実証している。
論文参考訳（メタデータ） (2022-09-13T17:47:39Z)
SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense Reasoning [61.57887011165744]
マルチモーダルトランスフォーマーはVisual Commonsense Reasoningのタスクにおいて大きな進歩を遂げた。視覚的なシーングラフを常識的推論に組み込むためのScene Graph Enhanced Image-Text Learningフレームワークを提案する。
論文参考訳（メタデータ） (2021-12-16T03:16:30Z)
Improving Generation and Evaluation of Visual Stories via Semantic Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文参考訳（メタデータ） (2021-05-20T20:42:42Z)
Dynamic Graph Representation Learning for Video Dialog via Multi-Modal Shuffled Transformers [89.00926092864368]
音声・視覚シーン認識ダイアログタスクのためのセマンティクス制御型マルチモーダルシャッフルトランスフォーマー推論フレームワークを提案する。また,フレーム内推論層を用いた動的シーングラフ表現学習パイプラインを提案する。その結果,全ての評価指標について最先端の性能を示すことができた。
論文参考訳（メタデータ） (2020-07-08T02:00:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。