論文の概要: Vision Transformer Based Model for Describing a Set of Images as a Story
- arxiv url: http://arxiv.org/abs/2210.02762v1
- Date: Thu, 6 Oct 2022 09:01:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 14:57:03.082495
- Title: Vision Transformer Based Model for Describing a Set of Images as a Story
- Title(参考訳): 画像集合をストーリーとして記述するための視覚トランスフォーマーモデル
- Authors: Zainy M. Malakan, Ghulam Mubashar Hassan, and Ajmal Mian
- Abstract要約: 本稿では,画像の集合を物語として記述する新しいビジョントランスフォーマーベースモデルを提案する。
提案手法は視覚変換器(ViT)を用いて入力画像の特徴を抽出する。
提案モデルの性能はVisual Story-Telling dataset (VIST)を用いて評価する。
- 参考スコア(独自算出の注目度): 23.77172199742202
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Story-Telling is the process of forming a multi-sentence story from a
set of images. Appropriately including visual variation and contextual
information captured inside the input images is one of the most challenging
aspects of visual storytelling. Consequently, stories developed from a set of
images often lack cohesiveness, relevance, and semantic relationship. In this
paper, we propose a novel Vision Transformer Based Model for describing a set
of images as a story. The proposed method extracts the distinct features of the
input images using a Vision Transformer (ViT). Firstly, input images are
divided into 16X16 patches and bundled into a linear projection of flattened
patches. The transformation from a single image to multiple image patches
captures the visual variety of the input visual patterns. These features are
used as input to a Bidirectional-LSTM which is part of the sequence encoder.
This captures the past and future image context of all image patches. Then, an
attention mechanism is implemented and used to increase the discriminatory
capacity of the data fed into the language model, i.e. a Mogrifier-LSTM. The
performance of our proposed model is evaluated using the Visual Story-Telling
dataset (VIST), and the results show that our model outperforms the current
state of the art models.
- Abstract(参考訳): ビジュアルストーリーテリング(Visual Story-Telling)は、画像の集合から多文ストーリーを形成するプロセスである。
入力画像内の視覚的変化やコンテキスト情報を含めることは、視覚的ストーリーテリングの最も難しい側面の1つである。
その結果、一連の画像から発展したストーリーは、結束性、関連性、意味関係を欠くことが多い。
本稿では,画像の集合を物語として記述するための新しい視覚変換器ベースモデルを提案する。
提案手法は視覚変換器(ViT)を用いて入力画像の特徴を抽出する。
まず、入力画像を16×16パッチに分割し、フラット化されたパッチの線形投影に束ねる。
単一のイメージから複数のイメージパッチへの変換は、入力された視覚パターンの視覚的多様性をキャプチャする。
これらの機能は、シーケンスエンコーダの一部である双方向LSTMへの入力として使用される。
これはすべてのイメージパッチの過去と将来のイメージコンテキストをキャプチャする。
次に、注意機構を実装して、言語モデル、すなわちMogrifier-LSTMに入力されたデータの識別能力を高める。
提案モデルの性能はVisual Story-Telling dataset (VIST) を用いて評価し,本モデルが現在の技術モデルよりも優れていることを示す。
関連論文リスト
- AdaptVision: Dynamic Input Scaling in MLLMs for Versatile Scene Understanding [96.01726275876548]
本稿では,様々な解像度の入力画像を動的に処理するマルチモーダルな大規模言語モデルAdaptVisionを提案する。
画像のサイズやアスペクト比に応じて視覚トークンの数を調整する動的画像分割モジュールを考案する。
私たちのモデルは、解像度1008倍の1008ドルまでの画像を処理できます。
論文 参考訳(メタデータ) (2024-08-30T03:16:49Z) - Translatotron-V(ison): An End-to-End Model for In-Image Machine Translation [81.45400849638347]
In-image Machine Translation (IIMT) は、ソース言語のテキストを含む画像をターゲット言語の翻訳を含む画像に変換することを目的としている。
本稿では,4つのモジュールからなるエンドツーエンドIIMTモデルを提案する。
本モデルでは,70.9%のパラメータしか持たないカスケードモデルと比較して競争性能が向上し,画素レベルのエンド・ツー・エンドIIMTモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-07-03T08:15:39Z) - Conditional Diffusion on Web-Scale Image Pairs leads to Diverse Image Variations [32.892042877725125]
現在の画像変化技術では、同じ画像に条件付けされた入力画像の再構成にテキスト・ツー・イメージ・モデルを適用する。
凍結した埋め込み画像から入力画像の再構成を訓練した拡散モデルにより,小さなバリエーションで画像の再構成が可能であることを示す。
本稿では,画像ペアの集合を用いて画像の変動を生成するための事前学習手法を提案する。
論文 参考訳(メタデータ) (2024-05-23T17:58:03Z) - Pix2Gif: Motion-Guided Diffusion for GIF Generation [70.64240654310754]
画像からGIF(ビデオ)生成のための移動誘導拡散モデルPix2Gifを提案する。
本研究では,2種類のプロンプトに条件付きソース画像の特徴を空間的に変換する動き誘導型ワープモジュールを提案する。
モデルトレーニングの準備として、TGIFビデオキャプチャデータセットからコヒーレントな画像フレームを抽出し、精巧にデータをキュレートした。
論文 参考訳(メタデータ) (2024-03-07T16:18:28Z) - Character-Centric Story Visualization via Visual Planning and Token
Alignment [53.44760407148918]
ストーリービジュアライゼーションは、完全なストーリーに基づいた複数の画像生成を可能にすることによって、従来のテキスト・画像生成を前進させる。
一貫性のあるストーリービジュアライゼーションの主な課題は、ストーリーに不可欠な文字を保存することです。
本稿では,Vector-Quantized Variational Autoencoderをテキスト・tovisual-tokenアーキテクチャで拡張する最近の研究に適応することを提案する。
論文 参考訳(メタデータ) (2022-10-16T06:50:39Z) - StoryDALL-E: Adapting Pretrained Text-to-Image Transformers for Story
Continuation [76.44802273236081]
生成したビジュアルストーリーをソースイメージに条件付けしたストーリー継続のためのモデルであるStoryDALL-Eを開発した。
提案手法は, ストーリー継続のためのGANモデルよりも優れており, 画像からの視覚要素のコピーを容易にする。
全体として、本研究は、事前訓練されたテキスト-画像合成モデルがストーリー継続のような複雑で低リソースなタスクに適応できることを実証している。
論文 参考訳(メタデータ) (2022-09-13T17:47:39Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。