論文の概要: Word-Level Fine-Grained Story Visualization
- arxiv url: http://arxiv.org/abs/2208.02341v1
- Date: Wed, 3 Aug 2022 21:01:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-05 12:05:46.823330
- Title: Word-Level Fine-Grained Story Visualization
- Title(参考訳): 単語レベルファイングラインドストーリーの可視化
- Authors: Bowen Li, Thomas Lukasiewicz
- Abstract要約: ストーリービジュアライゼーションは、動的シーンやキャラクターをまたいだグローバルな一貫性を備えた多文ストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は画像の品質と一貫性に苦慮しており、追加のセマンティック情報や補助的なキャプションネットワークに依存している。
まず,全ての物語文からの単語情報を取り入れた新しい文表現を導入し,不整合問題を緩和する。
そこで本稿では,画像の質とストーリーの整合性を改善するために,融合機能を備えた新たな識別器を提案する。
- 参考スコア(独自算出の注目度): 58.16484259508973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Story visualization aims to generate a sequence of images to narrate each
sentence in a multi-sentence story with a global consistency across dynamic
scenes and characters. Current works still struggle with output images' quality
and consistency, and rely on additional semantic information or auxiliary
captioning networks. To address these challenges, we first introduce a new
sentence representation, which incorporates word information from all story
sentences to mitigate the inconsistency problem. Then, we propose a new
discriminator with fusion features and further extend the spatial attention to
improve image quality and story consistency. Extensive experiments on different
datasets and human evaluation demonstrate the superior performance of our
approach, compared to state-of-the-art methods, neither using segmentation
masks nor auxiliary captioning networks.
- Abstract(参考訳): ストーリービジュアライゼーションは、動的シーンやキャラクターをまたいだグローバルな一貫性を備えた多文ストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は画像の品質と一貫性に苦慮しており、追加のセマンティック情報や補助的なキャプションネットワークに依存している。
これらの課題に対処するために,まず,不整合問題を解決するために,全文からの単語情報を取り入れた新しい文表現を導入する。
そこで我々は,画像の質とストーリーの整合性を改善するために,融合特徴を持つ新たな識別器を提案する。
分割マスクや補助キャプションネットワークを用いず, 最先端の手法と比較して, 異なるデータセットと人体評価の広範な実験により, アプローチの優れた性能を示した。
関連論文リスト
- Context-aware Visual Storytelling with Visual Prefix Tuning and Contrastive Learning [2.401993998791928]
本稿では、モダリティを接続するための軽量な視覚言語マッピングネットワークを訓練するフレームワークを提案する。
視覚的関連性やストーリー情報性も向上するマルチモーダルなコントラスト目標を提案する。
論文 参考訳(メタデータ) (2024-08-12T16:15:32Z) - Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。
GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文 参考訳(メタデータ) (2022-11-14T11:41:44Z) - Guiding Attention using Partial-Order Relationships for Image Captioning [2.620091916172863]
誘導注意ネットワーク機構は、視覚シーンとテキスト記述の関係を利用する。
この埋め込み空間は、共有セマンティック空間における類似の画像、トピック、キャプションを許容する。
MSCOCOデータセットに基づく実験結果は,我々のアプローチの競争力を示している。
論文 参考訳(メタデータ) (2022-04-15T14:22:09Z) - Towards Coherent Visual Storytelling with Ordered Image Attention [73.422281039592]
我々は秩序あるイメージアテンション(OIA)とイメージセンテンスアテンション(ISA)を開発する。
OIAは、シーケンスの他の画像における文対応画像と重要な領域間の相互作用をモデル化する。
ストーリーの文を生成するために、イメージ・センス・アテンション(ISA)を用いて重要なイメージアテンション・ベクターをハイライトする。
論文 参考訳(メタデータ) (2021-08-04T17:12:39Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - Matching Visual Features to Hierarchical Semantic Topics for Image
Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。
複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。
段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文 参考訳(メタデータ) (2021-05-10T06:55:39Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。