論文の概要: Similar Scenes arouse Similar Emotions: Parallel Data Augmentation for
Stylized Image Captioning
- arxiv url: http://arxiv.org/abs/2108.11912v1
- Date: Thu, 26 Aug 2021 17:08:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-27 14:13:40.597326
- Title: Similar Scenes arouse Similar Emotions: Parallel Data Augmentation for
Stylized Image Captioning
- Title(参考訳): 類似シーンは類似の感情を喚起する:スティル化画像キャプションのための並列データ拡張
- Authors: Guodun Li, Yuchen Zhai, Zehao Lin, Yin Zhang
- Abstract要約: スティル化画像キャプションシステムは、所定のスタイル記述と整合したキャプションを生成することを目的としている。
多くの研究は、データ拡張の観点から考慮することなく、教師なしのアプローチに焦点を当てている。
本稿では,小型の文からスタイル句を抽出する抽出検索生成データ拡張フレームワークを提案する。
- 参考スコア(独自算出の注目度): 3.0415487485299373
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stylized image captioning systems aim to generate a caption not only
semantically related to a given image but also consistent with a given style
description. One of the biggest challenges with this task is the lack of
sufficient paired stylized data. Many studies focus on unsupervised approaches,
without considering from the perspective of data augmentation. We begin with
the observation that people may recall similar emotions when they are in
similar scenes, and often express similar emotions with similar style phrases,
which underpins our data augmentation idea. In this paper, we propose a novel
Extract-Retrieve-Generate data augmentation framework to extract style phrases
from small-scale stylized sentences and graft them to large-scale factual
captions. First, we design the emotional signal extractor to extract style
phrases from small-scale stylized sentences. Second, we construct the plugable
multi-modal scene retriever to retrieve scenes represented with pairs of an
image and its stylized caption, which are similar to the query image or caption
in the large-scale factual data. In the end, based on the style phrases of
similar scenes and the factual description of the current scene, we build the
emotion-aware caption generator to generate fluent and diversified stylized
captions for the current scene. Extensive experimental results show that our
framework can alleviate the data scarcity problem effectively. It also
significantly boosts the performance of several existing image captioning
models in both supervised and unsupervised settings, which outperforms the
state-of-the-art stylized image captioning methods in terms of both sentence
relevance and stylishness by a substantial margin.
- Abstract(参考訳): スティル化画像キャプションシステムは、所定の画像に意味的に関連するだけでなく、所定のスタイル記述と整合したキャプションを生成することを目的としている。
このタスクの最大の課題の1つは、十分なペア化されたスタイリングデータの不足である。
多くの研究は、データ拡張の観点から考えることなく、教師なしアプローチに焦点を当てている。
私たちは、人々が似たような場面にいるときに似たような感情を思い出し、似たような感情を似たようなスタイルのフレーズで表現することから始めます。
本稿では,スタイライズされた小文からスタイル句を抽出し,それを大規模字幕にグラフトする,新しい抽出・再帰生成データ拡張フレームワークを提案する。
まず,感情信号抽出器をデザインし,スタイライズされた小文からスタイル句を抽出する。
第2に,大規模事実データにおける問合せ画像やキャプションに類似した画像とスタイル化されたキャプションのペアで表現されたシーンを検索するために,プラグイン可能なマルチモーダルシーン検索器を構築する。
最終的に、類似シーンのスタイルフレーズと現在のシーンの事実記述に基づいて、情緒認識キャプションジェネレータを構築し、現在のシーンの流動的で多彩なスタイル化されたキャプションを生成する。
広範な実験結果から,我々のフレームワークは,データの不足問題を効果的に軽減できることがわかった。
また、教師なしと教師なしの両方で既存の画像キャプションモデルの性能を著しく向上させ、文の関連性とスタイル性の両方において最先端のスタイリッシュな画像キャプション手法をかなりのマージンで上回っている。
関連論文リスト
- Story Visualization by Online Text Augmentation with Context Memory [64.86944645907771]
オンラインテキスト拡張による双方向トランスフォーマーフレームワークのための新しいメモリアーキテクチャを提案する。
提案手法は, FID, キャラクタF1, フレーム精度, BLEU-2/3, R精度など, 様々な指標において, 芸術の状態を著しく上回っている。
論文 参考訳(メタデータ) (2023-08-15T05:08:12Z) - Visual Captioning at Will: Describing Images and Videos Guided by a Few
Stylized Sentences [49.66987347397398]
Few-Shot Stylized Visual Captioningは,任意のスタイルでキャプションを生成することを目的としている。
本稿では,条件付きエンコーダ-デコーダ言語モデルとビジュアルプロジェクションモジュールを用いたFS-StyleCapというフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-31T04:26:01Z) - Image Captioning with Multi-Context Synthetic Data [16.961112970612447]
大規模なモデルは高品質な画像やテキストを作成するのに優れています。
マルチコンテキストデータ生成を導入した革新的なパイプラインを提案する。
我々のモデルは、このプロセスを通じて構築された合成画像テキストペアに特化して訓練されている。
論文 参考訳(メタデータ) (2023-05-29T13:18:59Z) - FACTUAL: A Benchmark for Faithful and Consistent Textual Scene Graph
Parsing [66.70054075041487]
画像キャプションをシーングラフに変換する既存のシーングラフは、しばしば2種類のエラーに悩まされる。
まず、生成されたシーングラフはキャプションや対応する画像の真の意味を捉えず、忠実さの欠如をもたらす。
第二に、生成されたシーングラフは一貫性が高く、同じセマンティクスは異なるアノテーションで表される。
論文 参考訳(メタデータ) (2023-05-27T15:38:31Z) - Word-Level Fine-Grained Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、動的シーンやキャラクターをまたいだグローバルな一貫性を備えた多文ストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は画像の品質と一貫性に苦慮しており、追加のセマンティック情報や補助的なキャプションネットワークに依存している。
まず,全ての物語文からの単語情報を取り入れた新しい文表現を導入し,不整合問題を緩和する。
そこで本稿では,画像の質とストーリーの整合性を改善するために,融合機能を備えた新たな識別器を提案する。
論文 参考訳(メタデータ) (2022-08-03T21:01:47Z) - CapOnImage: Context-driven Dense-Captioning on Image [13.604173177437536]
画像上のキャプション(CapOnImage)と呼ばれる新しいタスクを導入し、コンテキスト情報に基づいて画像の異なる場所で高密度キャプションを生成する。
テキストと画像位置の対応を段階的に学習するマルチレベル事前学習タスクを備えたマルチモーダル事前学習モデルを提案する。
他の画像キャプションモデルと比較すると、キャプション精度と多様性の両面で最良の結果が得られる。
論文 参考訳(メタデータ) (2022-04-27T14:40:31Z) - MOC-GAN: Mixing Objects and Captions to Generate Realistic Images [21.240099965546637]
より合理的な設定を導入し、オブジェクトやキャプションからリアルなイメージを生成します。
この設定では、オブジェクトはターゲットイメージにおける重要な役割を明示的に定義し、キャプションは、そのリッチな属性とコネクションを暗黙的に記述する。
2つのモードの入力を混合して現実的な画像を生成するMOC-GANを提案する。
論文 参考訳(メタデータ) (2021-06-06T14:04:07Z) - Matching Visual Features to Hierarchical Semantic Topics for Image
Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。
複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。
段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文 参考訳(メタデータ) (2021-05-10T06:55:39Z) - Towards Accurate Text-based Image Captioning with Content Diversity
Exploration [46.061291298616354]
テキストによる画像の読み書きを目的としたテキストベースの画像キャプション(TextCap)は、マシンが詳細で複雑なシーン環境を理解する上で不可欠である。
既存の手法では、従来の画像キャプション手法を拡張して、単一のグローバルキャプションで画像全体のシーンを記述することに注力している。
複雑なテキストと視覚情報は、1つのキャプション内でうまく記述できないため、これは不可能です。
論文 参考訳(メタデータ) (2021-04-23T08:57:47Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。