論文の概要: MAGIC: Multimodal relAtional Graph adversarIal inferenCe for Diverse and
Unpaired Text-based Image Captioning
- arxiv url: http://arxiv.org/abs/2112.06558v1
- Date: Mon, 13 Dec 2021 11:00:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-14 15:10:22.596500
- Title: MAGIC: Multimodal relAtional Graph adversarIal inferenCe for Diverse and
Unpaired Text-based Image Captioning
- Title(参考訳): MAGIC:多変量テキストベース画像キャプションのためのマルチモーダルレゾナルグラフ逆数型インフェレンCe
- Authors: Wenqiao Zhang, Haochen Shi, Jiannan Guo, Shengyu Zhang, Qingpeng Cai,
Juncheng Li, Sihui Luo, Yueting Zhuang
- Abstract要約: テキストベースの画像は、豊富で複雑なマルチモーダルリレーショナルコンテンツを直感的に含む。
マルチモーダル relAtional Graph adversarIal inferenCe framework for various and unpaired TextCap。
画像の異なる関係情報項目から多種多様なキャプションを生成するためのMAGICの有効性を検証する。
- 参考スコア(独自算出の注目度): 46.4308182215488
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-based image captioning (TextCap) requires simultaneous comprehension of
visual content and reading the text of images to generate a natural language
description. Although a task can teach machines to understand the complex human
environment further given that text is omnipresent in our daily surroundings,
it poses additional challenges in normal captioning. A text-based image
intuitively contains abundant and complex multimodal relational content, that
is, image details can be described diversely from multiview rather than a
single caption. Certainly, we can introduce additional paired training data to
show the diversity of images' descriptions, this process is labor-intensive and
time-consuming for TextCap pair annotations with extra texts. Based on the
insight mentioned above, we investigate how to generate diverse captions that
focus on different image parts using an unpaired training paradigm. We propose
the Multimodal relAtional Graph adversarIal inferenCe (MAGIC) framework for
diverse and unpaired TextCap. This framework can adaptively construct multiple
multimodal relational graphs of images and model complex relationships among
graphs to represent descriptive diversity. Moreover, a cascaded generative
adversarial network is developed from modeled graphs to infer the unpaired
caption generation in image-sentence feature alignment and linguistic coherence
levels. We validate the effectiveness of MAGIC in generating diverse captions
from different relational information items of an image. Experimental results
show that MAGIC can generate very promising outcomes without using any
image-caption training pairs.
- Abstract(参考訳): テキストベースの画像キャプション(textcap)は、自然言語記述を生成するために、視覚コンテンツと画像のテキストを同時に理解する必要がある。
テキストが日常の環境において一様であることを考えると、タスクは機械に複雑な人間の環境を理解するように教えることができるが、通常のキャプションではさらなる課題が生じる。
テキストベースの画像は、直感的に、豊富で複雑なマルチモーダルな関係コンテンツを含み、つまり、画像の詳細は単一のキャプションではなく、多視点から多様に記述できる。
画像記述の多様性を示すために、追加のペアトレーニングデータを導入することもできるが、このプロセスは、余分なテキストを含むTextCapペアアノテーションに対して、労働集約的で時間を要する。
上記の知見に基づいて,非ペアトレーニングパラダイムを用いて,異なる画像部分に焦点を当てた多様なキャプションを生成する方法について検討する。
本稿では,多種多様かつ非連結なテキストキャプチャのための多様関係グラフ逆推論(magic)フレームワークを提案する。
このフレームワークは、画像の複数のマルチモーダル関係グラフを適応的に構築し、記述的多様性を表現するグラフ間の複雑な関係をモデル化することができる。
さらに、モデルグラフからカスケード生成対向ネットワークを開発し、画像文の特徴アライメントと言語的コヒーレンスレベルにおける未ペア字幕生成を推定する。
画像の異なる関係情報項目から多種多様なキャプションを生成するためのMAGICの有効性を検証する。
実験結果から、MAGICは画像キャプチャトレーニングペアを使わずに、非常に有望な結果が得られることが示された。
関連論文リスト
- Text Data-Centric Image Captioning with Interactive Prompts [20.48013600818985]
画像キャプションの監視手法は大きな進歩を遂げているが,高品質な人手による画像テキストデータの収集は困難である。
本稿では,Interactive Prompts を用いた新しいテキストデータ中心型画像キャプタリング手法 TIPCap を提案する。
論文 参考訳(メタデータ) (2024-03-28T07:43:49Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - Multi-Modal Representation Learning with Text-Driven Soft Masks [48.19806080407593]
自己教師型学習フレームワークにおける視覚言語表現学習手法を提案する。
画像中の領域をソフトメイキングすることで、画像テキストマッチング(ITM)タスクの多様な特徴を生成する。
マルチモーダルエンコーダを用いて単語条件の視覚的注意を計算し,各単語に関連する領域を同定する。
論文 参考訳(メタデータ) (2023-04-03T05:07:49Z) - Unified Multi-Modal Latent Diffusion for Joint Subject and Text
Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。
より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。
入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-03-16T13:50:20Z) - Matching Visual Features to Hierarchical Semantic Topics for Image
Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。
複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。
段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文 参考訳(メタデータ) (2021-05-10T06:55:39Z) - Multi-Modal Reasoning Graph for Scene-Text Based Fine-Grained Image
Classification and Retrieval [8.317191999275536]
本稿では,視覚的・テキスト的手がかりの形でマルチモーダルコンテンツを活用することで,微細な画像分類と検索の課題に取り組むことに焦点を当てる。
画像中の有意なオブジェクトとテキスト間の共通意味空間を学習することにより、マルチモーダル推論を行い、関係強化された特徴を得るためにグラフ畳み込みネットワークを用いる。
論文 参考訳(メタデータ) (2020-09-21T12:31:42Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。