論文の概要: Cycle Text-To-Image GAN with BERT
- arxiv url: http://arxiv.org/abs/2003.12137v1
- Date: Thu, 26 Mar 2020 20:17:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-19 21:57:40.670422
- Title: Cycle Text-To-Image GAN with BERT
- Title(参考訳): BERTを用いた周期テキスト・画像GAN
- Authors: Trevor Tsue, Samir Sen, Jason Li
- Abstract要約: 我々は、単語から画像特徴への注意マッピングを学習するアテンションベースのGANを構築した。
説明文の特徴をよりよく把握するために,画像を元のキャプションにマッピングする逆関数を学習する,新しいサイクリックデザインを構築した。
- 参考スコア(独自算出の注目度): 1.9109428751143172
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: We explore novel approaches to the task of image generation from their
respective captions, building on state-of-the-art GAN architectures.
Particularly, we baseline our models with the Attention-based GANs that learn
attention mappings from words to image features. To better capture the features
of the descriptions, we then built a novel cyclic design that learns an inverse
function to maps the image back to original caption. Additionally, we
incorporated recently developed BERT pretrained word embeddings as our initial
text featurizer and observe a noticeable improvement in qualitative and
quantitative performance compared to the Attention GAN baseline.
- Abstract(参考訳): 我々は,最先端のganアーキテクチャを基盤とした,それぞれのキャプションから画像生成タスクへの新たなアプローチを検討する。
特に、単語から画像特徴への注意マッピングを学習する注意型GANを用いて、モデルをベースライン化する。
説明文の特徴をよりよく把握するために,画像を元のキャプションにマッピングする逆関数を学習する,新しいサイクリックデザインを構築した。
さらに,最近開発されたBERT事前学習単語埋め込みを初期テキストデファクチャライザとして組み込んで,Attention GANベースラインと比較して定性的,定量的な性能向上を目立たせるようにした。
関連論文リスト
- CLIP-SCGI: Synthesized Caption-Guided Inversion for Person Re-Identification [9.996589403019675]
person re-identification (ReID) は Contrastive Language-Image Pre-Training (CLIP) のような大規模な事前訓練された視覚言語モデルの恩恵を受けている。
本稿では、既存の画像キャプションモデルを利用して人物画像の擬似キャプションを生成する方法を提案する。
CLIP-SCGI(CLIP-SCGI)は、合成キャプションを利用して、差別的・堅牢な表現の学習をガイドするフレームワークである。
論文 参考訳(メタデータ) (2024-10-12T06:24:33Z) - Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - Improving Reference-based Distinctive Image Captioning with Contrastive
Rewards [52.406331702017596]
近年のDIC法では,対象画像と意味相似参照画像のセットを比較して,特徴的なキャプションを生成する方法が提案されている。
本稿では,2つの新しいRef-DICベンチマークを提案し,TransformerベースのRef-DICベースライントランスDICを開発した。
より信頼性の高いベンチマークを行うために、Ref-DICのためのDisCIDErという新しい評価指標を提案する。
論文 参考訳(メタデータ) (2023-06-25T14:37:13Z) - Belief Revision based Caption Re-ranker with Visual Semantic Information [31.20692237930281]
本稿では,視覚的セマンティックな手法を用いて理想的なキャプションを識別する手法を提案する。
実験では,提案手法の有効性を実証し,一般的な画像キャプチャシステムの性能向上を図る。
論文 参考訳(メタデータ) (2022-09-16T20:36:41Z) - Retrieval-Augmented Transformer for Image Captioning [51.79146669195357]
我々は、kNNメモリを用いた画像キャプション手法を開発し、外部コーパスから知識を抽出して生成プロセスを支援する。
我々のアーキテクチャは、視覚的類似性に基づく知識検索と、識別可能なエンコーダと、トークンを予測するためにkNN拡張アテンション層を組み合わせる。
COCOデータセットで実施した実験結果は、明示的な外部メモリを利用することで、生成プロセスの助けとなり、キャプションの品質が向上することを示した。
論文 参考訳(メタデータ) (2022-07-26T19:35:49Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - DAE-GAN: Dynamic Aspect-aware GAN for Text-to-Image Synthesis [55.788772366325105]
本研究では,文レベル,単語レベル,アスペクトレベルを含む複数の粒度からテキスト情報を包括的に表現する動的アスペクト・アワーン(DAE-GAN)を提案する。
人間の学習行動にインスパイアされた画像改善のためのADR(Aspect-aware Dynamic Re-drawer)を開発し,AGR(Attended Global Refinement)モジュールとALR(Aspect-aware Local Refinement)モジュールを交互に使用する。
論文 参考訳(メタデータ) (2021-08-27T07:20:34Z) - Boost Image Captioning with Knowledge Reasoning [10.733743535624509]
本稿では,単語ごとの逐次的な記述を生成する際の視覚的注意の正しさを改善するために,単語注意を提案する。
本稿では,知識グラフから抽出した外部知識をエンコーダ・デコーダ・フレームワークに注入し,意味のあるキャプションを容易にする新しい手法を提案する。
論文 参考訳(メタデータ) (2020-11-02T12:19:46Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。