論文の概要: Prompt-based Learning for Unpaired Image Captioning
- arxiv url: http://arxiv.org/abs/2205.13125v1
- Date: Thu, 26 May 2022 03:13:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-27 13:46:34.525263
- Title: Prompt-based Learning for Unpaired Image Captioning
- Title(参考訳): アンペア画像キャプションのためのプロンプト学習
- Authors: Peipei Zhu, Xiao Wang, Lin Zhu, Zhenglong Sun, Weishi Zheng, Yaowei
Wang, Changwen Chen
- Abstract要約: Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
- 参考スコア(独自算出の注目度): 86.44188293709307
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Unpaired Image Captioning (UIC) has been developed to learn image
descriptions from unaligned vision-language sample pairs. Existing schemes
usually adopt the visual concept reward of reinforcement learning to obtain the
alignment between visual concepts and images. However, the cross-domain
alignment is usually weak that severely constrains the overall performance of
these existing schemes. Recent successes of Vision-Language Pre-Trained Models
(VL-PTMs) have triggered the development of prompt-based learning from VL-PTMs.
We present in this paper a novel scheme based on prompt to train the UIC model,
making best use of the powerful generalization ability and abundant
vision-language prior knowledge learned under VL-PTMs. We adopt the CLIP model
for this research in unpaired image captioning. Specifically, the visual images
are taken as input to the prompt generation module, which contains the
pre-trained model as well as one feed-forward layer for prompt extraction.
Then, the input images and generated prompts are aggregated for unpaired
adversarial captioning learning. To further enhance the potential performance
of the captioning, we designed a high-quality pseudo caption filter guided by
the CLIP logits to measure correlations between predicted captions and the
corresponding images. This allows us to improve the captioning model in a
supervised learning manner. Extensive experiments on the COCO and Flickr30K
datasets have been carried out to validate the superiority of the proposed
model. We have achieved the state-of-the-art performance on the COCO dataset,
which outperforms the best UIC model by 1.9% on the BLEU-4 metric. We expect
that the proposed prompt-based UIC model will inspire a new line of research
for the VL-PTMs based captioning.
- Abstract(参考訳): Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
既存のスキームは通常、視覚概念と画像のアライメントを得るために強化学習の視覚概念報酬を採用する。
しかし、ドメイン間のアライメントは通常弱く、既存のスキーム全体のパフォーマンスを厳しく制約する。
近年、VL-PTM(Vision-Language Pre-Trained Models)が成功し、VL-PTMからの素早い学習が進展した。
本稿では、VL-PTMで学習した強力な一般化能力と豊富な視覚言語事前知識を最大限に活用し、UICモデルを訓練するためのプロンプトに基づく新しいスキームを提案する。
本研究では,この映像キャプションにクリップモデルを適用した。
具体的には、プリトレーニングされたモデルと、プロンプト抽出のためのフィードフォワード層を含むプロンプト生成モジュールへの入力として視覚画像を取り込む。
そして、入力画像と生成されたプロンプトを集約して、非対訳キャプション学習を行う。
さらにキャプション性能をさらに高めるため,クリップロジットを誘導する高品質擬似キャプションフィルタを設計し,予測キャプションと対応する画像との相関性を測定した。
これにより、教師付き学習方法で字幕モデルを改善することができる。
提案モデルの有効性を検証するため,COCOおよびFlickr30Kデータセットの大規模な実験を行った。
我々は,COCOデータセットの最先端性能を達成し,BLEU-4で最高のUICモデルを1.9%上回った。
我々は,提案するプロンプトベースのuicモデルがvl-ptmsに基づくキャプションの新たな研究ラインを刺激することを期待している。
関連論文リスト
- Contrastive Vision-Language Alignment Makes Efficient Instruction
Learner [31.281236193979165]
本研究では,大規模言語モデル(LLM)を視覚言語命令追従モデルに拡張する作業について検討する。
既存の方法では、視覚アダプタを訓練して、前訓練された視覚変換器(ViT)とLLMの間の表現を、生成的な画像キャプション損失によって整列させるのが一般的である。
比較的および生成的アライメントの目的を適用し, ViT と LLM の表現を効果的に整合させる CG-VLM を提案する。
論文 参考訳(メタデータ) (2023-11-29T03:29:46Z) - Augment the Pairs: Semantics-Preserving Image-Caption Pair Augmentation
for Grounding-Based Vision and Language Models [16.4010094165575]
テキスト条件付きおよびテキスト条件付きデータ拡張で訓練されたロバストな句接頭辞モデルを提案する。
近年のマスク信号再構成に着想を得て,新しいデータ拡張形式としてピクセルレベルのマスキングを提案する。
提案手法は,各種メトリクスを用いた最先端技術に対する高度な性能を示す。
論文 参考訳(メタデータ) (2023-11-05T01:14:02Z) - SILC: Improving Vision Language Pretraining with Self-Distillation [113.50400246862056]
本稿では,視覚言語事前学習のための新しいフレームワークであるSILCを紹介する。
SILCは、局所-言語対応学習を自己蒸留で簡単に追加することで、画像テキストのコントラスト学習を改善する。
指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,検出やセグメンテーションといった密集した予測タスクにおけるモデル性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T08:44:47Z) - Zero-shot Visual Question Answering with Language Model Feedback [83.65140324876536]
知識に基づく視覚的質問応答(VQA)のための言語モデル指導型キャプションアプローチ LAMOC を提案する。
提案手法では,予備学習言語モデル (PLM) である回答予測モデルの文脈として,キャプションモデルによって生成されたキャプションを用いる。
論文 参考訳(メタデータ) (2023-05-26T15:04:20Z) - Paraphrasing Is All You Need for Novel Object Captioning [126.66301869607656]
新たな物体キャプション (NOC) は, 訓練中に真実のキャプションを観察することなく, 対象を含む画像を記述することを目的としている。
本稿では,NOC の2段階学習フレームワークである Paraphrasing-to-Captioning (P2C) について述べる。
論文 参考訳(メタデータ) (2022-09-25T22:56:04Z) - Injecting Semantic Concepts into End-to-End Image Captioning [61.41154537334627]
本稿では、地域特徴を抽出することなくグリッド表現を使用する、純粋視覚変換器を用いた画像キャプションモデルViTCAPを提案する。
性能向上のために,意味論的概念を予測し,それをエンドツーエンドのキャプションに組み込む新しいコンセプトトークンネットワーク(CTN)を導入する。
特に、CTNは視覚変換器に基づいて構築され、分類タスクを通じて概念トークンを予測するように設計されている。
論文 参考訳(メタデータ) (2021-12-09T22:05:05Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。