論文の概要: Prompt-based Learning for Unpaired Image Captioning
- arxiv url: http://arxiv.org/abs/2205.13125v1
- Date: Thu, 26 May 2022 03:13:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-27 13:46:34.525263
- Title: Prompt-based Learning for Unpaired Image Captioning
- Title(参考訳): アンペア画像キャプションのためのプロンプト学習
- Authors: Peipei Zhu, Xiao Wang, Lin Zhu, Zhenglong Sun, Weishi Zheng, Yaowei
Wang, Changwen Chen
- Abstract要約: Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
- 参考スコア(独自算出の注目度): 86.44188293709307
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Unpaired Image Captioning (UIC) has been developed to learn image
descriptions from unaligned vision-language sample pairs. Existing schemes
usually adopt the visual concept reward of reinforcement learning to obtain the
alignment between visual concepts and images. However, the cross-domain
alignment is usually weak that severely constrains the overall performance of
these existing schemes. Recent successes of Vision-Language Pre-Trained Models
(VL-PTMs) have triggered the development of prompt-based learning from VL-PTMs.
We present in this paper a novel scheme based on prompt to train the UIC model,
making best use of the powerful generalization ability and abundant
vision-language prior knowledge learned under VL-PTMs. We adopt the CLIP model
for this research in unpaired image captioning. Specifically, the visual images
are taken as input to the prompt generation module, which contains the
pre-trained model as well as one feed-forward layer for prompt extraction.
Then, the input images and generated prompts are aggregated for unpaired
adversarial captioning learning. To further enhance the potential performance
of the captioning, we designed a high-quality pseudo caption filter guided by
the CLIP logits to measure correlations between predicted captions and the
corresponding images. This allows us to improve the captioning model in a
supervised learning manner. Extensive experiments on the COCO and Flickr30K
datasets have been carried out to validate the superiority of the proposed
model. We have achieved the state-of-the-art performance on the COCO dataset,
which outperforms the best UIC model by 1.9% on the BLEU-4 metric. We expect
that the proposed prompt-based UIC model will inspire a new line of research
for the VL-PTMs based captioning.
- Abstract(参考訳): Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
既存のスキームは通常、視覚概念と画像のアライメントを得るために強化学習の視覚概念報酬を採用する。
しかし、ドメイン間のアライメントは通常弱く、既存のスキーム全体のパフォーマンスを厳しく制約する。
近年、VL-PTM(Vision-Language Pre-Trained Models)が成功し、VL-PTMからの素早い学習が進展した。
本稿では、VL-PTMで学習した強力な一般化能力と豊富な視覚言語事前知識を最大限に活用し、UICモデルを訓練するためのプロンプトに基づく新しいスキームを提案する。
本研究では,この映像キャプションにクリップモデルを適用した。
具体的には、プリトレーニングされたモデルと、プロンプト抽出のためのフィードフォワード層を含むプロンプト生成モジュールへの入力として視覚画像を取り込む。
そして、入力画像と生成されたプロンプトを集約して、非対訳キャプション学習を行う。
さらにキャプション性能をさらに高めるため,クリップロジットを誘導する高品質擬似キャプションフィルタを設計し,予測キャプションと対応する画像との相関性を測定した。
これにより、教師付き学習方法で字幕モデルを改善することができる。
提案モデルの有効性を検証するため,COCOおよびFlickr30Kデータセットの大規模な実験を行った。
我々は,COCOデータセットの最先端性能を達成し,BLEU-4で最高のUICモデルを1.9%上回った。
我々は,提案するプロンプトベースのuicモデルがvl-ptmsに基づくキャプションの新たな研究ラインを刺激することを期待している。
関連論文リスト
- Grounding Descriptions in Images informs Zero-Shot Visual Recognition [47.66166611138081]
我々は,表現を細かなレベルと粗いレベルの両方で同時に調整することを目的とした,新しい事前学習戦略であるGRAINを提案する。
我々は,現在の最先端技術と比較して,モデルのゼロショット性能の向上を実証する。
論文 参考訳(メタデータ) (2024-12-05T18:52:00Z) - CLIP-SCGI: Synthesized Caption-Guided Inversion for Person Re-Identification [9.996589403019675]
person re-identification (ReID) は Contrastive Language-Image Pre-Training (CLIP) のような大規模な事前訓練された視覚言語モデルの恩恵を受けている。
本稿では、既存の画像キャプションモデルを利用して人物画像の擬似キャプションを生成する方法を提案する。
CLIP-SCGI(CLIP-SCGI)は、合成キャプションを利用して、差別的・堅牢な表現の学習をガイドするフレームワークである。
論文 参考訳(メタデータ) (2024-10-12T06:24:33Z) - Vision-Language Consistency Guided Multi-modal Prompt Learning for Blind AI Generated Image Quality Assessment [57.07360640784803]
視覚言語による多モーダル・プロンプト学習による画像品質評価(AGIQA)を提案する。
具体的には、コントラスト言語-画像事前学習(CLIP)モデルの言語と視覚の分岐に学習可能なテキストと視覚的プロンプトを導入する。
我々は、上記のマルチモーダルプロンプトの最適化を導くために、学習された視覚言語一貫性の知識を用いて、テキストから画像へのアライメント品質予測タスクを設計する。
論文 参考訳(メタデータ) (2024-06-24T13:45:31Z) - Augment the Pairs: Semantics-Preserving Image-Caption Pair Augmentation
for Grounding-Based Vision and Language Models [16.4010094165575]
テキスト条件付きおよびテキスト条件付きデータ拡張で訓練されたロバストな句接頭辞モデルを提案する。
近年のマスク信号再構成に着想を得て,新しいデータ拡張形式としてピクセルレベルのマスキングを提案する。
提案手法は,各種メトリクスを用いた最先端技術に対する高度な性能を示す。
論文 参考訳(メタデータ) (2023-11-05T01:14:02Z) - SILC: Improving Vision Language Pretraining with Self-Distillation [113.50400246862056]
本稿では,視覚言語事前学習のための新しいフレームワークであるSILCを紹介する。
SILCは、局所-言語対応学習を自己蒸留で簡単に追加することで、画像テキストのコントラスト学習を改善する。
指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,検出やセグメンテーションといった密集した予測タスクにおけるモデル性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T08:44:47Z) - Zero-shot Visual Question Answering with Language Model Feedback [83.65140324876536]
知識に基づく視覚的質問応答(VQA)のための言語モデル指導型キャプションアプローチ LAMOC を提案する。
提案手法では,予備学習言語モデル (PLM) である回答予測モデルの文脈として,キャプションモデルによって生成されたキャプションを用いる。
論文 参考訳(メタデータ) (2023-05-26T15:04:20Z) - Paraphrasing Is All You Need for Novel Object Captioning [126.66301869607656]
新たな物体キャプション (NOC) は, 訓練中に真実のキャプションを観察することなく, 対象を含む画像を記述することを目的としている。
本稿では,NOC の2段階学習フレームワークである Paraphrasing-to-Captioning (P2C) について述べる。
論文 参考訳(メタデータ) (2022-09-25T22:56:04Z) - Injecting Semantic Concepts into End-to-End Image Captioning [61.41154537334627]
本稿では、地域特徴を抽出することなくグリッド表現を使用する、純粋視覚変換器を用いた画像キャプションモデルViTCAPを提案する。
性能向上のために,意味論的概念を予測し,それをエンドツーエンドのキャプションに組み込む新しいコンセプトトークンネットワーク(CTN)を導入する。
特に、CTNは視覚変換器に基づいて構築され、分類タスクを通じて概念トークンを予測するように設計されている。
論文 参考訳(メタデータ) (2021-12-09T22:05:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。