論文の概要: Mining Fine-Grained Image-Text Alignment for Zero-Shot Captioning via
Text-Only Training
- arxiv url: http://arxiv.org/abs/2401.02347v1
- Date: Thu, 4 Jan 2024 16:43:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-05 14:30:59.082994
- Title: Mining Fine-Grained Image-Text Alignment for Zero-Shot Captioning via
Text-Only Training
- Title(参考訳): テキストオンリートレーニングによるゼロショットキャプションのための微視的画像テキストアライメント
- Authors: Longtian Qiu, Shan Ning, Xuming He
- Abstract要約: そこで本研究では,モダリティギャップを低減するために,テキストのみのトレーニングを施したゼロショット画像キャプションフレームワークを提案する。
特に,地域情報を活用するためのサブリージョン機能アグリゲーションを導入する。
フレームワークを拡張してゼロショットのVQAパイプラインを構築し、その汎用性を実証します。
- 参考スコア(独自算出の注目度): 14.340740609933437
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Image captioning aims at generating descriptive and meaningful textual
descriptions of images, enabling a broad range of vision-language applications.
Prior works have demonstrated that harnessing the power of Contrastive Image
Language Pre-training (CLIP) offers a promising approach to achieving zero-shot
captioning, eliminating the need for expensive caption annotations. However,
the widely observed modality gap in the latent space of CLIP harms the
performance of zero-shot captioning by breaking the alignment between paired
image-text features. To address this issue, we conduct an analysis on the CLIP
latent space which leads to two findings. Firstly, we observe that the CLIP's
visual feature of image subregions can achieve closer proximity to the paired
caption due to the inherent information loss in text descriptions. In addition,
we show that the modality gap between a paired image-text can be empirically
modeled as a zero-mean Gaussian distribution. Motivated by the findings, we
propose a novel zero-shot image captioning framework with text-only training to
reduce the modality gap. In particular, we introduce a subregion feature
aggregation to leverage local region information, which produces a compact
visual representation for matching text representation. Moreover, we
incorporate a noise injection and CLIP reranking strategy to boost captioning
performance. We also extend our framework to build a zero-shot VQA pipeline,
demonstrating its generality. Through extensive experiments on common
captioning and VQA datasets such as MSCOCO, Flickr30k and VQAV2, we show that
our method achieves remarkable performance improvements. Code is available at
https://github.com/Artanic30/MacCap.
- Abstract(参考訳): 画像キャプションは、画像の記述的かつ意味のあるテキスト記述を生成し、幅広い視覚言語応用を可能にすることを目的としている。
コントラスト画像言語事前学習(CLIP)のパワーを活用することは、ゼロショットキャプションを達成するための有望なアプローチであり、高価なキャプションアノテーションを不要にすることを示した。
しかし、CLIPの潜在空間における広く観察されているモダリティギャップは、ペア画像テキスト特徴間のアライメントを壊すことで、ゼロショットキャプションの性能を損なう。
この問題に対処するために,クリップ潜在空間の分析を行い,2つの知見を導出する。
まず,CLIPによる画像サブリージョンの視覚的特徴は,テキスト記述に固有の情報損失のため,ペア字幕に近づきやすいことが観察された。
さらに,ペア画像テキスト間のモダリティギャップをゼロ平均ガウス分布として経験的にモデル化できることを示す。
そこで本研究では,モダリティギャップを低減すべく,テキストのみをトレーニングしたゼロショット画像キャプションフレームワークを提案する。
特に、局所領域情報を活用するためのサブリージョン機能アグリゲーションを導入し、テキスト表現にマッチするコンパクトな視覚表現を生成する。
さらに,キャプション性能を高めるため,ノイズ注入とCLIPリグレード戦略を取り入れた。
また、フレームワークを拡張してゼロショットのVQAパイプラインを構築し、その汎用性を実証しています。
MSCOCO,Flickr30k,VQAV2などの共通キャプションとVQAデータセットに関する広範な実験を通じて,本手法が優れた性能向上を実現することを示す。
コードはhttps://github.com/Artanic30/MacCapで入手できる。
関連論文リスト
- IFCap: Image-like Retrieval and Frequency-based Entity Filtering for
Zero-shot Captioning [3.8265756182141346]
テキストの特徴を視覚的に関連性のある特徴と整合させてモダリティギャップを緩和する,イメージライクな検索手法を提案する。
本手法は,検索したキャプションを入力特徴と統合したFusion Moduleを設計することにより,生成されたキャプションの精度をさらに向上する。
論文 参考訳(メタデータ) (2024-09-26T16:47:32Z) - Selective Vision-Language Subspace Projection for Few-shot CLIP [55.361337202198925]
SSP (Selective Vision-Language Subspace Projection) という手法を導入する。
SSPはローカルな画像特徴を取り入れ、それらをブリッジとして利用し、画像とテキストのペア間のアライメントを強化する。
提案手法では,学習不要な行列計算しか必要とせず,高度なCLIPベースの数ショット学習フレームワークにシームレスに統合できる。
論文 参考訳(メタデータ) (2024-07-24T03:45:35Z) - SILC: Improving Vision Language Pretraining with Self-Distillation [113.50400246862056]
本稿では,視覚言語事前学習のための新しいフレームワークであるSILCを紹介する。
SILCは、局所-言語対応学習を自己蒸留で簡単に追加することで、画像テキストのコントラスト学習を改善する。
指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,検出やセグメンテーションといった密集した予測タスクにおけるモデル性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T08:44:47Z) - CgT-GAN: CLIP-guided Text GAN for Image Captioning [48.276753091051035]
本稿では,CLIP-Guided text GAN (CgT-GAN) を提案する。
我々は,外部テキストコーパスのフレーズを模倣するために,CgT-GANの教育に逆行訓練を用いる。
CgT-GANは、すべてのメトリクスで最先端のメソッドを著しく上回る。
論文 参考訳(メタデータ) (2023-08-23T10:25:37Z) - Zero-shot Image Captioning by Anchor-augmented Vision-Language Space
Alignment [23.072180427273544]
ゼロショット画像キャプションにCLIPを直接利用する場合、文脈のテクスチュラルなモダリティに大きく依存し、視覚情報をほとんど無視する。
これを解決するために、教師なしのクロスモーダル学習を容易にするクロスモーダル言語モデル(CLM)を提案する。
MS COCOとFlickr 30Kの実験は、キャプション品質と計算効率の両方において提案手法の有望な性能を検証した。
論文 参考訳(メタデータ) (2022-11-14T11:12:19Z) - Paraphrasing Is All You Need for Novel Object Captioning [126.66301869607656]
新たな物体キャプション (NOC) は, 訓練中に真実のキャプションを観察することなく, 対象を含む画像を記述することを目的としている。
本稿では,NOC の2段階学習フレームワークである Paraphrasing-to-Captioning (P2C) について述べる。
論文 参考訳(メタデータ) (2022-09-25T22:56:04Z) - Fine-grained Image Captioning with CLIP Reward [104.71533106301598]
ウェブから大量の画像テキストペアをトレーニングしたマルチモーダルエンコーダであるCLIPを用いて、マルチモーダル類似性を計算し、報酬関数として利用する。
また、追加のテキストアノテーションを必要としない文法を改善するために、CLIPテキストエンコーダの簡単な微調整戦略を提案する。
テキスト・ツー・イメージ検索とFineCapEvalの実験において、提案したCLIP誘導モデルは、CIDEr最適化モデルよりも顕著なキャプションを生成する。
論文 参考訳(メタデータ) (2022-05-26T02:46:09Z) - CapOnImage: Context-driven Dense-Captioning on Image [13.604173177437536]
画像上のキャプション(CapOnImage)と呼ばれる新しいタスクを導入し、コンテキスト情報に基づいて画像の異なる場所で高密度キャプションを生成する。
テキストと画像位置の対応を段階的に学習するマルチレベル事前学習タスクを備えたマルチモーダル事前学習モデルを提案する。
他の画像キャプションモデルと比較すると、キャプション精度と多様性の両面で最良の結果が得られる。
論文 参考訳(メタデータ) (2022-04-27T14:40:31Z) - RegionCLIP: Region-based Language-Image Pretraining [94.29924084715316]
画像テキストペアを用いたコントラスト言語画像事前学習(CLIP)は,画像分類において顕著な結果を得た。
そこで我々は,CLIPを拡張して領域レベルの視覚表現を学習するRegionalCLIPという手法を提案する。
提案手法は,COCOデータセットとLVISデータセットの新たなカテゴリに対して,3.8 AP50と2.2 APの精度を著しく向上させる。
論文 参考訳(メタデータ) (2021-12-16T18:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。