論文の概要: Unleashing Text-to-Image Diffusion Prior for Zero-Shot Image Captioning
- arxiv url: http://arxiv.org/abs/2501.00437v1
- Date: Tue, 31 Dec 2024 13:39:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:17:33.390897
- Title: Unleashing Text-to-Image Diffusion Prior for Zero-Shot Image Captioning
- Title(参考訳): ゼロショット画像キャプションに先立ってテキストと画像の拡散を解放する
- Authors: Jianjie Luo, Jingwen Chen, Yehao Li, Yingwei Pan, Jianlin Feng, Hongyang Chao, Ting Yao,
- Abstract要約: そこで本研究では,学習中に不信なコンテンツを適応的に緩和する,新しいPatch-wise Cross-modal Feature Mix-up(PCM)機構を提案する。
私たちのPCM-Netは、ドメイン内およびクロスドメインのゼロショット画像キャプションの両方で第1位です。
- 参考スコア(独自算出の注目度): 70.98890307376548
- License:
- Abstract: Recently, zero-shot image captioning has gained increasing attention, where only text data is available for training. The remarkable progress in text-to-image diffusion model presents the potential to resolve this task by employing synthetic image-caption pairs generated by this pre-trained prior. Nonetheless, the defective details in the salient regions of the synthetic images introduce semantic misalignment between the synthetic image and text, leading to compromised results. To address this challenge, we propose a novel Patch-wise Cross-modal feature Mix-up (PCM) mechanism to adaptively mitigate the unfaithful contents in a fine-grained manner during training, which can be integrated into most of encoder-decoder frameworks, introducing our PCM-Net. Specifically, for each input image, salient visual concepts in the image are first detected considering the image-text similarity in CLIP space. Next, the patch-wise visual features of the input image are selectively fused with the textual features of the salient visual concepts, leading to a mixed-up feature map with less defective content. Finally, a visual-semantic encoder is exploited to refine the derived feature map, which is further incorporated into the sentence decoder for caption generation. Additionally, to facilitate the model training with synthetic data, a novel CLIP-weighted cross-entropy loss is devised to prioritize the high-quality image-text pairs over the low-quality counterparts. Extensive experiments on MSCOCO and Flickr30k datasets demonstrate the superiority of our PCM-Net compared with state-of-the-art VLMs-based approaches. It is noteworthy that our PCM-Net ranks first in both in-domain and cross-domain zero-shot image captioning. The synthetic dataset SynthImgCap and code are available at https://jianjieluo.github.io/SynthImgCap.
- Abstract(参考訳): 近年,テキストデータのみをトレーニングできるゼロショット画像キャプションが注目されている。
テキストと画像の拡散モデルにおける顕著な進歩は、この事前学習によって生成された合成画像とカプセルのペアを用いて、この問題を解決する可能性を示している。
しかし, 合成画像の鮮明な領域における欠陥は, 合成画像とテキストのセマンティックなミスアライメントを導入し, 結果を損なう結果となった。
この課題に対処するため,PCM-Netを導入したエンコーダ-デコーダフレームワークの大部分に組み込むことが可能な,不誠実なコンテンツを微粒な方法で適応的に緩和する,新しいPatch-wise Cross-modal Feature Mix-up(PCM)機構を提案する。
具体的には、入力画像毎に、CLIP空間における画像-テキスト類似性を考慮して、画像内の健全な視覚概念を最初に検出する。
次に、入力画像のパッチワイドな視覚特徴を、顕著な視覚概念のテキスト的特徴と選択的に融合させ、欠陥のあるコンテンツが少ない混在した特徴マップを作成する。
最後に、視覚意味エンコーダを利用して、派生した特徴写像を洗練し、キャプション生成のための文デコーダにさらに組み込む。
さらに、合成データによるモデルトレーニングを容易にするため、高品質な画像テキストペアよりも高品質な画像テキストペアを優先するために、新しいCLIP重み付きクロスエントロピー損失を考案した。
MSCOCOとFlickr30kデータセットの大規模な実験は、最先端のVLMベースのアプローチと比較して、PCM-Netの優位性を示している。
PCM-Netは、インドメインとクロスドメインのゼロショットイメージキャプションの両方で第1位です。
SynthImgCapとコードは、https://jianjieluo.github.io/SynthImgCapで入手できる。
関連論文リスト
- CLIPS: An Enhanced CLIP Framework for Learning with Synthetic Captions [31.624782806591682]
リッチに記述された合成キャプションをより効果的に活用するための2つのシンプルで効果的な設計を提案する。
まず,合成キャプションを用いた学習において,強い逆効果が観察される。
第二に、自己回帰キャプタを組み込んで、再カプセル化プロセスを模倣する。
論文 参考訳(メタデータ) (2024-11-25T18:49:02Z) - Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - PLACE: Adaptive Layout-Semantic Fusion for Semantic Image Synthesis [62.29033292210752]
一貫性のあるセマンティクスとレイアウトを備えた高品質なイメージは依然として課題である。
本稿では,前述した問題を緩和するために,事前学習モデルを利用したadaPtive LAyout-semantiC fusion modulE (PLACE)を提案する。
われわれのアプローチは、視覚的品質、セマンティック一貫性、レイアウトアライメントの観点から好意的に機能する。
論文 参考訳(メタデータ) (2024-03-04T09:03:16Z) - Improving Cross-modal Alignment with Synthetic Pairs for Text-only Image
Captioning [13.357749288588039]
以前の作業では、教師なし設定下でのテキスト情報のみに依存して、画像キャプションのためのCLIPのクロスモーダルアソシエーション機能を活用していた。
本稿では,合成画像とテキストのペアを組み込むことにより,これらの問題に対処する新しい手法を提案する。
テキストデータに対応する画像を得るために、事前訓練されたテキスト・ツー・イメージモデルが配置され、CLIP埋め込み空間の実際の画像に対して、生成された画像の擬似特徴を最適化する。
論文 参考訳(メタデータ) (2023-12-14T12:39:29Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Fine-grained Image Captioning with CLIP Reward [104.71533106301598]
ウェブから大量の画像テキストペアをトレーニングしたマルチモーダルエンコーダであるCLIPを用いて、マルチモーダル類似性を計算し、報酬関数として利用する。
また、追加のテキストアノテーションを必要としない文法を改善するために、CLIPテキストエンコーダの簡単な微調整戦略を提案する。
テキスト・ツー・イメージ検索とFineCapEvalの実験において、提案したCLIP誘導モデルは、CIDEr最適化モデルよりも顕著なキャプションを生成する。
論文 参考訳(メタデータ) (2022-05-26T02:46:09Z) - CoCa: Contrastive Captioners are Image-Text Foundation Models [41.759438751996505]
Contrastive Captioner (CoCa) は、画像テキストエンコーダ/デコーダの基礎モデルを事前訓練するための最小限の設計である。
同じ計算グラフを共有することで、2つのトレーニング目標を最小限のオーバーヘッドで効率的に計算する。
CoCaは、幅広い下流タスクに対するゼロショット転送または最小限のタスク特化で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-05-04T07:01:14Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。