論文の概要: DeCap: Decoding CLIP Latents for Zero-Shot Captioning via Text-Only
Training
- arxiv url: http://arxiv.org/abs/2303.03032v1
- Date: Mon, 6 Mar 2023 11:02:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 16:23:25.759494
- Title: DeCap: Decoding CLIP Latents for Zero-Shot Captioning via Text-Only
Training
- Title(参考訳): DeCap: テキストオンリートレーニングによるゼロショットキャプションのためのCLIPレイテンシのデコード
- Authors: Wei Li, Linchao Zhu, Longyin Wen, Yi Yang
- Abstract要約: ゼロショットキャプションのための単純なフレームワークであるDeCapを提案する。
軽量な視覚認識言語デコーダを提案する。
視覚的な埋め込みはCLIPテキスト埋め込み空間に投影するが、投影された埋め込みは視覚的な入力の情報を保持する。
- 参考スコア(独自算出の注目度): 73.74291217502928
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale pre-trained multi-modal models (e.g., CLIP) demonstrate strong
zero-shot transfer capability in many discriminative tasks. Their adaptation to
zero-shot image-conditioned text generation tasks has drawn increasing
interest. Prior arts approach to zero-shot captioning by either utilizing the
existing large language models (e.g., GPT-2) or pre-training the
encoder-decoder network in an end-to-end manner. In this work, we propose a
simple framework, named DeCap, for zero-shot captioning. We introduce a
lightweight visual-aware language decoder. This decoder is both data-efficient
and computation-efficient: 1) it only requires the text data for training,
easing the burden on the collection of paired data. 2) it does not require
end-to-end training. When trained with text-only data, the decoder takes the
text embedding extracted from the off-the-shelf CLIP encoder as a prefix
embedding. The challenge is that the decoder is trained on the text corpus but
at the inference stage, it needs to generate captions based on visual inputs.
The modality gap issue is widely observed in multi-modal contrastive models
that prevents us from directly taking the visual embedding as the prefix
embedding. We propose a training-free mechanism to reduce the modality gap. We
project the visual embedding into the CLIP text embedding space, while the
projected embedding retains the information of the visual input. Taking the
projected embedding as the prefix embedding, the decoder generates high-quality
descriptions that match the visual input. The experiments show that DeCap
outperforms other zero-shot captioning methods and unpaired captioning methods
on the typical image captioning benchmarks, i.e., MSCOCO and NoCaps.
- Abstract(参考訳): 大規模事前訓練型マルチモーダルモデル(例えばCLIP)は、多くの識別タスクにおいて強力なゼロショット転送能力を示す。
ゼロショット画像条件付きテキスト生成タスクへの適応が注目されている。
先行技術によるゼロショットキャプションへのアプローチは、既存の大規模言語モデル(gpt-2など)を利用するか、エンコーダ-デコーダネットワークをエンドツーエンドで事前トレーニングする。
本研究では,ゼロショットキャプションのための単純なフレームワークDeCapを提案する。
軽量な視覚認識言語デコーダを提案する。
このデコーダはデータ効率と計算効率の両方です。
1) 学習にはテキストデータのみが必要であり, ペアデータ収集の負担が軽減される。
2) エンドツーエンドのトレーニングは必要ありません。
テキストのみのデータでトレーニングすると、デコーダは、オフセットクリップエンコーダから抽出されたテキスト埋め込みをプレフィックス埋め込みとして取り出す。
課題は、デコーダはテキストコーパスでトレーニングされるが、推論の段階では、視覚入力に基づいてキャプションを生成する必要があることである。
マルチモーダルコントラストモデルでは, 視覚的な埋め込みを接頭辞の埋め込みとして直接行うことを防止するために, モダリティギャップの問題が広く見受けられる。
モダリティギャップを低減するためのトレーニングフリーメカニズムを提案する。
視覚的な埋め込みはCLIPテキスト埋め込み空間に投影するが、投影された埋め込みは視覚的な入力の情報を保持する。
プロジェクテッド埋め込みをプレフィックス埋め込みとして、デコーダは視覚入力と一致する高品質な記述を生成する。
実験の結果、DeCapは通常の画像キャプションベンチマーク、すなわちMSCOCOとNoCapsで、他のゼロショットキャプション法や未ペアキャプション法よりも優れていることが示された。
関連論文リスト
- DRCap: Decoding CLAP Latents with Retrieval-augmented Generation for Zero-shot Audio Captioning [13.601154787754046]
DRCapはデータ効率が高く柔軟なゼロショットオーディオキャプションシステムである。
トレーニングにはテキストのみのデータが必要で、微調整を加えることなく、新しいドメインに迅速に適応できる。
論文 参考訳(メタデータ) (2024-10-12T10:21:00Z) - Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - Retrieval Enhanced Zero-Shot Video Captioning [69.96136689829778]
一般的な映像理解モデルXCLIP,一般画像理解モデルCLIP,テキスト生成モデルGPT-2の3つの主要なモデルを用いて映像とテキストをブリッジする。
そこで本研究では,凍結したGPT-2と凍結したXCLIPとの間の通信媒体として,学習可能なトークンを提案する。
実験では、従来の最先端の手法と比較して、主要な測定基準であるCIDErが4%から20%改善されている。
論文 参考訳(メタデータ) (2024-05-11T16:22:00Z) - LocCa: Visual Pretraining with Location-aware Captioners [53.93041020615046]
位置認識キャプタ(LocCa)を用いた簡易な視覚前訓練法を提案する。
LocCaは単純なイメージキャプタタスクインターフェースを使用して、リッチな情報を読み取るモデルを教える。
エンコーダ・デコーダアーキテクチャのマルチタスク機能により、プレトレーニング中に画像キャプタが容易に複数のタスクを処理できることが示される。
論文 参考訳(メタデータ) (2024-03-28T17:20:39Z) - MultiCapCLIP: Auto-Encoding Prompts for Zero-Shot Multilingual Visual
Captioning [108.12011636732674]
MultiCapCLIPは、下流データセットのラベル付きビジョンキャプションペアなしで、さまざまなシナリオや言語に対する視覚的なキャプションを生成することができる。
本手法はBLEU@4とCIDErの基準で4.8%と21.5%の絶対的な改善を達成している。
論文 参考訳(メタデータ) (2023-08-25T07:32:34Z) - Retrieval-augmented Image Captioning [15.266569206458648]
本稿では,入力画像とデータストアから検索したキャプションの集合が与えられた文を生成する画像キャプションに新たなアプローチを提案する。
我々のモデルにおけるエンコーダは、事前訓練されたV&L BERTを用いて、画像と検索されたキャプションを共同で処理する。
我々の研究は、標準分類タスクではなく、事前訓練されたV&Lエンコーダを生成タスクに利用することに貢献している。
論文 参考訳(メタデータ) (2023-02-16T12:54:13Z) - CLIP-ReID: Exploiting Vision-Language Model for Image Re-Identification
without Concrete Text Labels [28.42405456691034]
本稿では,画像再識別作業における視覚的表現の改善を目的とした2段階戦略を提案する。
鍵となるアイデアは、各IDの学習可能なテキストトークンセットを通じて、CLIPのクロスモーダル記述能力をフル活用することだ。
提案手法の有効性は、人や車両のReIDタスクのための複数のデータセット上で検証される。
論文 参考訳(メタデータ) (2022-11-25T09:41:57Z) - Fine-grained Image Captioning with CLIP Reward [104.71533106301598]
ウェブから大量の画像テキストペアをトレーニングしたマルチモーダルエンコーダであるCLIPを用いて、マルチモーダル類似性を計算し、報酬関数として利用する。
また、追加のテキストアノテーションを必要としない文法を改善するために、CLIPテキストエンコーダの簡単な微調整戦略を提案する。
テキスト・ツー・イメージ検索とFineCapEvalの実験において、提案したCLIP誘導モデルは、CIDEr最適化モデルよりも顕著なキャプションを生成する。
論文 参考訳(メタデータ) (2022-05-26T02:46:09Z) - CoCa: Contrastive Captioners are Image-Text Foundation Models [41.759438751996505]
Contrastive Captioner (CoCa) は、画像テキストエンコーダ/デコーダの基礎モデルを事前訓練するための最小限の設計である。
同じ計算グラフを共有することで、2つのトレーニング目標を最小限のオーバーヘッドで効率的に計算する。
CoCaは、幅広い下流タスクに対するゼロショット転送または最小限のタスク特化で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-05-04T07:01:14Z) - ClipCap: CLIP Prefix for Image Captioning [6.69087470775851]
簡単なマッピングネットワークを用いてキャプションのプレフィックスとしてCLIPエンコーディングを使用し、次に言語モデルを微調整して画像キャプションを生成する。
我々のモデルは、挑戦的な概念キャプションとnocapsデータセットに関する最先端の手法に匹敵する結果が得られることを実証する。
論文 参考訳(メタデータ) (2021-11-18T14:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。