論文の概要: ClipCap: CLIP Prefix for Image Captioning
- arxiv url: http://arxiv.org/abs/2111.09734v1
- Date: Thu, 18 Nov 2021 14:49:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-19 19:24:34.923409
- Title: ClipCap: CLIP Prefix for Image Captioning
- Title(参考訳): ClipCap: イメージキャプションのためのCLIPプリフィックス
- Authors: Ron Mokady, Amir Hertz, and Amit H. Bermano
- Abstract要約: 簡単なマッピングネットワークを用いてキャプションのプレフィックスとしてCLIPエンコーディングを使用し、次に言語モデルを微調整して画像キャプションを生成する。
我々のモデルは、挑戦的な概念キャプションとnocapsデータセットに関する最先端の手法に匹敵する結果が得られることを実証する。
- 参考スコア(独自算出の注目度): 6.69087470775851
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image captioning is a fundamental task in vision-language understanding,
where the model predicts a textual informative caption to a given input image.
In this paper, we present a simple approach to address this task. We use CLIP
encoding as a prefix to the caption, by employing a simple mapping network, and
then fine-tunes a language model to generate the image captions. The recently
proposed CLIP model contains rich semantic features which were trained with
textual context, making it best for vision-language perception. Our key idea is
that together with a pre-trained language model (GPT2), we obtain a wide
understanding of both visual and textual data. Hence, our approach only
requires rather quick training to produce a competent captioning model. Without
additional annotations or pre-training, it efficiently generates meaningful
captions for large-scale and diverse datasets. Surprisingly, our method works
well even when only the mapping network is trained, while both CLIP and the
language model remain frozen, allowing a lighter architecture with less
trainable parameters. Through quantitative evaluation, we demonstrate our model
achieves comparable results to state-of-the-art methods on the challenging
Conceptual Captions and nocaps datasets, while it is simpler, faster, and
lighter. Our code is available in
https://github.com/rmokady/CLIP_prefix_caption.
- Abstract(参考訳): 画像キャプションは、与えられた入力画像に対するテキスト情報キャプションを予測する視覚言語理解の基本的なタスクである。
本稿では,この課題に対処するための簡単なアプローチを提案する。
簡単なマッピングネットワークを用いてキャプションのプレフィックスとしてCLIPエンコーディングを使用し、次に言語モデルを微調整して画像キャプションを生成する。
最近提案されたCLIPモデルには、テキストコンテキストでトレーニングされたリッチなセマンティック機能が含まれており、視覚言語知覚に最適である。
我々のキーとなる考え方は、事前学習された言語モデル(GPT2)とともに、視覚データとテキストデータの両方を広く理解することである。
したがって、我々のアプローチは、有能なキャプションモデルを作成するために、かなり速い訓練しか必要としない。
追加のアノテーションや事前トレーニングなしで、大規模で多様なデータセットに対して意味のあるキャプションを効率的に生成する。
驚いたことに、我々の手法はマッピングネットワークのみをトレーニングしてもうまく機能するが、CLIPと言語モデルの両方は凍結され、トレーニング可能なパラメータの少ない軽量アーキテクチャを実現している。
定量的評価により,本モデルはよりシンプルで高速で軽量な概念キャプションとnocapsデータセットにおいて,最先端の手法に匹敵する結果が得られることを示した。
私たちのコードはhttps://github.com/rmokady/CLIP_prefix_captionで利用可能です。
関連論文リスト
- CLIP-SCGI: Synthesized Caption-Guided Inversion for Person Re-Identification [9.996589403019675]
person re-identification (ReID) は Contrastive Language-Image Pre-Training (CLIP) のような大規模な事前訓練された視覚言語モデルの恩恵を受けている。
本稿では、既存の画像キャプションモデルを利用して人物画像の擬似キャプションを生成する方法を提案する。
CLIP-SCGI(CLIP-SCGI)は、合成キャプションを利用して、差別的・堅牢な表現の学習をガイドするフレームワークである。
論文 参考訳(メタデータ) (2024-10-12T06:24:33Z) - DreamLIP: Language-Image Pre-training with Long Captions [42.4063624671045]
MLLM(Multi-modality Large Language Model)を用いた詳細な記述を伴う30M画像の再キャプチャ
そこで本研究では,テキストラベルからサブキャプションを動的にサンプリングし,複数の正のペアを構築することを提案する。
画像テキスト検索とセマンティックセグメンテーションのタスクでは,30万のイメージテキストペアでトレーニングしたモデルが,4億のペアでトレーニングしたCLIPよりも同等あるいはそれ以上のパフォーマンスを実現している点が注目に値する。
論文 参考訳(メタデータ) (2024-03-25T17:59:42Z) - User-Aware Prefix-Tuning is a Good Learner for Personalized Image
Captioning [35.211749514733846]
従来の画像キャプション方式は、ユーザの好みや特徴を無視することが多い。
既存のほとんどの手法は、メモリネットワークやトランスフォーマーによるユーザコンテキストの融合プロセスを強調している。
本稿では,ユーザコンテキストを利用したパーソナライズされた画像キャプションフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-08T02:08:00Z) - SILC: Improving Vision Language Pretraining with Self-Distillation [113.50400246862056]
本稿では,視覚言語事前学習のための新しいフレームワークであるSILCを紹介する。
SILCは、局所-言語対応学習を自己蒸留で簡単に追加することで、画像テキストのコントラスト学習を改善する。
指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,検出やセグメンテーションといった密集した予測タスクにおけるモデル性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T08:44:47Z) - CgT-GAN: CLIP-guided Text GAN for Image Captioning [48.276753091051035]
本稿では,CLIP-Guided text GAN (CgT-GAN) を提案する。
我々は,外部テキストコーパスのフレーズを模倣するために,CgT-GANの教育に逆行訓練を用いる。
CgT-GANは、すべてのメトリクスで最先端のメソッドを著しく上回る。
論文 参考訳(メタデータ) (2023-08-23T10:25:37Z) - DeCap: Decoding CLIP Latents for Zero-Shot Captioning via Text-Only
Training [73.74291217502928]
ゼロショットキャプションのための単純なフレームワークであるDeCapを提案する。
軽量な視覚認識言語デコーダを提案する。
視覚的な埋め込みはCLIPテキスト埋め込み空間に投影するが、投影された埋め込みは視覚的な入力の情報を保持する。
論文 参考訳(メタデータ) (2023-03-06T11:02:47Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - Fine-grained Image Captioning with CLIP Reward [104.71533106301598]
ウェブから大量の画像テキストペアをトレーニングしたマルチモーダルエンコーダであるCLIPを用いて、マルチモーダル類似性を計算し、報酬関数として利用する。
また、追加のテキストアノテーションを必要としない文法を改善するために、CLIPテキストエンコーダの簡単な微調整戦略を提案する。
テキスト・ツー・イメージ検索とFineCapEvalの実験において、提案したCLIP誘導モデルは、CIDEr最適化モデルよりも顕著なキャプションを生成する。
論文 参考訳(メタデータ) (2022-05-26T02:46:09Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。