論文の概要: MeaCap: Memory-Augmented Zero-shot Image Captioning
- arxiv url: http://arxiv.org/abs/2403.03715v1
- Date: Wed, 6 Mar 2024 14:00:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 14:54:01.798432
- Title: MeaCap: Memory-Augmented Zero-shot Image Captioning
- Title(参考訳): MeaCap:メモリ増設ゼロショット画像キャプチャ
- Authors: Zequn Zeng, Yan Xie, Hao Zhang, Chiyu Chen, Zhengjue Wang, Bo Chen
- Abstract要約: メモリ拡張ゼロショット画像キャプチャフレームワーク(MeaCap)を提案する。
MeaCapは、幻覚の少ないコンセプト中心のキャプションを生成できる。
- 参考スコア(独自算出の注目度): 11.817667500151687
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot image captioning (IC) without well-paired image-text data can be
divided into two categories, training-free and text-only-training. Generally,
these two types of methods realize zero-shot IC by integrating pretrained
vision-language models like CLIP for image-text similarity evaluation and a
pre-trained language model (LM) for caption generation. The main difference
between them is whether using a textual corpus to train the LM. Though
achieving attractive performance w.r.t. some metrics, existing methods often
exhibit some common drawbacks. Training-free methods tend to produce
hallucinations, while text-only-training often lose generalization capability.
To move forward, in this paper, we propose a novel Memory-Augmented zero-shot
image Captioning framework (MeaCap). Specifically, equipped with a textual
memory, we introduce a retrieve-then-filter module to get key concepts that are
highly related to the image. By deploying our proposed memory-augmented
visual-related fusion score in a keywords-to-sentence LM, MeaCap can generate
concept-centered captions that keep high consistency with the image with fewer
hallucinations and more world-knowledge. The framework of MeaCap achieves the
state-of-the-art performance on a series of zero-shot IC settings. Our code is
available at https://github.com/joeyz0z/MeaCap.
- Abstract(参考訳): 画像テキストデータのないゼロショット画像キャプション(IC)は、トレーニングフリーとテキストオンリーの2つのカテゴリに分けられる。
一般的に、これらの2種類の手法は、画像テキスト類似性評価のためのCLIPやキャプション生成のための事前訓練された言語モデル(LM)を組み込むことで、ゼロショットICを実現する。
主な違いは、テキストコーパスを使用してLMをトレーニングするかどうかである。
いくつかの指標で魅力的なパフォーマンスを達成するが、既存の手法には共通の欠点がある。
訓練なしの手法は幻覚を引き起こす傾向があるが、テキストのみの訓練は一般化能力を失うことが多い。
そこで本稿では,新たなメモリ表示型ゼロショット画像キャプションフレームワーク(meacap)を提案する。
具体的には,テキストメモリを備えた検索フィルタモジュールを導入し,画像と関連性の高い重要な概念を抽出する。
提案したメモリ拡張視覚融合スコアをキーワードから文へのLMに展開することにより,覚覚の少ない画像との一貫性を保った概念中心のキャプションを生成できる。
MeaCapのフレームワークは、一連のゼロショットIC設定で最先端のパフォーマンスを実現する。
私たちのコードはhttps://github.com/joeyz0z/MeaCapで利用可能です。
関連論文リスト
- Mining Fine-Grained Image-Text Alignment for Zero-Shot Captioning via
Text-Only Training [14.340740609933437]
そこで本研究では,モダリティギャップを低減するために,テキストのみのトレーニングを施したゼロショット画像キャプションフレームワークを提案する。
特に,地域情報を活用するためのサブリージョン機能アグリゲーションを導入する。
フレームワークを拡張してゼロショットのVQAパイプラインを構築し、その汎用性を実証します。
論文 参考訳(メタデータ) (2024-01-04T16:43:46Z) - CgT-GAN: CLIP-guided Text GAN for Image Captioning [48.276753091051035]
本稿では,CLIP-Guided text GAN (CgT-GAN) を提案する。
我々は,外部テキストコーパスのフレーズを模倣するために,CgT-GANの教育に逆行訓練を用いる。
CgT-GANは、すべてのメトリクスで最先端のメソッドを著しく上回る。
論文 参考訳(メタデータ) (2023-08-23T10:25:37Z) - Transferable Decoding with Visual Entities for Zero-Shot Image
Captioning [45.855652838621936]
ViECapは、見えるシナリオと見えないシナリオの両方で記述を生成する、転送可能なデコードモデルである。
ViECap にはエンティティ対応のハードプロンプトが組み込まれており、LLM の注意をイメージ内の視覚的実体へと導く。
我々の実験は、VECapが新しい最先端のクロスドメインキャプション(転送可能)を設定できることを実証した。
論文 参考訳(メタデータ) (2023-07-31T09:47:06Z) - UniFine: A Unified and Fine-grained Approach for Zero-shot
Vision-Language Understanding [84.83494254263138]
ゼロショット視覚言語学習のための微細な情報を利用する統一的なフレームワークを提案する。
我々のフレームワークは従来のVQAのゼロショット法よりも優れており、SNLI-VEとVCRの大幅な改善を実現している。
論文 参考訳(メタデータ) (2023-07-03T09:03:12Z) - CoBIT: A Contrastive Bi-directional Image-Text Generation Model [72.1700346308106]
CoBITは、新しいユニコーダ・デコーダ構造を採用しており、これは1つのフレームワークで3つの事前学習対象を統一しようとするものである。
CoBITは画像理解、画像テキスト理解(検索、キャプション、VQA、SNLI-VE)、テキストベースのコンテンツ生成、特にゼロショットシナリオにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-03-23T17:24:31Z) - DeCap: Decoding CLIP Latents for Zero-Shot Captioning via Text-Only
Training [73.74291217502928]
ゼロショットキャプションのための単純なフレームワークであるDeCapを提案する。
軽量な視覚認識言語デコーダを提案する。
視覚的な埋め込みはCLIPテキスト埋め込み空間に投影するが、投影された埋め込みは視覚的な入力の情報を保持する。
論文 参考訳(メタデータ) (2023-03-06T11:02:47Z) - Paraphrasing Is All You Need for Novel Object Captioning [126.66301869607656]
新たな物体キャプション (NOC) は, 訓練中に真実のキャプションを観察することなく, 対象を含む画像を記述することを目的としている。
本稿では,NOC の2段階学習フレームワークである Paraphrasing-to-Captioning (P2C) について述べる。
論文 参考訳(メタデータ) (2022-09-25T22:56:04Z) - Fine-grained Image Captioning with CLIP Reward [104.71533106301598]
ウェブから大量の画像テキストペアをトレーニングしたマルチモーダルエンコーダであるCLIPを用いて、マルチモーダル類似性を計算し、報酬関数として利用する。
また、追加のテキストアノテーションを必要としない文法を改善するために、CLIPテキストエンコーダの簡単な微調整戦略を提案する。
テキスト・ツー・イメージ検索とFineCapEvalの実験において、提案したCLIP誘導モデルは、CIDEr最適化モデルよりも顕著なキャプションを生成する。
論文 参考訳(メタデータ) (2022-05-26T02:46:09Z) - ClipCap: CLIP Prefix for Image Captioning [6.69087470775851]
簡単なマッピングネットワークを用いてキャプションのプレフィックスとしてCLIPエンコーディングを使用し、次に言語モデルを微調整して画像キャプションを生成する。
我々のモデルは、挑戦的な概念キャプションとnocapsデータセットに関する最先端の手法に匹敵する結果が得られることを実証する。
論文 参考訳(メタデータ) (2021-11-18T14:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。