論文の概要: Fine-grained Image Captioning with CLIP Reward
- arxiv url: http://arxiv.org/abs/2205.13115v1
- Date: Thu, 26 May 2022 02:46:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-27 12:41:39.208685
- Title: Fine-grained Image Captioning with CLIP Reward
- Title(参考訳): CLIP Rewardによるきめ細かい画像キャプション
- Authors: Jaemin Cho, Seunghyun Yoon, Ajinkya Kale, Franck Dernoncourt, Trung
Bui, Mohit Bansal
- Abstract要約: ウェブから大量の画像テキストペアをトレーニングしたマルチモーダルエンコーダであるCLIPを用いて、マルチモーダル類似性を計算し、報酬関数として利用する。
また、追加のテキストアノテーションを必要としない文法を改善するために、CLIPテキストエンコーダの簡単な微調整戦略を提案する。
テキスト・ツー・イメージ検索とFineCapEvalの実験において、提案したCLIP誘導モデルは、CIDEr最適化モデルよりも顕著なキャプションを生成する。
- 参考スコア(独自算出の注目度): 104.71533106301598
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern image captioning models are usually trained with text similarity
objectives. However, since reference captions in public datasets often describe
the most salient common objects, models trained with text similarity objectives
tend to ignore specific and detailed aspects of an image that distinguish it
from others. Toward more descriptive and distinctive caption generation, we
propose using CLIP, a multimodal encoder trained on huge image-text pairs from
web, to calculate multimodal similarity and use it as a reward function. We
also propose a simple finetuning strategy of the CLIP text encoder to improve
grammar that does not require extra text annotation. This completely eliminates
the need for reference captions during the reward computation. To
comprehensively evaluate descriptive captions, we introduce FineCapEval, a new
dataset for caption evaluation with fine-grained criteria: overall, background,
object, relations. In our experiments on text-to-image retrieval and
FineCapEval, the proposed CLIP-guided model generates more distinctive captions
than the CIDEr-optimized model. We also show that our unsupervised grammar
finetuning of the CLIP text encoder alleviates the degeneration problem of the
naive CLIP reward. Lastly, we show human analysis where the annotators strongly
prefer the CLIP reward to the CIDEr and MLE objectives according to various
criteria. Code and Data: https://github.com/j-min/CLIP-Caption-Reward
- Abstract(参考訳): 現代の画像キャプションモデルは通常、テキストの類似性を訓練する。
しかしながら、公開データセットの参照キャプションは、最も有意義な共通オブジェクトをしばしば記述するので、テキスト類似性目標で訓練されたモデルは、他のものと区別する画像の特定の詳細な側面を無視しがちである。
より記述的で特徴的なキャプション生成に向けて,web から巨大な画像テキストペアをトレーニングしたマルチモーダルエンコーダ clip を用いて,マルチモーダル類似度を計算し,報酬関数として利用する。
また、追加のテキストアノテーションを必要としない文法を改善するために、CLIPテキストエンコーダの簡単な微調整戦略を提案する。
これにより、報酬計算中に参照キャプションの必要性が完全に排除される。
記述的キャプションを包括的に評価するために,詳細な基準を持つキャプション評価のための新しいデータセットである finecapeval を紹介する。
テキスト・ツー・イメージ検索とFineCapEvalの実験では,提案したCLIP誘導モデルの方がCIDEr最適化モデルよりも顕著なキャプションを生成する。
また,CLIPテキストエンコーダの教師なし文法の微調整は,CLIP報酬の劣化問題を緩和することを示した。
最後に,アノテータが,様々な基準に従って,サイダーやmleの目標に対して,クリップ報酬を強く好む人間分析を示す。
コードとデータ:https://github.com/j-min/CLIP-Caption-Reward
関連論文リスト
- Fluent and Accurate Image Captioning with a Self-Trained Reward Model [47.213906345208315]
本稿では,自己生成陰性に基づく学習可能な報酬モデルに基づくキャプション手法であるSelf-Capを提案する。
我々の識別器は、字幕の正しさを促進するために訓練された微調整されたコントラスト画像テキストモデルである。
論文 参考訳(メタデータ) (2024-08-29T18:00:03Z) - Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification [54.96876797812238]
画像と隣接するテキスト間の距離構造に基づく新しいCrOss-moDal nEighbor表現(CODER)を提案する。
高品質のCODERを構築する鍵は、画像にマッチする大量の高品質で多様なテキストを作成する方法にある。
さまざまなデータセットやモデルに対する実験結果から、CODERの有効性が確認されている。
論文 参考訳(メタデータ) (2024-04-27T02:04:36Z) - Mining Fine-Grained Image-Text Alignment for Zero-Shot Captioning via
Text-Only Training [14.340740609933437]
そこで本研究では,モダリティギャップを低減するために,テキストのみのトレーニングを施したゼロショット画像キャプションフレームワークを提案する。
特に,地域情報を活用するためのサブリージョン機能アグリゲーションを導入する。
フレームワークを拡張してゼロショットのVQAパイプラインを構築し、その汎用性を実証します。
論文 参考訳(メタデータ) (2024-01-04T16:43:46Z) - CgT-GAN: CLIP-guided Text GAN for Image Captioning [48.276753091051035]
本稿では,CLIP-Guided text GAN (CgT-GAN) を提案する。
我々は,外部テキストコーパスのフレーズを模倣するために,CgT-GANの教育に逆行訓練を用いる。
CgT-GANは、すべてのメトリクスで最先端のメソッドを著しく上回る。
論文 参考訳(メタデータ) (2023-08-23T10:25:37Z) - Text encoders bottleneck compositionality in contrastive vision-language
models [76.2406963762722]
単一ベクトルのテキスト表現からキャプションを再構築することを目的としたテキストのみのリカバリプローブを訓練する。
CLIPのテキストエンコーダは、より構成的な入力では不十分であることがわかった。
結果は、テキストのみの回復性は、構成因子をモデル化するのに必要である(しかし十分ではない)ことを示唆している。
論文 参考訳(メタデータ) (2023-05-24T08:48:44Z) - DeCap: Decoding CLIP Latents for Zero-Shot Captioning via Text-Only
Training [73.74291217502928]
ゼロショットキャプションのための単純なフレームワークであるDeCapを提案する。
軽量な視覚認識言語デコーダを提案する。
視覚的な埋め込みはCLIPテキスト埋め込み空間に投影するが、投影された埋め込みは視覚的な入力の情報を保持する。
論文 参考訳(メタデータ) (2023-03-06T11:02:47Z) - CLIP-ReID: Exploiting Vision-Language Model for Image Re-Identification
without Concrete Text Labels [28.42405456691034]
本稿では,画像再識別作業における視覚的表現の改善を目的とした2段階戦略を提案する。
鍵となるアイデアは、各IDの学習可能なテキストトークンセットを通じて、CLIPのクロスモーダル記述能力をフル活用することだ。
提案手法の有効性は、人や車両のReIDタスクのための複数のデータセット上で検証される。
論文 参考訳(メタデータ) (2022-11-25T09:41:57Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z) - ClipCap: CLIP Prefix for Image Captioning [6.69087470775851]
簡単なマッピングネットワークを用いてキャプションのプレフィックスとしてCLIPエンコーディングを使用し、次に言語モデルを微調整して画像キャプションを生成する。
我々のモデルは、挑戦的な概念キャプションとnocapsデータセットに関する最先端の手法に匹敵する結果が得られることを実証する。
論文 参考訳(メタデータ) (2021-11-18T14:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。