論文の概要: Linear Alignment of Vision-language Models for Image Captioning
- arxiv url: http://arxiv.org/abs/2307.05591v3
- Date: Tue, 6 Feb 2024 09:33:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 11:34:03.471211
- Title: Linear Alignment of Vision-language Models for Image Captioning
- Title(参考訳): 画像キャプションのための視覚言語モデルの線形アライメント
- Authors: Fabian Paischer, Markus Hofmarcher, Sepp Hochreiter, Thomas Adler
- Abstract要約: 本稿では,CLIPのイメージとテキストの埋め込みを線形にマッピングする,より効率的なトレーニングプロトコルを提案する。
これにより、勾配計算の必要性を回避し、ReCapと呼ばれる軽量キャプション方式が実現される。
ReCap on MS-COCO, Flickr30k, VizWiz, MSRVTT。
- 参考スコア(独自算出の注目度): 9.746397419479447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, vision-language models like CLIP have advanced the state of the art
in a variety of multi-modal tasks including image captioning and caption
evaluation. Many approaches adapt CLIP-style models to a downstream task by
training a mapping network between CLIP and a language model. This is costly as
it usually involves calculating gradients for large models. We propose a more
efficient training protocol that fits a linear mapping between image and text
embeddings of CLIP via a closed-form solution. This bypasses the need for
gradient computation and results in a lightweight captioning method called
ReCap, which can be trained up to 1000 times faster than existing lightweight
methods. Moreover, we propose two new learning-based image-captioning metrics
that build on CLIP score along with our linear mapping. Furthermore, we combine
ReCap with our new metrics to design an iterative datastore-augmentation loop
(DAL) based on synthetic captions. We evaluate ReCap on MS-COCO, Flickr30k,
VizWiz, and MSRVTT. ReCap achieves performance comparable to state-of-the-art
lightweight methods on established metrics while outperforming them on our new
metrics, which are better aligned with human ratings on Flickr8k-Expert and
Flickr8k-Crowdflower. Finally, we demonstrate that ReCap transfers well to
other domains and that our DAL leads to a performance boost.
- Abstract(参考訳): 近年、CLIPのような視覚言語モデルは、画像キャプションやキャプション評価など、様々なマルチモーダルタスクにおいて、技術の進歩を遂げている。
多くのアプローチは、CLIPと言語モデルの間のマッピングネットワークをトレーニングすることで、CLIPスタイルのモデルを下流タスクに適応させる。
これは通常、大きなモデルの勾配を計算するためコストがかかる。
本稿では,CLIPの画像とテキストの埋め込みを,クローズドフォームで線形にマッピングする,より効率的なトレーニングプロトコルを提案する。
これにより勾配計算の必要性を回避し、既存の軽量メソッドの最大1000倍の速度でトレーニング可能な、recapと呼ばれる軽量キャプションメソッドが実現される。
さらに,CLIPスコアに基づく2つの新しい学習ベースの画像キャプチャーメトリクスと線形マッピングを提案する。
さらにrecapと新しいメトリクスを組み合わせることで,合成キャプションに基づく反復型データストア・オーグメンテーションループ(dal)を設計する。
我々はms-coco,flickr30k,vizwiz,msrvttのリキャップを評価した。
Flickr8k-Expert や Flickr8k-Crowdflower での人間の評価と整合性が高いため、既存のメトリクスでは最先端の軽量メソッドに匹敵するパフォーマンスを実現しています。
最後に、recapが他のドメインにうまく移行し、dalがパフォーマンス向上につながることを実証します。
関連論文リスト
- TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。
そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。
提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文 参考訳(メタデータ) (2024-11-04T19:24:59Z) - VeCLIP: Improving CLIP Training via Visual-enriched Captions [63.547204530720705]
本研究は,ノイズキャプション書き換えのためのスケーラブルパイプラインを提案する。
視覚豊かなキャプション(VeCap)と呼ばれるキャプションへの視覚概念の組み入れを強調した。
本稿では,大規模なWebクローリングデータセットであるVeCLIP上でCLIPをトレーニングするためのこの手法の適用について紹介する。
論文 参考訳(メタデータ) (2023-10-11T17:49:13Z) - Improving CLIP Training with Language Rewrites [57.935517901210225]
言語書き換えによるCLIPトレーニングを強化するために,Language augmented CLIP (LaCLIP)を導入した。
また,LaCLIPは,学習中に計算やメモリオーバーヘッドを伴わずに転送性能を大幅に向上することを示した。
ImageNetゼロショット精度では、LaCLIPはCC12MでCLIPを8.2%、LAION-400Mで2.4%上回る。
論文 参考訳(メタデータ) (2023-05-31T17:59:04Z) - Fine-tuned CLIP Models are Efficient Video Learners [54.96069171726668]
画像テキストペアによる大規模マルチモーダルトレーニングは、CLIPモデルに強力な一般化を与える。
Video Fine-Tuned CLIP (ViFi-CLIP) ベースラインは一般的に、画像からビデオへの領域ギャップを埋めるのに十分である。
論文 参考訳(メタデータ) (2022-12-06T18:59:58Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - Fine-grained Image Captioning with CLIP Reward [104.71533106301598]
ウェブから大量の画像テキストペアをトレーニングしたマルチモーダルエンコーダであるCLIPを用いて、マルチモーダル類似性を計算し、報酬関数として利用する。
また、追加のテキストアノテーションを必要としない文法を改善するために、CLIPテキストエンコーダの簡単な微調整戦略を提案する。
テキスト・ツー・イメージ検索とFineCapEvalの実験において、提案したCLIP誘導モデルは、CIDEr最適化モデルよりも顕著なキャプションを生成する。
論文 参考訳(メタデータ) (2022-05-26T02:46:09Z) - Robust Cross-Modal Representation Learning with Progressive
Self-Distillation [7.676408770854477]
CLIPの視覚言語アプローチの学習目的は、Webハーベスト画像キャプションデータセットに見られるノイズの多い多対多対応を効果的に考慮していない。
本研究では、進行的な自己蒸留とソフトな画像テキストアライメントを用いて、雑音の多いデータから頑健な表現をより効率的に学習するクロスモーダルコントラスト学習に基づく新しいトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-10T03:28:18Z) - ClipCap: CLIP Prefix for Image Captioning [6.69087470775851]
簡単なマッピングネットワークを用いてキャプションのプレフィックスとしてCLIPエンコーディングを使用し、次に言語モデルを微調整して画像キャプションを生成する。
我々のモデルは、挑戦的な概念キャプションとnocapsデータセットに関する最先端の手法に匹敵する結果が得られることを実証する。
論文 参考訳(メタデータ) (2021-11-18T14:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。