論文の概要: Linear Alignment of Vision-language Models for Image Captioning
- arxiv url: http://arxiv.org/abs/2307.05591v4
- Date: Sat, 08 Feb 2025 15:54:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:27:55.412926
- Title: Linear Alignment of Vision-language Models for Image Captioning
- Title(参考訳): 画像キャプションのための視覚言語モデルの線形アライメント
- Authors: Fabian Paischer, Markus Hofmarcher, Sepp Hochreiter, Thomas Adler,
- Abstract要約: 本稿では,ReCapと呼ばれる軽量キャプション手法を提案する。
また,CLIPスコアに基づく2つの新しい学習ベース画像キャプチャーメトリクスと,提案したアライメントを提案する。
- 参考スコア(独自算出の注目度): 8.921774238325566
- License:
- Abstract: Recently, vision-language models like CLIP have advanced the state of the art in a variety of multi-modal tasks including image captioning and caption evaluation. Many approaches leverage CLIP for cross-modal retrieval to condition pre-trained language models on visual input. However, CLIP generally suffers from a mis-alignment of image and text modalities in the joint embedding space. We investigate efficient methods to linearly re-align the joint embedding space for the downstream task of image captioning. This leads to an efficient training protocol that merely requires computing a closed-form solution for a linear mapping in the joint CLIP space. Consequently, we propose a lightweight captioning method called ReCap, which can be trained up to 1000 times faster than existing lightweight methods. Moreover, we propose two new learning-based image-captioning metrics built on CLIP score along with our proposed alignment. We evaluate ReCap on MS-COCO, Flickr30k, VizWiz and MSRVTT. On the former two, ReCap performs comparably to state-of-the-art lightweight methods using rule-based metrics while outperforming them on most of the CLIP-based metrics. On the latter two benchmarks, ReCap consistently outperforms competitors across all metrics and exhibits strong transfer capabilities and resilience to noise. Finally, we demonstrate that our proposed metrics correlate stronger with human judgement than existing metrics on the Flickr8k-Expert, Flickr8k-Crowdflower, and THumB datasets.
- Abstract(参考訳): 近年、CLIPのような視覚言語モデルは、画像キャプションやキャプション評価など、様々なマルチモーダルタスクにおいて最先端の技術を進歩させている。
多くのアプローチでは、CLIPをクロスモーダル検索に利用して、視覚入力に事前訓練された言語モデルを条件付けしている。
しかし、CLIPは通常、共同埋め込み空間における画像とテキストのモダリティの誤調整に悩まされる。
本稿では,画像キャプションの下流タスクにおいて,関節埋め込み空間を線形に調整する効率的な手法について検討する。
これは、共同のCLIP空間における線形写像のための閉形式ソリューションを計算するだけでよい効率的なトレーニングプロトコルをもたらす。
そこで本研究では,ReCapと呼ばれる軽量キャプション方式を提案する。
さらに,CLIPスコアに基づく2つの新しい学習ベース画像キャプチャーメトリクスと,提案したアライメントを提案する。
我々は,MS-COCO,Flickr30k,VizWiz,MSRVTT上でReCapを評価する。
前者の2つでは、ReCapはルールベースのメトリクスを使用して、最先端の軽量メソッドと互換性があり、CLIPベースのメトリクスのほとんどでパフォーマンスが向上している。
後者の2つのベンチマークでは、ReCapはすべてのメトリクスで競合より一貫して優れており、強力な転送機能とノイズに対するレジリエンスを示している。
最後に、提案した指標が、Flickr8k-Expert、Flickr8k-Crowdflower、THumBデータセット上の既存の指標よりも、人間の判断と相関していることを示す。
関連論文リスト
- DiffCLIP: Few-shot Language-driven Multimodal Classifier [19.145645804307566]
DiffCLIPはContrastive Language-Image Pretrainingを拡張する新しいフレームワークである。
高次元マルチモーダルリモートセンシング画像の正確な分類のための包括的言語駆動意味情報を提供する。
DiffCLIPはCLIPと比較して3つのリモートセンシングデータセットで10.65%の全体的な精度向上を実現している。
論文 参考訳(メタデータ) (2024-12-10T02:21:39Z) - TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。
そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。
提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文 参考訳(メタデータ) (2024-11-04T19:24:59Z) - Optimizing CLIP Models for Image Retrieval with Maintained Joint-Embedding Alignment [0.7499722271664144]
Contrastive Language and Image Pairing (CLIP) はマルチメディア検索における変換手法である。
CLIPは通常、2つのニューラルネットワークを同時にトレーニングし、テキストとイメージペアのジョイント埋め込みを生成する。
本稿では,様々な画像に基づく類似性検索シナリオに対して,CLIPモデルを最適化するという課題に対処する。
論文 参考訳(メタデータ) (2024-09-03T14:33:01Z) - Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification [54.96876797812238]
画像と隣接するテキスト間の距離構造に基づく新しいCrOss-moDal nEighbor表現(CODER)を提案する。
高品質のCODERを構築する鍵は、画像にマッチする大量の高品質で多様なテキストを作成する方法にある。
さまざまなデータセットやモデルに対する実験結果から、CODERの有効性が確認されている。
論文 参考訳(メタデータ) (2024-04-27T02:04:36Z) - Improving CLIP Training with Language Rewrites [57.935517901210225]
言語書き換えによるCLIPトレーニングを強化するために,Language augmented CLIP (LaCLIP)を導入した。
また,LaCLIPは,学習中に計算やメモリオーバーヘッドを伴わずに転送性能を大幅に向上することを示した。
ImageNetゼロショット精度では、LaCLIPはCC12MでCLIPを8.2%、LAION-400Mで2.4%上回る。
論文 参考訳(メタデータ) (2023-05-31T17:59:04Z) - Is a Caption Worth a Thousand Images? A Controlled Study for
Representation Learning [88.5382122413913]
本研究では,従来の画像のみの手法よりも伝達可能な表現を持つ視覚モデルが得られるかを検討した。
画像のみの手法は、より多くの画像データでトレーニングされた場合でも、CLIPの転送性能と一致しないことがわかった。
この結果から,CLIPが既存の事前学習データセットに存在する言語情報を活用できるように,シンプルな処方薬を考案した。
論文 参考訳(メタデータ) (2022-07-15T17:50:51Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - Fine-grained Image Captioning with CLIP Reward [104.71533106301598]
ウェブから大量の画像テキストペアをトレーニングしたマルチモーダルエンコーダであるCLIPを用いて、マルチモーダル類似性を計算し、報酬関数として利用する。
また、追加のテキストアノテーションを必要としない文法を改善するために、CLIPテキストエンコーダの簡単な微調整戦略を提案する。
テキスト・ツー・イメージ検索とFineCapEvalの実験において、提案したCLIP誘導モデルは、CIDEr最適化モデルよりも顕著なキャプションを生成する。
論文 参考訳(メタデータ) (2022-05-26T02:46:09Z) - Robust Cross-Modal Representation Learning with Progressive
Self-Distillation [7.676408770854477]
CLIPの視覚言語アプローチの学習目的は、Webハーベスト画像キャプションデータセットに見られるノイズの多い多対多対応を効果的に考慮していない。
本研究では、進行的な自己蒸留とソフトな画像テキストアライメントを用いて、雑音の多いデータから頑健な表現をより効率的に学習するクロスモーダルコントラスト学習に基づく新しいトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-10T03:28:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。