論文の概要: IG Captioner: Information Gain Captioners are Strong Zero-shot Classifiers
- arxiv url: http://arxiv.org/abs/2311.17072v2
- Date: Wed, 17 Jul 2024 00:10:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 23:08:38.944105
- Title: IG Captioner: Information Gain Captioners are Strong Zero-shot Classifiers
- Title(参考訳): IGキャプタ:情報ゲインキャプタはゼロショットの強力な分類器
- Authors: Chenglin Yang, Siyuan Qiao, Yuan Cao, Yu Zhang, Tao Zhu, Alan Yuille, Jiahui Yu,
- Abstract要約: 生成的トレーニングは視覚言語モデルを構築する上で強力であることが示されている。
ゼロショット判別ベンチマークでは、生成的および差別的目的で訓練されたモデルの間にはまだパフォーマンスのギャップがある。
本稿では,分類作業における生成学習の有効性を向上させることにより,このギャップを狭めることを目的とする。
- 参考スコア(独自算出の注目度): 31.455819448471157
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative training has been demonstrated to be powerful for building visual-language models. However, on zero-shot discriminative benchmarks, there is still a performance gap between models trained with generative and discriminative objectives. In this paper, we aim to narrow this gap by improving the efficacy of generative training on classification tasks, without any finetuning processes or additional modules. Specifically, we focus on narrowing the gap between the generative captioner and the CLIP classifier. We begin by analysing the predictions made by the captioner and classifier and observe that the caption generation inherits the distribution bias from the language model trained with pure text modality, making it less grounded on the visual signal. To tackle this problem, we redesign the scoring objective for the captioner to alleviate the distributional bias and focus on measuring the gain of information brought by the visual inputs. We further design a generative training objective to match the evaluation objective. We name our model trained and evaluated from the novel procedures as Information Gain (IG) captioner. We pretrain the models on the public Laion-5B dataset and perform a series of discriminative evaluations. For the zero-shot classification on ImageNet, IG captioner achieves $> 18\%$ improvements over the standard captioner, achieving comparable performances with the CLIP classifier. IG captioner also demonstrated strong performance on zero-shot image-text retrieval tasks on MSCOCO and Flickr30K. We hope this paper inspires further research towards unifying generative and discriminative training procedures for visual-language models.
- Abstract(参考訳): 生成的トレーニングは視覚言語モデルを構築する上で強力であることが示されている。
しかし、ゼロショット判別ベンチマークでは、生成的および差別的目的で訓練されたモデルの間にはまだパフォーマンスのギャップがある。
本稿では,微調整プロセスや追加モジュールを使わずに,分類タスクにおける生成的トレーニングの有効性を向上させることにより,このギャップを狭めることを目的とする。
具体的には、生成キャプタとCLIP分類器のギャップを狭めることに焦点を当てる。
まず、キャプタと分類器による予測を分析し、キャプタ生成が純粋なテキストモダリティで訓練された言語モデルから分布バイアスを継承し、視覚信号の基盤を小さくする。
この問題に対処するため,我々はキャプタの得点目標を再設計し,分布バイアスを緩和し,視覚入力による情報の獲得度を計測することに集中する。
さらに,評価目標に適合する生成的学習目標を設計する。
我々は,新しい手順からトレーニングを行い,評価したモデルをIGキャプタ(Information Gain)キャプタとして命名した。
パブリックなLaion-5Bデータセット上でモデルを事前訓練し、一連の識別評価を行う。
ImageNetのゼロショット分類では、IGキャプタは標準キャプタよりも$> 18\%$の改善を達成し、CLIP分類器で同等のパフォーマンスを達成する。
IGキャプタは、MSCOCOとFlickr30Kのゼロショット画像テキスト検索タスクにも強い性能を示した。
本稿では,視覚言語モデルにおける生成的・識別的訓練の統一に向けたさらなる研究を期待する。
関連論文リスト
- SILC: Improving Vision Language Pretraining with Self-Distillation [113.50400246862056]
本稿では,視覚言語事前学習のための新しいフレームワークであるSILCを紹介する。
SILCは、局所-言語対応学習を自己蒸留で簡単に追加することで、画像テキストのコントラスト学習を改善する。
指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,検出やセグメンテーションといった密集した予測タスクにおけるモデル性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T08:44:47Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - Zero-shot Visual Question Answering with Language Model Feedback [83.65140324876536]
知識に基づく視覚的質問応答(VQA)のための言語モデル指導型キャプションアプローチ LAMOC を提案する。
提案手法では,予備学習言語モデル (PLM) である回答予測モデルの文脈として,キャプションモデルによって生成されたキャプションを用いる。
論文 参考訳(メタデータ) (2023-05-26T15:04:20Z) - Zero-shot Image Captioning by Anchor-augmented Vision-Language Space
Alignment [23.072180427273544]
ゼロショット画像キャプションにCLIPを直接利用する場合、文脈のテクスチュラルなモダリティに大きく依存し、視覚情報をほとんど無視する。
これを解決するために、教師なしのクロスモーダル学習を容易にするクロスモーダル言語モデル(CLM)を提案する。
MS COCOとFlickr 30Kの実験は、キャプション品質と計算効率の両方において提案手法の有望な性能を検証した。
論文 参考訳(メタデータ) (2022-11-14T11:12:19Z) - Text2Model: Text-based Model Induction for Zero-shot Image Classification [38.704831945753284]
テキスト記述のみを用いてタスクに依存しない分類器を構築するという課題に対処する。
クラス記述を受信し,マルチクラスモデルを出力するハイパーネットワークを用いてゼロショット分類器を生成する。
本手法は,画像,ポイントクラウド,行動認識など,一連のゼロショット分類タスクにおいて,テキスト記述の範囲を用いて評価する。
論文 参考訳(メタデータ) (2022-10-27T05:19:55Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - Better Captioning with Sequence-Level Exploration [60.57850194028581]
課題の字幕化における現在のシーケンスレベルの学習目標の限界を示す。
理論的には、現在の目的はキャプションセットの精度側だけを最適化することである。
実証的な結果は、この目的によって訓練されたモデルは、リコール側で低いスコアを得る傾向があることを示している。
論文 参考訳(メタデータ) (2020-03-08T09:08:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。