論文の概要: The Neglected Tails of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2401.12425v1
- Date: Tue, 23 Jan 2024 01:25:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-24 17:34:48.186686
- Title: The Neglected Tails of Vision-Language Models
- Title(参考訳): 視覚言語モデルの無視された尾
- Authors: Shubham Parashar, Zhiqiu Lin, Tian Liu, Xiangjue Dong, Yanan Li, Deva
Ramanan, James Caverlee, Shu Kong
- Abstract要約: 視覚言語モデル (VLM) はゼロショット認識に優れるが、視覚的概念全体にわたって大幅に不均衡な性能を示す。
この不均衡を軽減するために,Retrieval-Augmented Learning REALを提案する。
- 参考スコア(独自算出の注目度): 54.03013753984983
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) excel in zero-shot recognition but exhibit
drastically imbalanced performance across visual concepts. For example, CLIP,
despite an impressive mean zero-shot accuracy on ImageNet (72.7%), yields
$<$10% on ten concepts (e.g., gyromitra and night snake), presumably, because
these concepts are under-represented in VLMs' imbalanced pretraining data. Yet,
assessing this imbalance is challenging as it is non-trivial to calculate the
frequency of specific concepts within VLMs' large-scale pretraining data. Our
work makes the first attempt to measure the concept frequency by analyzing
pretraining texts. We use off-the-shelf language models to help count relevant
texts that contain synonyms of the given concepts and resolve linguistic
ambiguity. We confirm that popular VLM datasets like LAION indeed exhibit
long-tailed concept distributions, which strongly correlate with per-class
accuracies. Further, contemporary multimodal systems, e.g., visual chatbots and
text-to-image generators, also struggle with the rare concepts identified by
our method. To mitigate VLMs' imbalanced performance in zero-shot recognition,
we propose REtrieval-Augmented Learning REAL. First, instead of prompting VLMs
using the original class names, REAL uses their most frequent synonyms found in
VLMs' pretraining texts. This already outperforms human-engineered and
LLM-generated prompts over nine benchmark datasets, likely because VLMs have
seen more images associated with the frequently used synonyms. Second, REAL
uses all the concept synonyms to retrieve a small, class-balanced set of
pretraining data to train a robust classifier. REAL surpasses the recent
retrieval-augmented solution REACT, using 400x less storage and 10,000x less
training time!
- Abstract(参考訳): 視覚言語モデル(VLM)はゼロショット認識に優れるが、視覚的概念間での大幅な不均衡性能を示す。
例えば、imagenetでの平均ゼロショット精度(72.7%)は印象的だが、これらの概念はvlmsの不均衡な事前トレーニングデータに表示されないため、おそらく10の概念(ジャイロミトラやナイトスネークなど)で$<$10%になる。
しかし、VLMの大規模事前学習データの中で特定の概念の頻度を計算することは自明ではないため、この不均衡を評価することは困難である。
本研究は,事前学習テキストの分析により,概念の頻度を測定する最初の試みである。
既成言語モデルを用いて、与えられた概念の同義語を含む関連テキストを数え、言語的曖昧さを解決する。
LAIONのような一般的なVLMデータセットは、クラスごとの精度と強く相関する長い尾のコンセプト分布を示す。
さらに,現在のマルチモーダルシステム,例えば視覚チャットボットやテキストから画像への生成システムも,この手法で特定される稀な概念に苦しむ。
ゼロショット認識におけるVLMの不均衡性能を軽減するために,Retrieval-Augmented Learning REALを提案する。
まず、元のクラス名を使ってVLMをプロンプトする代わりに、REALはVLMの事前訓練されたテキストで最も頻繁に見られる同義語を使用する。
これは、VLMが頻繁に使用される同義語に関連付けられたより多くの画像を見てきたためであろう。
第2に、REALはすべての概念シノニムを使用して、頑健な分類器を訓練するために、小さなクラスバランスのデータ集合を検索する。
reactは400倍のストレージと10,000倍のトレーニング時間を使っています!
関連論文リスト
- Déjà Vu Memorization in Vision-Language Models [39.51189095703773]
視覚言語モデル(VLM)における記憶量測定のための新しい手法を提案する。
モデルでは、相関や画像キャプションから推測できる範囲を超えて、トレーニング画像中の個々のオブジェクトに関する情報が実際に保持されていることを示す。
サンプルおよび集団レベルでのd'eja vuメモリ化を評価し,最大5000万枚の画像キャプチャーペアで訓練したOpenCLIPにとって重要であることを示す。
論文 参考訳(メタデータ) (2024-02-03T09:55:35Z) - Revisiting Few-Shot Object Detection with Vision-Language Models [49.79495118650838]
我々は、最近の基礎視覚言語モデル(VLM)の文脈で、少数ショットオブジェクト検出(FSOD)のタスクを再考する。
我々は,任意の外部データ上で事前学習された検出器を評価する新しいベンチマークプロトコルであるFoundational FSODを提案する。
CVPR 2024 Foundational FSOD コンペティションについて論じ,コミュニティからの洞察を共有した。
論文 参考訳(メタデータ) (2023-12-22T07:42:00Z) - VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Preventing Zero-Shot Transfer Degradation in Continual Learning of
Vision-Language Models [13.340759455910721]
本稿では,視覚言語モデルの連続学習におけるゼロショット転送劣化を防止する新しい手法を提案する。
本手法は,従来のクラス増分学習環境において,他の手法よりも優れている。
論文 参考訳(メタデータ) (2023-03-12T10:28:07Z) - Task Residual for Tuning Vision-Language Models [69.22958802711017]
タスク残差調整(TaskRes)と呼ばれる視覚言語モデル(VLM)のための新しい効率的なチューニング手法を提案する。
TaskResは、トレーニング済みモデルの事前知識とターゲットタスクに関する新たな知識を明示的に分離する。
提案されたTaskResは単純だが有効であり、11のベンチマークデータセットで以前のメソッドよりも大幅に上回っている。
論文 参考訳(メタデータ) (2022-11-18T15:09:03Z) - Generative Negative Text Replay for Continual Vision-Language
Pretraining [95.2784858069843]
視覚言語による事前学習が近年注目を集めている。
大量のデータは、通常ストリーミング形式で収集される。
本稿では,画像とテキスト間のマルチモーダルな知識蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-10-31T13:42:21Z) - Learning Transferable Visual Models From Natural Language Supervision [13.866297967166089]
画像に関する生のテキストから直接学ぶことは、有望な代替手段だ。
本研究では,どのキャプションがどの画像で動くかを予測する単純な事前学習タスクが,効率よく,スケーラブルな学習方法であることを実証する。
SOTA画像表現は、インターネットから収集された4億(画像、テキスト)のデータセットから学習される。
論文 参考訳(メタデータ) (2021-02-26T19:04:58Z) - VisualGPT: Data-efficient Image Captioning by Balancing Visual Input and
Linguistic Knowledge from Pretraining [39.24803665848558]
大規模事前学習言語モデル(LM)から言語知識を活用するデータ効率のよい画像キャプションモデルであるVisualGPTを提案する。
少量のインドメイントレーニングデータに予め訓練されたLMを言語デコーダとして迅速に適応させる,新しい自己回復型エンコーダデコーダ注意機構を設計した。
VisualGPTは、MS COCOで最大10.8%のCIDEr、コンセプチュアルキャプションで最大5.4%のCIDErで最高のベースラインモデルを上回る。
論文 参考訳(メタデータ) (2021-02-20T18:02:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。