論文の概要: Improving Zero-shot Generalization and Robustness of Multi-modal Models
- arxiv url: http://arxiv.org/abs/2212.01758v2
- Date: Thu, 25 May 2023 17:14:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 23:28:28.386834
- Title: Improving Zero-shot Generalization and Robustness of Multi-modal Models
- Title(参考訳): マルチモーダルモデルのゼロショット一般化とロバスト性の改善
- Authors: Yunhao Ge, Jie Ren, Andrew Gallagher, Yuxiao Wang, Ming-Hsuan Yang,
Hartwig Adam, Laurent Itti, Balaji Lakshminarayanan, Jiaping Zhao
- Abstract要約: CLIPやLiTのようなマルチモーダルな画像テキストモデルは、画像分類ベンチマークで顕著な性能を示している。
本研究は,この性能差の原因を考察し,テキストプロンプトの曖昧さによる障害事例の多くが原因であることを示す。
本稿では,WordNet階層を用いて,不確実な画像の精度を向上させるための簡易かつ効率的な手法を提案する。
- 参考スコア(独自算出の注目度): 70.14692320804178
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal image-text models such as CLIP and LiT have demonstrated
impressive performance on image classification benchmarks and their zero-shot
generalization ability is particularly exciting. While the top-5 zero-shot
accuracies of these models are very high, the top-1 accuracies are much lower
(over 25% gap in some cases). We investigate the reasons for this performance
gap and find that many of the failure cases are caused by ambiguity in the text
prompts. First, we develop a simple and efficient zero-shot post-hoc method to
identify images whose top-1 prediction is likely to be incorrect, by measuring
consistency of the predictions w.r.t. multiple prompts and image
transformations. We show that our procedure better predicts mistakes,
outperforming the popular max logit baseline on selective prediction tasks.
Next, we propose a simple and efficient way to improve accuracy on such
uncertain images by making use of the WordNet hierarchy; specifically we
augment the original class by incorporating its parent and children from the
semantic label hierarchy, and plug the augmentation into text prompts. We
conduct experiments on both CLIP and LiT models with five different
ImageNet-based datasets. For CLIP, our method improves the top-1 accuracy by
17.13% on the uncertain subset and 3.6% on the entire ImageNet validation set.
We also show that our method improves across ImageNet shifted datasets, four
other datasets, and other model architectures such as LiT. The proposed method
is hyperparameter-free, requires no additional model training and can be easily
scaled to other large multi-modal architectures. Code is available at
https://github.com/gyhandy/Hierarchy-CLIP.
- Abstract(参考訳): CLIPやLiTのようなマルチモーダルな画像テキストモデルは、画像分類ベンチマークで顕著なパフォーマンスを示しており、そのゼロショットの一般化能力は特にエキサイティングである。
これらのモデルの上位5のゼロショットアキュラティは極めて高いが、上位1アキュラティはずっと低い(場合によっては25%以上のギャップ)。
本研究は,この性能差の原因を考察し,テキストプロンプトの曖昧さによる障害事例の多くが原因であることを示す。
まず,複数のプロンプトと画像変換の一貫性を計測することにより,top-1予測が誤りである可能性のある画像を特定するための簡易かつ効率的なゼロショットポストホック手法を開発した。
提案手法は,選択予測タスクにおいてmax logitベースラインよりも高い精度で誤りを予測できることを示す。
次に,wordnet階層を用いて,このような不確実性画像の精度を向上させるための簡易かつ効率的な方法を提案する。具体的には,親子を意味ラベル階層から統合し,テキストプロンプトに付加することで,元のクラスを補完する。
5つの異なるImageNetベースのデータセットを用いて,CLIPモデルとLiTモデルの両方で実験を行った。
CLIPでは、不確実なサブセットでは17.13%、ImageNet検証セットでは3.6%の精度でトップ1の精度が向上する。
また、imagenetシフトデータセット、他の4つのデータセット、およびlitのような他のモデルアーキテクチャをまたいで改善することを示す。
提案手法はハイパーパラメータフリーであり、追加のモデルトレーニングを必要とせず、他の大規模マルチモーダルアーキテクチャに容易に拡張できる。
コードはhttps://github.com/gyhandy/Hierarchy-CLIPで入手できる。
関連論文リスト
- Image-Caption Encoding for Improving Zero-Shot Generalization [12.906307770270026]
OODデータポイントが誤って分類された場合、その正しいクラスはTop-K予測クラスによく見られる。
上位予測クラス内の正しいクラスに対してモデル予測を行うために,イメージ・キャプション (ICE) 法を提案する。
本手法は他のSOTA法と組み合わせて,Top-1 OODアキュラシーを平均0.5%,挑戦的データセットで最大3%向上させることができる。
論文 参考訳(メタデータ) (2024-02-05T01:14:07Z) - Raising the Bar of AI-generated Image Detection with CLIP [11.053340674721005]
われわれはCLIP機能に基づいた軽量な検出戦略を開発した。
単一の生成モデルからのサンプル画像のみを使用することで、CLIPベースの検出器は驚くほどの一般化能力を示す。
論文 参考訳(メタデータ) (2023-11-30T21:11:20Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z) - Image Clustering via the Principle of Rate Reduction in the Age of
Pretrained Models [15.266356313275802]
本稿では,大規模事前学習モデルの強力な特徴表現を利用した画像クラスタリングパイプラインを提案する。
パイプラインは、CIFAR-10、CIFAR-100、ImageNet-1kなどの標準データセットでうまく動作することを示す。
論文 参考訳(メタデータ) (2023-06-08T15:20:27Z) - Learning Customized Visual Models with Retrieval-Augmented Knowledge [104.05456849611895]
我々は、ターゲットドメイン用にカスタマイズされたビジュアルモデルを構築するための、関連するWeb知識を取得するためのフレームワークであるREACTを提案する。
我々は、Webスケールデータベースから最も関連性の高い画像テキストペアを外部知識として検索し、元の重みをすべて凍結しながら、新しいモジュール化されたブロックをトレーニングするだけで、モデルをカスタマイズすることを提案する。
REACTの有効性は、ゼロ、少数、フルショット設定を含む分類、検索、検出、セグメンテーションタスクに関する広範な実験を通じて実証される。
論文 参考訳(メタデータ) (2023-01-17T18:59:06Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - Core Risk Minimization using Salient ImageNet [53.616101711801484]
私たちは、1000のImagenetクラスのコアとスプリアス機能をローカライズする100万人以上のソフトマスクを備えたSalient Imagenetデータセットを紹介します。
このデータセットを用いて、まず、いくつかのImagenet事前訓練されたモデル(総計42件)の素早い特徴に対する依存度を評価する。
次に、コアリスク最小化(CoRM)と呼ばれる新しい学習パラダイムを導入する。
論文 参考訳(メタデータ) (2022-03-28T01:53:34Z) - Combined Scaling for Zero-shot Transfer Learning [146.0851484769142]
我々は,ImageNet ILSVRC-2012バリデーションセットにおいて,85.7%のトップ1の精度を達成できるBASICと組み合わせたスケーリング手法を提案する。
この精度はCLIPとALIGNの9.3%を超える。
我々のモデルは、ロバストネスベンチマークの大幅な改善も示しています。
論文 参考訳(メタデータ) (2021-11-19T05:25:46Z) - SimMIM: A Simple Framework for Masked Image Modeling [29.015777125540613]
本稿では,マスク画像モデリングのためのシンプルなフレームワークであるSimについて述べる。
フレームワークの主要なコンポーネントについて検討し、各コンポーネントのシンプルな設計が、非常に強力な表現学習性能を示した。
また、このアプローチを利用して3Bモデルのトレーニングをしやすくし、従来の4つの代表的なビジョンベンチマークよりも40ドル安いデータで、最先端の4つのビジョンベンチマークを実現しています。
論文 参考訳(メタデータ) (2021-11-18T18:59:45Z) - Will Multi-modal Data Improves Few-shot Learning? [1.0742675209112622]
画像特徴とテキスト特徴を組み合わせた4種類の融合法を提案する。
注意に基づく融合法が最も有効であり、分類精度を30%程度向上させる。
論文 参考訳(メタデータ) (2021-07-25T17:34:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。