Fugu-MT 論文翻訳(概要): Improving Zero-shot Generalization and Robustness of Multi-modal Models

論文の概要: Improving Zero-shot Generalization and Robustness of Multi-modal Models

arxiv url: http://arxiv.org/abs/2212.01758v2
Date: Thu, 25 May 2023 17:14:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-26 23:28:28.386834
Title: Improving Zero-shot Generalization and Robustness of Multi-modal Models
Title（参考訳）: マルチモーダルモデルのゼロショット一般化とロバスト性の改善
Authors: Yunhao Ge, Jie Ren, Andrew Gallagher, Yuxiao Wang, Ming-Hsuan Yang, Hartwig Adam, Laurent Itti, Balaji Lakshminarayanan, Jiaping Zhao
Abstract要約: CLIPやLiTのようなマルチモーダルな画像テキストモデルは、画像分類ベンチマークで顕著な性能を示している。本研究は,この性能差の原因を考察し,テキストプロンプトの曖昧さによる障害事例の多くが原因であることを示す。本稿では,WordNet階層を用いて,不確実な画像の精度を向上させるための簡易かつ効率的な手法を提案する。
参考スコア（独自算出の注目度）: 70.14692320804178
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-modal image-text models such as CLIP and LiT have demonstrated impressive performance on image classification benchmarks and their zero-shot generalization ability is particularly exciting. While the top-5 zero-shot accuracies of these models are very high, the top-1 accuracies are much lower (over 25% gap in some cases). We investigate the reasons for this performance gap and find that many of the failure cases are caused by ambiguity in the text prompts. First, we develop a simple and efficient zero-shot post-hoc method to identify images whose top-1 prediction is likely to be incorrect, by measuring consistency of the predictions w.r.t. multiple prompts and image transformations. We show that our procedure better predicts mistakes, outperforming the popular max logit baseline on selective prediction tasks. Next, we propose a simple and efficient way to improve accuracy on such uncertain images by making use of the WordNet hierarchy; specifically we augment the original class by incorporating its parent and children from the semantic label hierarchy, and plug the augmentation into text prompts. We conduct experiments on both CLIP and LiT models with five different ImageNet-based datasets. For CLIP, our method improves the top-1 accuracy by 17.13% on the uncertain subset and 3.6% on the entire ImageNet validation set. We also show that our method improves across ImageNet shifted datasets, four other datasets, and other model architectures such as LiT. The proposed method is hyperparameter-free, requires no additional model training and can be easily scaled to other large multi-modal architectures. Code is available at https://github.com/gyhandy/Hierarchy-CLIP.
Abstract（参考訳）: CLIPやLiTのようなマルチモーダルな画像テキストモデルは、画像分類ベンチマークで顕著なパフォーマンスを示しており、そのゼロショットの一般化能力は特にエキサイティングである。これらのモデルの上位5のゼロショットアキュラティは極めて高いが、上位1アキュラティはずっと低い(場合によっては25%以上のギャップ)。本研究は,この性能差の原因を考察し,テキストプロンプトの曖昧さによる障害事例の多くが原因であることを示す。まず,複数のプロンプトと画像変換の一貫性を計測することにより,top-1予測が誤りである可能性のある画像を特定するための簡易かつ効率的なゼロショットポストホック手法を開発した。提案手法は,選択予測タスクにおいてmax logitベースラインよりも高い精度で誤りを予測できることを示す。次に,wordnet階層を用いて,このような不確実性画像の精度を向上させるための簡易かつ効率的な方法を提案する。具体的には,親子を意味ラベル階層から統合し,テキストプロンプトに付加することで,元のクラスを補完する。 5つの異なるImageNetベースのデータセットを用いて,CLIPモデルとLiTモデルの両方で実験を行った。 CLIPでは、不確実なサブセットでは17.13%、ImageNet検証セットでは3.6%の精度でトップ1の精度が向上する。また、imagenetシフトデータセット、他の4つのデータセット、およびlitのような他のモデルアーキテクチャをまたいで改善することを示す。提案手法はハイパーパラメータフリーであり、追加のモデルトレーニングを必要とせず、他の大規模マルチモーダルアーキテクチャに容易に拡張できる。コードはhttps://github.com/gyhandy/Hierarchy-CLIPで入手できる。

関連論文リスト

TULIP: Towards Unified Language-Image Pretraining [60.99500935831526]
既存のCLIPライクなモデルの代替として,オープンソースでドロップイン可能なTを導入する。提案手法は, 生成データの拡張, 画像画像の強化, テキストコントラスト学習, 画像/テキスト再構成正規化を利用して, きめ細かい視覚的特徴を学習する。当社のアプローチでは、ベンチマーク全体で既存の最先端(SOTA)モデルを上回っています。
論文参考訳（メタデータ） (2025-03-19T17:58:57Z)
Enhancing Zero-Shot Vision Models by Label-Free Prompt Distribution Learning and Bias Correcting [55.361337202198925]
CLIPのようなヴィジュアル言語モデルは、適切なテキスト記述を使用する際に、顕著な一般化能力を示している。本稿では,ラベル付きデータを必要としないゼロショット性能を向上する,**Frolic**と呼ばれるラベルフリーな分布学習とバイアス補正フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-25T04:00:45Z)
What Do You See? Enhancing Zero-Shot Image Classification with Multimodal Large Language Models [11.683093317651517]
大規模言語モデル(LLM)は、画像分類を含む多くのコンピュータビジョンタスクに効果的に使用されている。マルチモーダルLCMを用いたゼロショット画像分類法を提案する。この結果は,複数のデータセットのベンチマーク精度を上回り,その顕著な効果を示した。
論文参考訳（メタデータ） (2024-05-24T16:05:15Z)
Multi-method Integration with Confidence-based Weighting for Zero-shot Image Classification [1.7265013728931]
本稿では,ゼロショット学習(ZSL)のための新しいフレームワークを提案する。本稿では,ZSLを扱うためのモデルの性能向上のための3つの戦略を提案する。
論文参考訳（メタデータ） (2024-05-03T15:02:41Z)
Transductive Zero-Shot and Few-Shot CLIP [24.592841797020203]
本稿では,トランスダクティブなゼロショットと少数ショットのCLIP分類問題に対処する。推論は、各インスタンスを独立して扱うのではなく、ラベルのないクエリサンプルのミニバッチで共同で実行される。提案手法は,CLIPのゼロショット性能に対して,画像ネットの精度を約20%向上させる。
論文参考訳（メタデータ） (2024-04-08T12:44:31Z)
Raising the Bar of AI-generated Image Detection with CLIP [50.345365081177555]
本研究の目的は、AI生成画像の普遍的検出のための事前学習された視覚言語モデル(VLM)の可能性を探ることである。我々は,CLIP機能に基づく軽量な検出戦略を開発し,その性能を様々な難易度シナリオで検証する。
論文参考訳（メタデータ） (2023-11-30T21:11:20Z)
Image Clustering via the Principle of Rate Reduction in the Age of Pretrained Models [37.574691902971296]
本稿では,大規模事前学習モデルの強力な特徴表現を利用した画像クラスタリングパイプラインを提案する。パイプラインは、CIFAR-10、CIFAR-100、ImageNet-1kなどの標準データセットでうまく動作することを示す。
論文参考訳（メタデータ） (2023-06-08T15:20:27Z)
Learning Customized Visual Models with Retrieval-Augmented Knowledge [104.05456849611895]
我々は、ターゲットドメイン用にカスタマイズされたビジュアルモデルを構築するための、関連するWeb知識を取得するためのフレームワークであるREACTを提案する。我々は、Webスケールデータベースから最も関連性の高い画像テキストペアを外部知識として検索し、元の重みをすべて凍結しながら、新しいモジュール化されたブロックをトレーニングするだけで、モデルをカスタマイズすることを提案する。 REACTの有効性は、ゼロ、少数、フルショット設定を含む分類、検索、検出、セグメンテーションタスクに関する広範な実験を通じて実証される。
論文参考訳（メタデータ） (2023-01-17T18:59:06Z)
Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。 MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文参考訳（メタデータ） (2022-06-07T02:03:06Z)
Core Risk Minimization using Salient ImageNet [53.616101711801484]
私たちは、1000のImagenetクラスのコアとスプリアス機能をローカライズする100万人以上のソフトマスクを備えたSalient Imagenetデータセットを紹介します。このデータセットを用いて、まず、いくつかのImagenet事前訓練されたモデル(総計42件)の素早い特徴に対する依存度を評価する。次に、コアリスク最小化(CoRM)と呼ばれる新しい学習パラダイムを導入する。
論文参考訳（メタデータ） (2022-03-28T01:53:34Z)
SimMIM: A Simple Framework for Masked Image Modeling [29.015777125540613]
本稿では,マスク画像モデリングのためのシンプルなフレームワークであるSimについて述べる。フレームワークの主要なコンポーネントについて検討し、各コンポーネントのシンプルな設計が、非常に強力な表現学習性能を示した。また、このアプローチを利用して3Bモデルのトレーニングをしやすくし、従来の4つの代表的なビジョンベンチマークよりも40ドル安いデータで、最先端の4つのビジョンベンチマークを実現しています。
論文参考訳（メタデータ） (2021-11-18T18:59:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。