論文の概要: Exploring Vision-Language Models for Imbalanced Learning
- arxiv url: http://arxiv.org/abs/2304.01457v2
- Date: Wed, 21 Jun 2023 15:44:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 17:23:11.396065
- Title: Exploring Vision-Language Models for Imbalanced Learning
- Title(参考訳): 不均衡学習のための視覚言語モデルの検討
- Authors: Yidong Wang, Zhuohao Yu, Jindong Wang, Qiang Heng, Hao Chen, Wei Ye,
Rui Xie, Xing Xie, Shikun Zhang
- Abstract要約: 対照的な言語画像事前学習を用いた視覚言語モデル(VLM)は、ゼロショット分類性能が有望であることを示す。
本研究では,大容量データによって事前学習されたVLMに対して,不均衡学習アルゴリズムが重要であることを明らかにする。
- 参考スコア(独自算出の注目度): 29.235472353759388
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language models (VLMs) that use contrastive language-image
pre-training have shown promising zero-shot classification performance.
However, their performance on imbalanced dataset is relatively poor, where the
distribution of classes in the training dataset is skewed, leading to poor
performance in predicting minority classes. For instance, CLIP achieved only 5%
accuracy on the iNaturalist18 dataset. We propose to add a lightweight decoder
to VLMs to avoid OOM (out of memory) problem caused by large number of classes
and capture nuanced features for tail classes. Then, we explore improvements of
VLMs using prompt tuning, fine-tuning, and incorporating imbalanced algorithms
such as Focal Loss, Balanced SoftMax and Distribution Alignment. Experiments
demonstrate that the performance of VLMs can be further boosted when used with
decoder and imbalanced methods. Specifically, our improved VLMs significantly
outperforms zero-shot classification by an average accuracy of 6.58%, 69.82%,
and 6.17%, on ImageNet-LT, iNaturalist18, and Places-LT, respectively. We
further analyze the influence of pre-training data size, backbones, and
training cost. Our study highlights the significance of imbalanced learning
algorithms in face of VLMs pre-trained by huge data. We release our code at
https://github.com/Imbalance-VLM/Imbalance-VLM.
- Abstract(参考訳): 対照的な言語画像事前学習を用いた視覚言語モデル(vlms)では,ゼロショット分類性能が期待できる。
しかし、不均衡データセットにおけるそれらの性能は比較的貧弱であり、トレーニングデータセット内のクラスの分布が歪められ、少数クラスの予測性能が低下する。
例えば、CLIPはiNaturalist18データセットで5%の精度しか達成していない。
本稿では,多数のクラスが原因で発生するOOM(out of memory)問題を回避するために,VLMに軽量デコーダを追加することを提案する。
次に,Focal Loss, Balanced SoftMax, Distribution Alignmentなどの不均衡アルゴリズムを即時チューニング,微調整,組み込んだVLMの改良について検討する。
実験により、デコーダや不均衡な手法を用いる場合、VLMの性能をさらに向上できることが示されている。
具体的には,画像Net-LT,iNaturalist18,Places-LTでは,平均精度6.58%,69.82%,6.17%でゼロショット分類に優れていた。
さらに,事前トレーニングデータサイズ,バックボーン,トレーニングコストの影響についても分析した。
本研究では,大容量データによって事前学習されたVLMに直面する不均衡学習アルゴリズムの重要性を明らかにする。
コードをhttps://github.com/Im Balance-VLM/Im Balance-VLMでリリースします。
関連論文リスト
- Class-Imbalanced Semi-Supervised Learning for Large-Scale Point Cloud
Semantic Segmentation via Decoupling Optimization [64.36097398869774]
半教師付き学習(SSL)は大規模3Dシーン理解のための活発な研究課題である。
既存のSSLベースのメソッドは、クラス不均衡とポイントクラウドデータのロングテール分布による厳しいトレーニングバイアスに悩まされている。
本稿では,特徴表現学習と分類器を別の最適化方法で切り離してバイアス決定境界を効果的にシフトする,新しいデカップリング最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-13T04:16:40Z) - Addressing Class Variable Imbalance in Federated Semi-supervised
Learning [10.542178602467885]
我々は,クラス変数の不均衡を解決するために,FCVI(Federated Semi-supervised Learning for Class Variable Im Balance)を提案する。
FCVIは、クラス数の変化によるデータの不均衡を軽減するために使用される。
クライアントのプライバシを維持しながら,ベースライン方式よりもはるかに優れた手法であることが実証された。
論文 参考訳(メタデータ) (2023-03-21T12:50:17Z) - Efficient Augmentation for Imbalanced Deep Learning [8.38844520504124]
本研究では、畳み込みニューラルネットワークの内部表現である不均衡画像データについて検討する。
モデルの特徴埋め込みとテストセットの一般化ギャップを測定し、マイノリティクラスではそのギャップが広いことを示す。
この洞察により、不均衡なデータのための効率的な3相CNNトレーニングフレームワークを設計できる。
論文 参考訳(メタデータ) (2022-07-13T09:43:17Z) - ZeroGen$^+$: Self-Guided High-Quality Data Generation in Efficient
Zero-Shot Learning [97.2907428983142]
ZeroGenは、純粋にPLMを使用してデータを生成し、タスク固有のアノテーションに頼ることなく、小さなモデルをトレーニングする。
金のデータを必要とせずに、サンプルごとの重み付けを学習できるノイズローバストなバイレベル再重み付けフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:38:48Z) - BASIL: Balanced Active Semi-supervised Learning for Class Imbalanced
Datasets [14.739359755029353]
現在の半教師付き学習(SSL)メソッドは、ラベル付きデータセットとラベルなしデータセットの両方で、各クラスで利用可能なデータポイントの数の間のバランスを前提としている。
本研究では,サブモジュール相互情報(SMI)関数をクラスごとに最適化し,アクティブな学習ループにおけるバランスの取れたデータセットを徐々に選択するアルゴリズムであるBASILを提案する。
論文 参考訳(メタデータ) (2022-03-10T21:34:08Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z) - How Sensitive are Meta-Learners to Dataset Imbalance? [13.60699610822265]
ML手法はタスクレベルでの不均衡よりもメタデータセットの不均衡に対して堅牢であることを示す。
これらの結果は、データセットの不均衡とドメインシフトの下で一般化可能な特徴を学習できるMLアルゴリズムの暗黙的な強みを強調している。
論文 参考訳(メタデータ) (2021-04-12T10:47:42Z) - Improving Calibration for Long-Tailed Recognition [68.32848696795519]
このようなシナリオにおけるキャリブレーションとパフォーマンスを改善する2つの方法を提案します。
異なるサンプルによるデータセットバイアスに対して,シフトバッチ正規化を提案する。
提案手法は,複数の長尾認識ベンチマークデータセットに新しいレコードをセットする。
論文 参考訳(メタデータ) (2021-04-01T13:55:21Z) - Fed-Focal Loss for imbalanced data classification in Federated Learning [2.2172881631608456]
Federated Learningには、デバイスネットワーク上のモデルのトレーニングをコーディネートする中央サーバがある。
課題の1つは、データセットがクラス不均衡である場合の可変トレーニングパフォーマンスである。
焦点損失の線に沿って、適切に分類された例に割り当てられた損失を下げるように、クロスエントロピー損失を変形させることにより、クラス不均衡に対処することを提案する。
論文 参考訳(メタデータ) (2020-11-12T09:52:14Z) - Deep F-measure Maximization for End-to-End Speech Understanding [52.36496114728355]
本稿では,F測度に対する微分可能な近似法を提案し,標準バックプロパゲーションを用いてネットワークをトレーニングする。
我々は、アダルト、コミュニティ、犯罪の2つの標準フェアネスデータセットの実験を行い、ATISデータセットの音声・インテリジェンス検出と音声・COCOデータセットの音声・イメージ概念分類を行った。
これらの4つのタスクのすべてにおいて、F測定は、クロスエントロピー損失関数で訓練されたモデルと比較して、最大8%の絶対的な絶対的な改善を含む、マイクロF1スコアの改善をもたらす。
論文 参考訳(メタデータ) (2020-08-08T03:02:27Z) - Identifying and Compensating for Feature Deviation in Imbalanced Deep
Learning [59.65752299209042]
このようなシナリオ下でのConvNetの学習について検討する。
私たちは、ConvNetがマイナーなクラスにかなり適合していることに気づきました。
クラス依存型温度トレーニング(CDT)のConvNetの導入を提案する。
論文 参考訳(メタデータ) (2020-01-06T03:52:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。