論文の概要: Exploring Vision-Language Models for Imbalanced Learning
- arxiv url: http://arxiv.org/abs/2304.01457v1
- Date: Tue, 4 Apr 2023 01:56:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 15:40:57.922400
- Title: Exploring Vision-Language Models for Imbalanced Learning
- Title(参考訳): 不均衡学習のための視覚言語モデルの検討
- Authors: Yidong Wang, Zhuohao Yu, Jindong Wang, Qiang Heng, Hao Chen, Wei Ye,
Rui Xie, Xing Xie, Shikun Zhang
- Abstract要約: 対照的な言語画像事前学習を用いた視覚言語モデル(VLM)は、ゼロショット分類性能が有望であることを示す。
本研究では,大容量データによって事前学習されたVLMに対して,不均衡学習アルゴリズムが重要であることを明らかにする。
- 参考スコア(独自算出の注目度): 29.235472353759388
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language models (VLMs) that use contrastive language-image
pre-training have shown promising zero-shot classification performance.
However, their performance on imbalanced dataset is relatively poor, where the
distribution of classes in the training dataset is skewed, leading to poor
performance in predicting minority classes. For instance, CLIP achieved only 5%
accuracy on the iNaturalist18 dataset. We propose to add a lightweight decoder
to VLMs to avoid OOM (out of memory) problem caused by large number of classes
and capture nuanced features for tail classes. Then, we explore improvements of
VLMs using prompt tuning, fine-tuning, and incorporating imbalanced algorithms
such as Focal Loss, Balanced SoftMax and Distribution Alignment. Experiments
demonstrate that the performance of VLMs can be further boosted when used with
decoder and imbalanced methods. Specifically, our improved VLMs significantly
outperforms zero-shot classification by an average accuracy of 6.58%, 69.82%,
and 6.17%, on ImageNet-LT, iNaturalist18, and Places-LT, respectively. We
further analyze the influence of pre-training data size, backbones, and
training cost. Our study highlights the significance of imbalanced learning
algorithms in face of VLMs pre-trained by huge data. We release our code at
https://github.com/Imbalance-VLM/Imbalance-VLM.
- Abstract(参考訳): 対照的な言語画像事前学習を用いた視覚言語モデル(vlms)では,ゼロショット分類性能が期待できる。
しかし、不均衡データセットにおけるそれらの性能は比較的貧弱であり、トレーニングデータセット内のクラスの分布が歪められ、少数クラスの予測性能が低下する。
例えば、CLIPはiNaturalist18データセットで5%の精度しか達成していない。
本稿では,多数のクラスが原因で発生するOOM(out of memory)問題を回避するために,VLMに軽量デコーダを追加することを提案する。
次に,Focal Loss, Balanced SoftMax, Distribution Alignmentなどの不均衡アルゴリズムを即時チューニング,微調整,組み込んだVLMの改良について検討する。
実験により、デコーダや不均衡な手法を用いる場合、VLMの性能をさらに向上できることが示されている。
具体的には,画像Net-LT,iNaturalist18,Places-LTでは,平均精度6.58%,69.82%,6.17%でゼロショット分類に優れていた。
さらに,事前トレーニングデータサイズ,バックボーン,トレーニングコストの影響についても分析した。
本研究では,大容量データによって事前学習されたVLMに直面する不均衡学習アルゴリズムの重要性を明らかにする。
コードをhttps://github.com/Im Balance-VLM/Im Balance-VLMでリリースします。
関連論文リスト
- Conformal-in-the-Loop for Learning with Imbalanced Noisy Data [5.69777817429044]
大規模なデータセットでは、クラス不均衡とラベルノイズが広まっています。
機械学習の研究の多くは、よくラベル付けされたバランスの取れたデータを前提としている。
コンフォーマル・イン・ザ・ループ(Conformal-in-the-Loop, CitL)は,コンフォーマルな予測に基づく手法を用いて,両課題に対処する新しいトレーニングフレームワークである。
論文 参考訳(メタデータ) (2024-11-04T17:09:58Z) - Entropy Law: The Story Behind Data Compression and LLM Performance [115.70395740286422]
モデル性能はトレーニングデータの圧縮比と負の相関関係にあり,トレーニング損失が小さくなるのが普通である。
エントロピー法則の知見に基づいて, 極めて効率的で普遍的なデータ選択法を提案する。
また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
論文 参考訳(メタデータ) (2024-07-09T08:14:29Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Why are Visually-Grounded Language Models Bad at Image Classification? [39.76294811955341]
GPT-4VやLLaVAといった視覚的言語モデル(VLM)を用いて画像分類タスクを再検討する。
既存のプロプライエタリかつパブリックなVLMは、ImageNetのような標準画像分類ベンチマークにおいてCLIPを著しく上回っていることがわかった。
画像分類のための重要な情報は、VLMの潜在空間に符号化されるが、十分なトレーニングデータで効果的に復号化できる。
論文 参考訳(メタデータ) (2024-05-28T17:57:06Z) - Class-Imbalanced Semi-Supervised Learning for Large-Scale Point Cloud
Semantic Segmentation via Decoupling Optimization [64.36097398869774]
半教師付き学習(SSL)は大規模3Dシーン理解のための活発な研究課題である。
既存のSSLベースのメソッドは、クラス不均衡とポイントクラウドデータのロングテール分布による厳しいトレーニングバイアスに悩まされている。
本稿では,特徴表現学習と分類器を別の最適化方法で切り離してバイアス決定境界を効果的にシフトする,新しいデカップリング最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-13T04:16:40Z) - Addressing Class Variable Imbalance in Federated Semi-supervised
Learning [10.542178602467885]
我々は,クラス変数の不均衡を解決するために,FCVI(Federated Semi-supervised Learning for Class Variable Im Balance)を提案する。
FCVIは、クラス数の変化によるデータの不均衡を軽減するために使用される。
クライアントのプライバシを維持しながら,ベースライン方式よりもはるかに優れた手法であることが実証された。
論文 参考訳(メタデータ) (2023-03-21T12:50:17Z) - Efficient Augmentation for Imbalanced Deep Learning [8.38844520504124]
本研究では、畳み込みニューラルネットワークの内部表現である不均衡画像データについて検討する。
モデルの特徴埋め込みとテストセットの一般化ギャップを測定し、マイノリティクラスではそのギャップが広いことを示す。
この洞察により、不均衡なデータのための効率的な3相CNNトレーニングフレームワークを設計できる。
論文 参考訳(メタデータ) (2022-07-13T09:43:17Z) - ZeroGen$^+$: Self-Guided High-Quality Data Generation in Efficient
Zero-Shot Learning [97.2907428983142]
ZeroGenは、純粋にPLMを使用してデータを生成し、タスク固有のアノテーションに頼ることなく、小さなモデルをトレーニングする。
金のデータを必要とせずに、サンプルごとの重み付けを学習できるノイズローバストなバイレベル再重み付けフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:38:48Z) - How Sensitive are Meta-Learners to Dataset Imbalance? [13.60699610822265]
ML手法はタスクレベルでの不均衡よりもメタデータセットの不均衡に対して堅牢であることを示す。
これらの結果は、データセットの不均衡とドメインシフトの下で一般化可能な特徴を学習できるMLアルゴリズムの暗黙的な強みを強調している。
論文 参考訳(メタデータ) (2021-04-12T10:47:42Z) - Deep F-measure Maximization for End-to-End Speech Understanding [52.36496114728355]
本稿では,F測度に対する微分可能な近似法を提案し,標準バックプロパゲーションを用いてネットワークをトレーニングする。
我々は、アダルト、コミュニティ、犯罪の2つの標準フェアネスデータセットの実験を行い、ATISデータセットの音声・インテリジェンス検出と音声・COCOデータセットの音声・イメージ概念分類を行った。
これらの4つのタスクのすべてにおいて、F測定は、クロスエントロピー損失関数で訓練されたモデルと比較して、最大8%の絶対的な絶対的な改善を含む、マイクロF1スコアの改善をもたらす。
論文 参考訳(メタデータ) (2020-08-08T03:02:27Z) - Identifying and Compensating for Feature Deviation in Imbalanced Deep
Learning [59.65752299209042]
このようなシナリオ下でのConvNetの学習について検討する。
私たちは、ConvNetがマイナーなクラスにかなり適合していることに気づきました。
クラス依存型温度トレーニング(CDT)のConvNetの導入を提案する。
論文 参考訳(メタデータ) (2020-01-06T03:52:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。