Fugu-MT 論文翻訳(概要): Exploring Vision-Language Models for Imbalanced Learning

論文の概要: Exploring Vision-Language Models for Imbalanced Learning

arxiv url: http://arxiv.org/abs/2304.01457v2
Date: Wed, 21 Jun 2023 15:44:19 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-22 17:23:11.396065
Title: Exploring Vision-Language Models for Imbalanced Learning
Title（参考訳）: 不均衡学習のための視覚言語モデルの検討
Authors: Yidong Wang, Zhuohao Yu, Jindong Wang, Qiang Heng, Hao Chen, Wei Ye, Rui Xie, Xing Xie, Shikun Zhang
Abstract要約: 対照的な言語画像事前学習を用いた視覚言語モデル(VLM)は、ゼロショット分類性能が有望であることを示す。本研究では,大容量データによって事前学習されたVLMに対して,不均衡学習アルゴリズムが重要であることを明らかにする。
参考スコア（独自算出の注目度）: 29.235472353759388
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-Language models (VLMs) that use contrastive language-image pre-training have shown promising zero-shot classification performance. However, their performance on imbalanced dataset is relatively poor, where the distribution of classes in the training dataset is skewed, leading to poor performance in predicting minority classes. For instance, CLIP achieved only 5% accuracy on the iNaturalist18 dataset. We propose to add a lightweight decoder to VLMs to avoid OOM (out of memory) problem caused by large number of classes and capture nuanced features for tail classes. Then, we explore improvements of VLMs using prompt tuning, fine-tuning, and incorporating imbalanced algorithms such as Focal Loss, Balanced SoftMax and Distribution Alignment. Experiments demonstrate that the performance of VLMs can be further boosted when used with decoder and imbalanced methods. Specifically, our improved VLMs significantly outperforms zero-shot classification by an average accuracy of 6.58%, 69.82%, and 6.17%, on ImageNet-LT, iNaturalist18, and Places-LT, respectively. We further analyze the influence of pre-training data size, backbones, and training cost. Our study highlights the significance of imbalanced learning algorithms in face of VLMs pre-trained by huge data. We release our code at https://github.com/Imbalance-VLM/Imbalance-VLM.
Abstract（参考訳）: 対照的な言語画像事前学習を用いた視覚言語モデル(vlms)では,ゼロショット分類性能が期待できる。しかし、不均衡データセットにおけるそれらの性能は比較的貧弱であり、トレーニングデータセット内のクラスの分布が歪められ、少数クラスの予測性能が低下する。例えば、CLIPはiNaturalist18データセットで5%の精度しか達成していない。本稿では,多数のクラスが原因で発生するOOM(out of memory)問題を回避するために,VLMに軽量デコーダを追加することを提案する。次に,Focal Loss, Balanced SoftMax, Distribution Alignmentなどの不均衡アルゴリズムを即時チューニング,微調整,組み込んだVLMの改良について検討する。実験により、デコーダや不均衡な手法を用いる場合、VLMの性能をさらに向上できることが示されている。具体的には,画像Net-LT,iNaturalist18,Places-LTでは,平均精度6.58%,69.82%,6.17%でゼロショット分類に優れていた。さらに,事前トレーニングデータサイズ,バックボーン,トレーニングコストの影響についても分析した。本研究では,大容量データによって事前学習されたVLMに直面する不均衡学習アルゴリズムの重要性を明らかにする。コードをhttps://github.com/Im Balance-VLM/Im Balance-VLMでリリースします。

関連論文リスト

S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文参考訳（メタデータ） (2025-02-18T13:40:22Z)
Conformal-in-the-Loop for Learning with Imbalanced Noisy Data [5.69777817429044]
大規模なデータセットでは、クラス不均衡とラベルノイズが広まっています。機械学習の研究の多くは、よくラベル付けされたバランスの取れたデータを前提としている。コンフォーマル・イン・ザ・ループ(Conformal-in-the-Loop, CitL)は,コンフォーマルな予測に基づく手法を用いて,両課題に対処する新しいトレーニングフレームワークである。
論文参考訳（メタデータ） (2024-11-04T17:09:58Z)
Scaling Laws for Predicting Downstream Performance in LLMs [75.28559015477137]
この研究は、性能推定のためのより計算効率のよい指標として、事前学習損失に焦点を当てている。 FLP-Mは、事前トレーニング中に複数のソースからのデータセットを統合する実践的なニーズに対処する、パフォーマンス予測の基本的なアプローチである。
論文参考訳（メタデータ） (2024-10-11T04:57:48Z)
Entropy Law: The Story Behind Data Compression and LLM Performance [115.70395740286422]
モデル性能はトレーニングデータの圧縮比と負の相関関係にあり,トレーニング損失が小さくなるのが普通である。エントロピー法則の知見に基づいて, 極めて効率的で普遍的なデータ選択法を提案する。また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
論文参考訳（メタデータ） (2024-07-09T08:14:29Z)
Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文参考訳（メタデータ） (2024-06-07T11:37:45Z)
Why are Visually-Grounded Language Models Bad at Image Classification? [39.76294811955341]
GPT-4VやLLaVAといった視覚的言語モデル(VLM)を用いて画像分類タスクを再検討する。既存のプロプライエタリかつパブリックなVLMは、ImageNetのような標準画像分類ベンチマークにおいてCLIPを著しく上回っていることがわかった。画像分類のための重要な情報は、VLMの潜在空間に符号化されるが、十分なトレーニングデータで効果的に復号化できる。
論文参考訳（メタデータ） (2024-05-28T17:57:06Z)
COBias and Debias: Balancing Class Accuracies for Language Models in Inference Time via Nonlinear Integer Programming [12.287692969438169]
本稿では,言語モデルにおける基本的な推論時間問題について考察する。問題の根底にあるものは、いくつかのクラスを過大予測し、他のクラスを過小予測する傾向があることです。推論時間最適化によって効果的に緩和できることを示す。
論文参考訳（メタデータ） (2024-05-13T10:30:33Z)
Class-Imbalanced Semi-Supervised Learning for Large-Scale Point Cloud Semantic Segmentation via Decoupling Optimization [64.36097398869774]
半教師付き学習(SSL)は大規模3Dシーン理解のための活発な研究課題である。既存のSSLベースのメソッドは、クラス不均衡とポイントクラウドデータのロングテール分布による厳しいトレーニングバイアスに悩まされている。本稿では,特徴表現学習と分類器を別の最適化方法で切り離してバイアス決定境界を効果的にシフトする,新しいデカップリング最適化フレームワークを提案する。
論文参考訳（メタデータ） (2024-01-13T04:16:40Z)
Addressing Class Variable Imbalance in Federated Semi-supervised Learning [10.542178602467885]
我々は,クラス変数の不均衡を解決するために,FCVI(Federated Semi-supervised Learning for Class Variable Im Balance)を提案する。 FCVIは、クラス数の変化によるデータの不均衡を軽減するために使用される。クライアントのプライバシを維持しながら,ベースライン方式よりもはるかに優れた手法であることが実証された。
論文参考訳（メタデータ） (2023-03-21T12:50:17Z)
Efficient Augmentation for Imbalanced Deep Learning [8.38844520504124]
本研究では、畳み込みニューラルネットワークの内部表現である不均衡画像データについて検討する。モデルの特徴埋め込みとテストセットの一般化ギャップを測定し、マイノリティクラスではそのギャップが広いことを示す。この洞察により、不均衡なデータのための効率的な3相CNNトレーニングフレームワークを設計できる。
論文参考訳（メタデータ） (2022-07-13T09:43:17Z)
ZeroGen$^+$: Self-Guided High-Quality Data Generation in Efficient Zero-Shot Learning [97.2907428983142]
ZeroGenは、純粋にPLMを使用してデータを生成し、タスク固有のアノテーションに頼ることなく、小さなモデルをトレーニングする。金のデータを必要とせずに、サンプルごとの重み付けを学習できるノイズローバストなバイレベル再重み付けフレームワークを提案する。
論文参考訳（メタデータ） (2022-05-25T11:38:48Z)
How Sensitive are Meta-Learners to Dataset Imbalance? [13.60699610822265]
ML手法はタスクレベルでの不均衡よりもメタデータセットの不均衡に対して堅牢であることを示す。これらの結果は、データセットの不均衡とドメインシフトの下で一般化可能な特徴を学習できるMLアルゴリズムの暗黙的な強みを強調している。
論文参考訳（メタデータ） (2021-04-12T10:47:42Z)
Deep F-measure Maximization for End-to-End Speech Understanding [52.36496114728355]
本稿では,F測度に対する微分可能な近似法を提案し,標準バックプロパゲーションを用いてネットワークをトレーニングする。我々は、アダルト、コミュニティ、犯罪の2つの標準フェアネスデータセットの実験を行い、ATISデータセットの音声・インテリジェンス検出と音声・COCOデータセットの音声・イメージ概念分類を行った。これらの4つのタスクのすべてにおいて、F測定は、クロスエントロピー損失関数で訓練されたモデルと比較して、最大8%の絶対的な絶対的な改善を含む、マイクロF1スコアの改善をもたらす。
論文参考訳（メタデータ） (2020-08-08T03:02:27Z)
Identifying and Compensating for Feature Deviation in Imbalanced Deep Learning [59.65752299209042]
このようなシナリオ下でのConvNetの学習について検討する。私たちは、ConvNetがマイナーなクラスにかなり適合していることに気づきました。クラス依存型温度トレーニング(CDT)のConvNetの導入を提案する。
論文参考訳（メタデータ） (2020-01-06T03:52:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。