論文の概要: Comparing Importance Sampling Based Methods for Mitigating the Effect of
Class Imbalance
- arxiv url: http://arxiv.org/abs/2402.18742v1
- Date: Wed, 28 Feb 2024 22:52:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 16:42:06.629994
- Title: Comparing Importance Sampling Based Methods for Mitigating the Effect of
Class Imbalance
- Title(参考訳): クラス不均衡の影響を緩和する重要サンプリング手法の比較
- Authors: Indu Panigrahi and Richard Zhu
- Abstract要約: 我々は,損失再加重,アンダーサンプリング,オーバーサンプリングという,重要なサンプリングから導かれる3つのテクニックを比較した。
アンダーサンプリングにおける損失の重み付けは、アンダー表現されたクラスの性能に悪影響を及ぼすことがわかった。
我々の発見は、プラネタリーデータセットに何らかの冗長性が存在することも示唆している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most state-of-the-art computer vision models heavily depend on data. However,
many datasets exhibit extreme class imbalance which has been shown to
negatively impact model performance. Among the training-time and
data-generation solutions that have been explored, one subset that leverages
existing data is importance sampling. A good deal of this work focuses
primarily on the CIFAR-10 and CIFAR-100 datasets which fail to be
representative of the scale, composition, and complexity of current
state-of-the-art datasets. In this work, we explore and compare three
techniques that derive from importance sampling: loss reweighting,
undersampling, and oversampling. Specifically, we compare the effect of these
techniques on the performance of two encoders on an impactful satellite imagery
dataset, Planet's Amazon Rainforest dataset, in preparation for another work.
Furthermore, we perform supplemental experimentation on a scene classification
dataset, ADE20K, to test on a contrasting domain and clarify our results.
Across both types of encoders, we find that up-weighting the loss for and
undersampling has a negigible effect on the performance on underrepresented
classes. Additionally, our results suggest oversampling generally improves
performance for the same underrepresented classes. Interestingly, our findings
also indicate that there may exist some redundancy in data in the Planet
dataset. Our work aims to provide a foundation for further work on the Planet
dataset and similar domain-specific datasets. We open-source our code at
https://github.com/RichardZhu123/514-class-imbalance for future work on other
satellite imagery datasets as well.
- Abstract(参考訳): 最先端のコンピュータビジョンモデルはデータに大きく依存している。
しかし、多くのデータセットは極端なクラス不均衡を示し、モデルの性能に悪影響を及ぼすことが示されている。
これまで検討されてきたトレーニング時間とデータ生成ソリューションの中で、既存のデータを活用するサブセットが重要なサンプリングである。
この研究の大部分は、現在の最先端データセットのスケール、構成、複雑さを表現できないCIFAR-10とCIFAR-100データセットに重点を置いている。
本研究では,損失再加重,アンダーサンプリング,オーバーサンプリングという,重要なサンプリングから導かれる3つのテクニックを探索し,比較する。
具体的には,これらの手法が2つのエンコーダの性能に与える影響を,プラネットのamazon rainforestデータセットであるimpactful satellite image datasetに対して比較し,別の研究に備えた。
さらに、シーン分類データセットADE20Kで補足実験を行い、コントラスト領域でテストを行い、その結果を明らかにする。
両タイプのエンコーダにおいて,アンダーサンプリングと損失の重み付けは,アンダー表現されたクラスの性能に悪影響を及ぼすことがわかった。
さらに,オーバーサンプリングにより,同一のクラスのパフォーマンスが向上することが示唆された。
興味深いことに、我々の発見は、Planetデータセットにデータに冗長性があることを示唆している。
我々の研究は、プラネットデータセットと類似のドメイン固有データセットのさらなる研究のための基盤を提供することを目的としています。
当社のコードはhttps://github.com/RichardZhu123/514-class-imbalanceで公開しています。
関連論文リスト
- UniTraj: A Unified Framework for Scalable Vehicle Trajectory Prediction [93.77809355002591]
さまざまなデータセット、モデル、評価基準を統一する包括的なフレームワークであるUniTrajを紹介する。
我々は広範な実験を行い、他のデータセットに転送するとモデルの性能が大幅に低下することがわかった。
これらの知見を説明するために,データセットの特徴に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-03-22T10:36:50Z) - Class Imbalance in Object Detection: An Experimental Diagnosis and Study
of Mitigation Strategies [0.5439020425818999]
本研究は, YOLOv5単段検出器を用いて, 前地上クラス不均衡問題に対処するベンチマークフレームワークを提案する。
我々は,サンプリング,損失重み付け,データ強化という3つの確立した手法を精査した。
比較分析の結果,2段階検出法では有効であるが,YOLOv5の性能向上には有効ではないことが明らかとなった。
論文 参考訳(メタデータ) (2024-03-11T19:06:04Z) - Feedback-guided Data Synthesis for Imbalanced Classification [10.836265321046561]
有用な合成サンプルを用いて静的データセットを拡張するためのフレームワークを提案する。
サンプルはタスクの実際のデータのサポートに近づき、十分に多様であることに気付きました。
ImageNet-LTでは、表現不足のクラスでは4%以上改善され、最先端の結果が得られます。
論文 参考訳(メタデータ) (2023-09-29T21:47:57Z) - DatasetEquity: Are All Samples Created Equal? In The Quest For Equity
Within Datasets [4.833815605196965]
本稿では,機械学習におけるデータ不均衡に対処する新しい手法を提案する。
深い知覚埋め込みとクラスタリングを用いて、画像の外観に基づいてサンプル確率を計算する。
次に、これらの可能性を使って、提案された$bf Generalized Focal Loss$関数で、トレーニング中にサンプルを異なる重さで測定する。
論文 参考訳(メタデータ) (2023-08-19T02:11:49Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - A Data-Based Perspective on Transfer Learning [76.30206800557411]
転送学習におけるソースデータセットの合成の役割について,より詳しく検討する。
我々のフレームワークは、転送学習の脆さをピンポインティングするなど、新しい機能を生み出します。
論文 参考訳(メタデータ) (2022-07-12T17:58:28Z) - Free Lunch for Co-Saliency Detection: Context Adjustment [14.688461235328306]
市販のサリエンシ検出データセットからの画像を利用して新しいサンプルを合成する「コストフリー」グループカットペースト(GCP)手順を提案する。
我々は、Context Adjustment Trainingと呼ばれる新しいデータセットを収集します。データセットの2つのバリエーション、すなわち、CATとCAT+は、それぞれ16,750と33,500の画像で構成されています。
論文 参考訳(メタデータ) (2021-08-04T14:51:37Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Negative Data Augmentation [127.28042046152954]
負のデータ拡張サンプルは、データ分散のサポートに関する情報を提供することを示す。
我々は、NDAを識別器の合成データの追加源として利用する新しいGAN訓練目標を提案する。
実験により,本手法で訓練したモデルでは,異常検出能力の向上とともに条件付き・条件付き画像生成の改善を実現している。
論文 参考訳(メタデータ) (2021-02-09T20:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。