論文の概要: DatasetEquity: Are All Samples Created Equal? In The Quest For Equity
Within Datasets
- arxiv url: http://arxiv.org/abs/2308.09878v1
- Date: Sat, 19 Aug 2023 02:11:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 19:27:52.138117
- Title: DatasetEquity: Are All Samples Created Equal? In The Quest For Equity
Within Datasets
- Title(参考訳): datasetequity: すべてのサンプルは平等か?
データセット内のエクイティを求めて
- Authors: Shubham Shrivastava, Xianling Zhang, Sushruth Nagesh, Armin Parchami
- Abstract要約: 本稿では,機械学習におけるデータ不均衡に対処する新しい手法を提案する。
本手法は, 深い知覚埋め込みとクラスタリングを用いて, 画像の外観に基づくサンプル確率を算出する。
実験では、KITTIやnuScenesを含む自律走行視覚データセット間で、この手法の有効性を検証する。
- 参考スコア(独自算出の注目度): 4.833815605196965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data imbalance is a well-known issue in the field of machine learning,
attributable to the cost of data collection, the difficulty of labeling, and
the geographical distribution of the data. In computer vision, bias in data
distribution caused by image appearance remains highly unexplored. Compared to
categorical distributions using class labels, image appearance reveals complex
relationships between objects beyond what class labels provide. Clustering deep
perceptual features extracted from raw pixels gives a richer representation of
the data. This paper presents a novel method for addressing data imbalance in
machine learning. The method computes sample likelihoods based on image
appearance using deep perceptual embeddings and clustering. It then uses these
likelihoods to weigh samples differently during training with a proposed
\textbf{Generalized Focal Loss} function. This loss can be easily integrated
with deep learning algorithms. Experiments validate the method's effectiveness
across autonomous driving vision datasets including KITTI and nuScenes. The
loss function improves state-of-the-art 3D object detection methods, achieving
over $200\%$ AP gains on under-represented classes (Cyclist) in the KITTI
dataset. The results demonstrate the method is generalizable, complements
existing techniques, and is particularly beneficial for smaller datasets and
rare classes. Code is available at:
$\texttt{https://github.com/towardsautonomy/DatasetEquity}$
- Abstract(参考訳): データ不均衡は、機械学習の分野でよく知られた問題であり、データ収集のコスト、ラベル付けの難しさ、データの地理的分布に起因する。
コンピュータビジョンでは、画像の出現によるデータ分布の偏りは未解明のままである。
クラスラベルを用いたカテゴリ分布と比較すると、画像の外観はクラスラベルが提供するもの以上のオブジェクト間の複雑な関係を示す。
生のピクセルから抽出した深い知覚特徴をクラスタリングすることで、データのよりリッチな表現が可能になる。
本稿では,機械学習におけるデータ不均衡に対処する新しい手法を提案する。
本手法は, 深い知覚埋め込みとクラスタリングを用いて, 画像の外観に基づくサンプル確率を算出する。
次に、これらの可能性を使って、提案された \textbf{ Generalized Focal Loss} 関数でトレーニング中にサンプルを異なる量にする。
この損失は、ディープラーニングアルゴリズムと容易に統合できる。
実験では、KITTIやnuScenesを含む自律走行視覚データセット間で、この手法の有効性を検証する。
損失関数は最先端の3dオブジェクト検出方法を改善し、kittiデータセットの未表示クラス(cyclist)で200〜%のapゲインを達成する。
その結果、この手法は一般化可能であり、既存の手法を補完し、より小さなデータセットやレアクラスに特に有用であることが示されている。
コードは、$\texttt{https://github.com/towardsautonomy/datasetequity}$で入手できる。
関連論文リスト
- Outlier Detection in Large Radiological Datasets using UMAP [1.206248959194646]
バイオメディカルデータでは、画像の品質、ラベル付け、レポート、アーカイブのバリエーションは、エラー、矛盾、繰り返しサンプルにつながる可能性がある。
ここでは、一様多様体近似および射影アルゴリズムが、本質的には独立クラスタを形成することによってこれらの異常を見つけることができることを示す。
結果はアーカイブとふりかえりですが、グラフベースのメソッドはどんなデータ型でも機能します。
論文 参考訳(メタデータ) (2024-07-31T00:56:06Z) - Comparing Importance Sampling Based Methods for Mitigating the Effect of
Class Imbalance [0.0]
我々は,損失再加重,アンダーサンプリング,オーバーサンプリングという,重要なサンプリングから導かれる3つのテクニックを比較した。
アンダーサンプリングにおける損失の重み付けは、アンダー表現されたクラスの性能に悪影響を及ぼすことがわかった。
我々の発見は、プラネタリーデータセットに何らかの冗長性が存在することも示唆している。
論文 参考訳(メタデータ) (2024-02-28T22:52:27Z) - Few-Shot Non-Parametric Learning with Deep Latent Variable Model [50.746273235463754]
遅延変数を用いた圧縮による非パラメトリック学習(NPC-LV)を提案する。
NPC-LVは、ラベルなしデータが多いがラベル付きデータはほとんどないデータセットの学習フレームワークである。
我々は,NPC-LVが低データ構造における画像分類における3つのデータセットの教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-23T09:35:03Z) - Improving Contrastive Learning on Imbalanced Seed Data via Open-World
Sampling [96.8742582581744]
我々は、Model-Aware K-center (MAK)と呼ばれるオープンワールドなラベルなしデータサンプリングフレームワークを提案する。
MAKは、尾性、近接性、多様性の3つの単純な原則に従う。
我々はMAKが学習した機能の全体的な表現品質とクラスバランス性の両方を継続的に改善できることを実証した。
論文 参考訳(メタデータ) (2021-11-01T15:09:41Z) - CvS: Classification via Segmentation For Small Datasets [52.821178654631254]
本稿では,分類ラベルをセグメントマップの予測から導出する小型データセットのコスト効率の高い分類器であるCvSを提案する。
我々は,CvSが従来の手法よりもはるかに高い分類結果が得られることを示す多種多様な問題に対して,本フレームワークの有効性を評価する。
論文 参考訳(メタデータ) (2021-10-29T18:41:15Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - Silhouettes and quasi residual plots for neural nets and tree-based
classifiers [0.0]
ここでは、トレーニングデータとテストデータの両方において、分類されたケースを視覚化する、別の目標を追求します。
重要な側面は、あるケースが与えられたクラス(ラベル)に分類されたかどうか、または、分類器がそれを別のクラスに割り当てたいかどうかである。
グラフィカルディスプレイは、画像、混合機能、ツイートを含むベンチマークデータセットで図示され、解釈される。
論文 参考訳(メタデータ) (2021-06-16T14:26:31Z) - How to distribute data across tasks for meta-learning? [59.608652082495624]
タスクごとのデータポイントの最適な数は予算に依存しますが、それは大きな予算のためのユニークな一定の値に収束します。
この結果から,データ収集の簡便かつ効率的な手順が示唆された。
論文 参考訳(メタデータ) (2021-03-15T15:38:47Z) - MAGNeto: An Efficient Deep Learning Method for the Extractive Tags
Summarization Problem [0.0]
抽出タグ要約(ETS)と呼ばれる新しい画像アノテーションタスクについて検討する。
ゴールは、画像とその対応するタグに横たわるコンテキストから重要なタグを抽出することである。
提案手法は,畳み込み層や自己注意層など,広く使用されているブロックで構成されている。
論文 参考訳(メタデータ) (2020-11-09T11:34:21Z) - Learning with Out-of-Distribution Data for Audio Classification [60.48251022280506]
我々は,OODインスタンスを破棄するよりも,特定のOODインスタンスを検出・復号化することで,学習に肯定的な影響を及ぼすことを示す。
提案手法は,畳み込みニューラルネットワークの性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-02-11T21:08:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。