論文の概要: A Decade's Battle on Dataset Bias: Are We There Yet?
- arxiv url: http://arxiv.org/abs/2403.08632v1
- Date: Wed, 13 Mar 2024 15:46:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 13:38:20.882230
- Title: A Decade's Battle on Dataset Bias: Are We There Yet?
- Title(参考訳): データセットのバイアスをめぐる10年の戦い:まだ存在するのか?
- Authors: Zhuang Liu, Kaiming He
- Abstract要約: 10年前にTorralbaとEfrosによって提案された"データセット分類"実験を再考する。
驚くべきことに、現在のニューラルネットワークは、画像がどのデータセットから来ているかの分類において、優れた精度を達成することができる。
- 参考スコア(独自算出の注目度): 32.46064586176908
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We revisit the "dataset classification" experiment suggested by Torralba and
Efros a decade ago, in the new era with large-scale, diverse, and hopefully
less biased datasets as well as more capable neural network architectures.
Surprisingly, we observe that modern neural networks can achieve excellent
accuracy in classifying which dataset an image is from: e.g., we report 84.7%
accuracy on held-out validation data for the three-way classification problem
consisting of the YFCC, CC, and DataComp datasets. Our further experiments show
that such a dataset classifier could learn semantic features that are
generalizable and transferable, which cannot be simply explained by
memorization. We hope our discovery will inspire the community to rethink the
issue involving dataset bias and model capabilities.
- Abstract(参考訳): 私たちは10年前にTorralba氏とEfros氏が提案した“データセット分類”実験を、大規模で多様性があり、バイアスの少ないデータセットと、より有能なニューラルネットワークアーキテクチャを備えた新しい時代に再検討した。
例えば、YFCC、CC、DataCompデータセットからなる3方向分類問題に対するホールドアウト検証データに対して84.7%の精度を報告します。
さらなる実験により、このようなデータセット分類器は、記憶によって簡単に説明できない一般化可能かつ伝達可能な意味的特徴を学習できることが示されている。
私たちの発見が、データセットバイアスとモデル機能に関わる問題を、コミュニティに再考させることを期待しています。
関連論文リスト
- Fuzzy Convolution Neural Networks for Tabular Data Classification [0.0]
畳み込みニューラルネットワーク(CNN)は、様々な領域における顕著な性能のために、多くの注目を集めている。
本稿では,表データに適したファジィ畳み込みニューラルネットワーク(FCNN)を提案する。
論文 参考訳(メタデータ) (2024-06-04T20:33:35Z) - UniTraj: A Unified Framework for Scalable Vehicle Trajectory Prediction [93.77809355002591]
さまざまなデータセット、モデル、評価基準を統一する包括的なフレームワークであるUniTrajを紹介する。
我々は広範な実験を行い、他のデータセットに転送するとモデルの性能が大幅に低下することがわかった。
これらの知見を説明するために,データセットの特徴に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-03-22T10:36:50Z) - UnbiasedNets: A Dataset Diversification Framework for Robustness Bias
Alleviation in Neural Networks [11.98126285848966]
最も正確なNNでさえ、利用可能なトレーニングデータセットに固有のバイアスがあるため、特定の出力分類に偏りがある。
本論文は、ある出力クラスにおいて、雑音に対するロバスト性が大きく、訓練されたNNが提示するロバスト性バイアスを扱う。
K平均クラスタリングとNNの雑音耐性を利用して、与えられたトレーニングデータセットを多様化するUnbiasedNetsフレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-24T09:49:43Z) - Multi-layer Representation Learning for Robust OOD Image Classification [3.1372269816123994]
我々は、CNNの中間層から特徴を抽出することで、モデルの最終的な予測を支援することができると主張している。
具体的には、ハイパーカラム法をResNet-18に適用し、NICOデータセットで評価した場合、モデルの精度を大幅に向上させる。
論文 参考訳(メタデータ) (2022-07-27T17:46:06Z) - Do We Really Need a Learnable Classifier at the End of Deep Neural
Network? [118.18554882199676]
本研究では、ニューラルネットワークを学習して分類器をランダムにETFとして分類し、訓練中に固定する可能性について検討する。
実験結果から,バランスの取れたデータセットの画像分類において,同様の性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-03-17T04:34:28Z) - CvS: Classification via Segmentation For Small Datasets [52.821178654631254]
本稿では,分類ラベルをセグメントマップの予測から導出する小型データセットのコスト効率の高い分類器であるCvSを提案する。
我々は,CvSが従来の手法よりもはるかに高い分類結果が得られることを示す多種多様な問題に対して,本フレームワークの有効性を評価する。
論文 参考訳(メタデータ) (2021-10-29T18:41:15Z) - Does Data Repair Lead to Fair Models? Curating Contextually Fair Data To
Reduce Model Bias [10.639605996067534]
コンテキスト情報は、より優れた表現を学び、精度を向上させるために、ディープニューラルネットワーク(DNN)にとって貴重なキューである。
COCOでは、多くの対象カテゴリーは、男性よりも男性の方がはるかに高い共起性を持ち、男性に有利なDNNの予測を偏見を与える可能性がある。
本研究では, 変動係数を用いたデータ修復アルゴリズムを導入し, 保護されたクラスに対して, 公平かつ文脈的にバランスの取れたデータをキュレートする。
論文 参考訳(メタデータ) (2021-10-20T06:00:03Z) - Hidden Biases in Unreliable News Detection Datasets [60.71991809782698]
データ収集中の選択バイアスがデータセットの望ましくないアーティファクトにつながることを示す。
クリーンスプリットでテストされたすべてのモデルに対して,列車/テストソースの重なりが無く,精度が大幅に低下した(>10%)。
将来的なデータセット生成には、困難/バイアスプローブとしての単純なモデルと、クリーンな非重複サイトと日付分割を使用する将来のモデル開発が含まれることを提案する。
論文 参考訳(メタデータ) (2021-04-20T17:16:41Z) - A Note on Data Biases in Generative Models [16.86600007830682]
生成モデルの性能に及ぼすデータセット品質の影響について検討する。
生成モデルによりデータセットの社会的バイアスがどのように再現されるかを示す。
本稿では,写真,油絵,アニメなどの多様なデータセット間の非ペア転送を通じて,クリエイティブな応用を提示する。
論文 参考訳(メタデータ) (2020-12-04T10:46:37Z) - Learning to Model and Ignore Dataset Bias with Mixed Capacity Ensembles [66.15398165275926]
本稿では,データセット固有のパターンを自動的に検出・無視する手法を提案する。
我々の方法は、より高い容量モデルでアンサンブルで低容量モデルを訓練する。
視覚的質問応答データセットの10ポイントゲインを含む,すべての設定の改善を示す。
論文 参考訳(メタデータ) (2020-11-07T22:20:03Z) - DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a
Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。
利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。
関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2019-12-27T02:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。