論文の概要: Subtle Inverse Crimes: Na\"ively training machine learning algorithms
could lead to overly-optimistic results
- arxiv url: http://arxiv.org/abs/2109.08237v1
- Date: Thu, 16 Sep 2021 22:00:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-21 07:53:58.104957
- Title: Subtle Inverse Crimes: Na\"ively training machine learning algorithms
could lead to overly-optimistic results
- Title(参考訳): Subtle Inverse Crimes:Na\は機械学習アルゴリズムを訓練することで過度に最適化された結果をもたらす
- Authors: Efrat Shimron, Jonathan I. Tamir, Ke Wang, Michael Lustig
- Abstract要約: この研究は、いくつかのケースにおいて、この共通のプラクティスがバイアスがあり、過度に最適化された結果をもたらす可能性があることを強調することを目的としている。
本稿では,オープンアクセスデータベースに典型的な2つの前処理パイプラインについて述べる。
その結果,CS, DictL, DLアルゴリズムは, 一見不適切なデータに対して, 適応的に訓練した場合に, 系統的に偏りが生じることがわかった。
- 参考スコア(独自算出の注目度): 5.785136336372809
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While open databases are an important resource in the Deep Learning (DL) era,
they are sometimes used "off-label": data published for one task are used for
training algorithms for a different one. This work aims to highlight that in
some cases, this common practice may lead to biased, overly-optimistic results.
We demonstrate this phenomenon for inverse problem solvers and show how their
biased performance stems from hidden data preprocessing pipelines. We describe
two preprocessing pipelines typical of open-access databases and study their
effects on three well-established algorithms developed for Magnetic Resonance
Imaging (MRI) reconstruction: Compressed Sensing (CS), Dictionary Learning
(DictL), and DL. In this large-scale study we performed extensive computations.
Our results demonstrate that the CS, DictL and DL algorithms yield
systematically biased results when na\"ively trained on seemingly-appropriate
data: the Normalized Root Mean Square Error (NRMSE) improves consistently with
the preprocessing extent, showing an artificial increase of 25%-48% in some
cases. Since this phenomenon is generally unknown, biased results are sometimes
published as state-of-the-art; we refer to that as subtle inverse crimes. This
work hence raises a red flag regarding na\"ive off-label usage of Big Data and
reveals the vulnerability of modern inverse problem solvers to the resulting
bias.
- Abstract(参考訳): オープンデータベースは、ディープラーニング(DL)時代において重要なリソースであるが、あるタスクのために公開されたデータは、別のタスクのためのアルゴリズムのトレーニングに使用される。
この研究は、あるケースでは、この一般的なプラクティスが偏り、過剰に最適化された結果につながる可能性があることを強調することを目的としている。
逆問題解法におけるこの現象を実証し、そのバイアスのある性能が隠れデータ前処理パイプラインに起因することを示す。
オープンアクセスデータベースに典型的な2つの前処理パイプラインを記述し、磁気共鳴イメージング(MRI)再構成のために開発された3つの確立されたアルゴリズム(圧縮センシング(CS)、辞書学習(DictL)、DL)への影響について検討する。
この大規模研究で我々は広範囲な計算を行った。
この結果から, CS, DictL, DLアルゴリズムは, 一見不適切なデータに対して, na\ 的に訓練された場合, 系統的に偏りが生じることが明らかとなった: 正規化ルート平均角誤差(NRMSE)は前処理範囲で一貫して改善され, 人工的に25%-48%の増加を示す。
この現象は一般に不明であるため、偏見のある結果はしばしば最先端技術として公表される。
この作業は、ビッグデータの「ラベル外使用」に関する赤旗を掲げ、現代の逆問題解決器の脆弱性が結果として生じるバイアスを明らかにする。
関連論文リスト
- Leveraging Latent Diffusion Models for Training-Free In-Distribution Data Augmentation for Surface Defect Detection [9.784793380119806]
データ拡張のためのトレーニング不要な拡散型In-Distribution Anomaly GenerationパイプラインであるDIAGを紹介する。
従来の画像生成技術とは異なり、我々は、ドメインの専門家がモデルにマルチモーダルガイダンスを提供する、Human-in-the-loopパイプラインを実装している。
我々は、挑戦的なKSDD2データセットに対する最先端データ拡張アプローチに関して、DIAGの有効性と汎用性を実証する。
論文 参考訳(メタデータ) (2024-07-04T14:28:52Z) - Debiasing Machine Unlearning with Counterfactual Examples [31.931056076782202]
我々は、未学習プロセスの背後にある因果要因を分析し、データレベルとアルゴリズムレベルでバイアスを軽減する。
バイアスのあるデータセットによって、忘れるべき知識が消去される、介入に基づくアプローチを導入する。
本手法は,評価指標に基づく既存の機械学習ベースラインよりも優れる。
論文 参考訳(メタデータ) (2024-04-24T09:33:10Z) - A Systematic Study on Quantifying Bias in GAN-Augmented Data [0.0]
GAN(Generative Adversarial Network)は先頃,マシンラーニング実践者が使用するデータ拡張テクニックとして人気を博した。
彼らはいわゆるモード崩壊障害モードに苦しむことが示されており、既に歪んだデータセットのバイアスを悪化させる危険性がある。
この研究は、GAN拡張データのバイアスを定量化することのできる最先端メトリクスの評価に焦点を当てた体系的な取り組みである。
論文 参考訳(メタデータ) (2023-08-23T22:19:48Z) - On Counterfactual Data Augmentation Under Confounding [30.76982059341284]
トレーニングデータのバイアスを緩和する手段として、対実データ拡張が出現している。
これらのバイアスは、データ生成プロセスにおいて観測され、観測されていない様々な共役変数によって生じる。
提案手法は,既存の最先端手法が優れた結果を得るのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2023-05-29T16:20:23Z) - Towards Better Out-of-Distribution Generalization of Neural Algorithmic
Reasoning Tasks [51.8723187709964]
ニューラルネットワーク推論タスクのOOD一般化について検討する。
目標は、ディープニューラルネットワークを使用して入出力ペアからアルゴリズムを学ぶことである。
論文 参考訳(メタデータ) (2022-11-01T18:33:20Z) - Rethinking Bias Mitigation: Fairer Architectures Make for Fairer Face
Recognition [107.58227666024791]
顔認識システムは、法執行を含む安全クリティカルなアプリケーションに広くデプロイされている。
彼らは、性別や人種など、様々な社会的デデノグラフィー次元に偏見を示す。
バイアス軽減に関するこれまでの研究は、主にトレーニングデータの事前処理に重点を置いていた。
論文 参考訳(メタデータ) (2022-10-18T15:46:05Z) - Automatic Data Augmentation via Invariance-Constrained Learning [94.27081585149836]
下位のデータ構造は、しばしば学習タスクのソリューションを改善するために利用される。
データ拡張は、入力データに複数の変換を適用することで、トレーニング中にこれらの対称性を誘導する。
この作業は、学習タスクを解決しながらデータ拡張を自動的に適応することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2022-09-29T18:11:01Z) - Mitigating Representation Bias in Action Recognition: Algorithms and
Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。
この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。
偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文 参考訳(メタデータ) (2022-09-20T00:30:35Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Deep Visual Anomaly detection with Negative Learning [18.79849041106952]
本稿では、異常検出の強化に負の学習概念を用いる、負の学習を伴う異常検出(ADNL)を提案する。
その考え方は、与えられた少数の異常例を用いて生成モデルの再構成能力を制限することである。
このようにして、ネットワークは通常のデータを再構築することを学ぶだけでなく、異常の可能性のある分布から遠く離れた正規分布を囲む。
論文 参考訳(メタデータ) (2021-05-24T01:48:44Z) - Generalized ODIN: Detecting Out-of-distribution Image without Learning
from Out-of-distribution Data [87.61504710345528]
我々は,OoD検出性能を改善しつつ,ニューラルネットワークをOoDデータのチューニングから解放する2つの方法を提案する。
具体的には、信頼性スコアリングと修正された入力前処理法を分離することを提案する。
大規模画像データセットのさらなる解析により、セマンティックシフトと非セマンティックシフトの2種類の分布シフトが有意な差を示すことが示された。
論文 参考訳(メタデータ) (2020-02-26T04:18:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。