論文の概要: TRAPDOOR: Repurposing backdoors to detect dataset bias in machine
learning-based genomic analysis
- arxiv url: http://arxiv.org/abs/2108.10132v1
- Date: Sat, 14 Aug 2021 17:02:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-29 14:45:58.813035
- Title: TRAPDOOR: Repurposing backdoors to detect dataset bias in machine
learning-based genomic analysis
- Title(参考訳): TRAPDOOR: 機械学習に基づくゲノム解析におけるデータセットバイアス検出のためのバックドアの再利用
- Authors: Esha Sarkar, Michail Maniatakos
- Abstract要約: データセット内のグループの下位表現は、特定のグループの不正確な予測につながる可能性があるため、システム的識別問題を悪化させる可能性がある。
本稿では,ニューラルネットワークのバックドアであるTRAPDOORを提案する。
実世界のがんデータセットを用いて、すでに白人個人に対して存在するバイアスでデータセットを分析し、データセットにバイアスを人工的に導入する。
- 参考スコア(独自算出の注目度): 15.483078145498085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine Learning (ML) has achieved unprecedented performance in several
applications including image, speech, text, and data analysis. Use of ML to
understand underlying patterns in gene mutations (genomics) has far-reaching
results, not only in overcoming diagnostic pitfalls, but also in designing
treatments for life-threatening diseases like cancer. Success and
sustainability of ML algorithms depends on the quality and diversity of data
collected and used for training. Under-representation of groups (ethnic groups,
gender groups, etc.) in such a dataset can lead to inaccurate predictions for
certain groups, which can further exacerbate systemic discrimination issues.
In this work, we propose TRAPDOOR, a methodology for identification of biased
datasets by repurposing a technique that has been mostly proposed for nefarious
purposes: Neural network backdoors. We consider a typical collaborative
learning setting of the genomics supply chain, where data may come from
hospitals, collaborative projects, or research institutes to a central cloud
without awareness of bias against a sensitive group. In this context, we
develop a methodology to leak potential bias information of the collective data
without hampering the genuine performance using ML backdooring catered for
genomic applications. Using a real-world cancer dataset, we analyze the dataset
with the bias that already existed towards white individuals and also
introduced biases in datasets artificially, and our experimental result show
that TRAPDOOR can detect the presence of dataset bias with 100% accuracy, and
furthermore can also extract the extent of bias by recovering the percentage
with a small error.
- Abstract(参考訳): 機械学習(ML)は、画像、音声、テキスト、データ分析など、いくつかのアプリケーションで前例のないパフォーマンスを達成した。
遺伝子変異(ゲノミクス)の根底にあるパターンを理解するのにMLを使うことは、診断の落とし穴を克服するだけでなく、がんのような生命を脅かす疾患の治療を設計する上でも、はるかに大きな結果をもたらす。
MLアルゴリズムの成功と持続性は、収集およびトレーニングに使用されるデータの質と多様性に依存する。
グループ(民族グループ、性別グループなど)の下位表現
このようなデータセットでは、特定のグループの不正確な予測につながる可能性がある。
本研究では,ニューラルネットワークのバックドア(バックドア)という悪質な目的のために提案された手法を再提案し,バイアス付きデータセットの同定手法であるTRAPDOORを提案する。
我々は、病院、共同プロジェクト、研究機関からセンシティブなグループに対するバイアスを意識せずに中央クラウドにデータがもたらされるゲノミクスサプライチェーンの典型的な協調学習セットを検討する。
そこで本研究では,ゲノム応用のためのMLバックドアを用いた真の性能を損なうことなく,集団データの潜在的なバイアス情報を漏洩させる手法を開発した。
実世界のがんデータセットを用いて、すでに白色個体に対して存在する偏差を分析し、データセットに偏差を人工的に導入し、実験結果により、TRAPDOORが100%精度でデータセット偏差を検出できること、さらに小さな誤差で偏差を回復することで偏差の程度を抽出できることが示されている。
関連論文リスト
- Approaching Metaheuristic Deep Learning Combos for Automated Data Mining [0.5419570023862531]
本研究では,メタヒューリスティック手法を従来の分類器やニューラルネットワークと組み合わせて自動データマイニングを行う手法を提案する。
手書き文字認識のためのMNISTデータセットの実験を行った。
根拠真理ラベル付きデータセットの検証精度は、これまで見つからなかった他のデータインスタンスのラベルを修正するのに不十分である、という実証的な観察がなされた。
論文 参考訳(メタデータ) (2024-10-16T10:28:22Z) - DispaRisk: Auditing Fairness Through Usable Information [21.521208250966918]
DispaRiskは、マシンラーニングパイプラインの初期段階におけるデータセットの格差の潜在的なリスクを評価するために設計されたフレームワークである。
DispaRiskは、差別のリスクの高いデータセットを特定し、MLパイプライン内のバイアスが発生しやすいモデルファミリーを検出し、これらのバイアスリスクの説明可能性を高める。
この研究は、早期バイアス検出と緩和のための堅牢なツールを提供することにより、より公平なMLシステムの開発に寄与する。
論文 参考訳(メタデータ) (2024-05-20T20:56:01Z) - An AI-Guided Data Centric Strategy to Detect and Mitigate Biases in
Healthcare Datasets [32.25265709333831]
我々は、小さなサンプルサイズ(AEquity)で異なるグループをいかに容易に学習するかを調査することによって、データセットバイアスを評価するために、データ中心、モデルに依存しないタスク非依存のアプローチを生成する。
次に、サブポピュレーション全体にわたるAEq値の体系的分析を適用し、医療における2つの既知の事例において、人種的偏見の特定と顕在化を図った。
AEqは、医療データセットのバイアスを診断し、修正することで、エクイティの前進に適用できる、新しく広く適用可能なメトリクスである。
論文 参考訳(メタデータ) (2023-11-06T17:08:41Z) - Towards Assessing Data Bias in Clinical Trials [0.0]
医療データセットはデータバイアスの影響を受けます。
データバイアスは現実の歪んだ見方を与え、誤った分析結果をもたらし、結果として決定を下す。
i)データセットに存在する可能性のあるデータバイアスの種類を定義し、(ii)適切なメトリクスでデータバイアスを特徴付け、定量化し、(iii)異なるデータソースに対してデータバイアスを特定し、測定し、緩和するためのガイドラインを提供する。
論文 参考訳(メタデータ) (2022-12-19T17:10:06Z) - D-BIAS: A Causality-Based Human-in-the-Loop System for Tackling
Algorithmic Bias [57.87117733071416]
D-BIASは、人間のループ内AIアプローチを具現化し、社会的バイアスを監査し軽減する視覚対話型ツールである。
ユーザは、因果ネットワークにおける不公平な因果関係を識別することにより、グループに対する偏見の存在を検出することができる。
それぞれのインタラクション、例えばバイアスのある因果縁の弱体化/削除は、新しい(偏りのある)データセットをシミュレートするために、新しい方法を用いている。
論文 参考訳(メタデータ) (2022-08-10T03:41:48Z) - Predicting Seriousness of Injury in a Traffic Accident: A New Imbalanced
Dataset and Benchmark [62.997667081978825]
本稿では,交通事故における傷害の重大性を予測するために,機械学習アルゴリズムの性能を評価する新しいデータセットを提案する。
データセットは、英国運輸省から公開されているデータセットを集約することで作成される。
論文 参考訳(メタデータ) (2022-05-20T21:15:26Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - DoGR: Disaggregated Gaussian Regression for Reproducible Analysis of
Heterogeneous Data [4.720638420461489]
データを重なり合うクラスタ(分散)に分割し,その内の動作をモデル化することで,潜在的共同設立者を検出するDoGRを導入する(回帰)。
実世界のデータに適用すると,本手法は有意義なクラスタとその特徴的行動を発見し,グループ差と関心の帰結に対する影響について考察する。
我々のフレームワークは、潜伏した共同創設者を考慮し、ノイズの多い異種データの探索分析を促進し、新しいデータにもっと一般化した予測モデルを学ぶのに利用できる。
論文 参考訳(メタデータ) (2021-08-31T01:58:23Z) - Learning Bias-Invariant Representation by Cross-Sample Mutual
Information Minimization [77.8735802150511]
対象タスクが誤用したバイアス情報を除去するために,クロスサンプル対逆脱バイアス法(CSAD)を提案する。
相関測定は, 対向的偏り評価において重要な役割を担い, クロスサンプル型相互情報推定器によって行われる。
我々は,提案手法の最先端手法に対する利点を検証するために,公開データセットの徹底的な実験を行った。
論文 参考訳(メタデータ) (2021-08-11T21:17:02Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。