論文の概要: Quantifying Human Bias and Knowledge to guide ML models during Training
- arxiv url: http://arxiv.org/abs/2211.10796v1
- Date: Sat, 19 Nov 2022 20:49:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 22:54:41.902457
- Title: Quantifying Human Bias and Knowledge to guide ML models during Training
- Title(参考訳): トレーニング中のmlモデル指導のための人間のバイアスと知識の定量化
- Authors: Hrishikesh Viswanath, Andrey Shor, Yoshimasa Kitaguchi
- Abstract要約: トレーニングプロセスに人間を含めることで、歪んだデータセットを扱うための実験的なアプローチを導入する。
我々は、データセットの特徴の重要性をランク付けし、ランクアグリゲーションを通じて、モデルの初期重みバイアスを決定するよう人間に求める。
我々は、集団的人間の偏見によって、機械学習モデルがバイアス標本の代わりに真の人口についての洞察を学習できることを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: This paper discusses a crowdsourcing based method that we designed to
quantify the importance of different attributes of a dataset in determining the
outcome of a classification problem. This heuristic, provided by humans acts as
the initial weight seed for machine learning models and guides the model
towards a better optimal during the gradient descent process. Often times when
dealing with data, it is not uncommon to deal with skewed datasets, that over
represent items of certain classes, while underrepresenting the rest. Skewed
datasets may lead to unforeseen issues with models such as learning a biased
function or overfitting. Traditional data augmentation techniques in supervised
learning include oversampling and training with synthetic data. We introduce an
experimental approach to dealing with such unbalanced datasets by including
humans in the training process. We ask humans to rank the importance of
features of the dataset, and through rank aggregation, determine the initial
weight bias for the model. We show that collective human bias can allow ML
models to learn insights about the true population instead of the biased
sample. In this paper, we use two rank aggregator methods Kemeny Young and the
Markov Chain aggregator to quantify human opinion on importance of features.
This work mainly tests the effectiveness of human knowledge on binary
classification (Popular vs Not-popular) problems on two ML models: Deep Neural
Networks and Support Vector Machines. This approach considers humans as weak
learners and relies on aggregation to offset individual biases and domain
unfamiliarity.
- Abstract(参考訳): 本稿では,分類問題の結果を決定する際に,データセットの異なる属性の重要性を定量化するクラウドソーシング手法について述べる。
このヒューリスティックは、人間が提供し、機械学習モデルの初期重量シードとして働き、勾配降下プロセス中にモデルをより最適なものに導く。
多くの場合、データを扱う場合、歪んだデータセットを扱うことは珍しくありません。
スキューデータセットは、バイアス付き関数の学習や過度な適合など、予期せぬ問題を引き起こす可能性がある。
教師付き学習における従来のデータ拡張技術には、オーバーサンプリングと合成データによるトレーニングが含まれる。
トレーニングプロセスに人間を含めることで、このような不均衡なデータセットを扱うための実験的なアプローチを導入する。
我々は,データセットの特徴の重要性をランク付けし,ランクアグリゲーションを通じてモデルの初期重みバイアスを決定する。
集団的人間のバイアスは、機械学習モデルがバイアス標本の代わりに真の人口についての洞察を学習できることを示す。
本稿では,2つのランクアグリゲータ法kemeny youngとマルコフ連鎖アグリゲータを用いて,特徴の重要性に関する人間の意見を定量化する。
この研究は主に、Deep Neural NetworksとSupport Vector Machinesの2つのMLモデルにおけるバイナリ分類(Popular vs Not-popular)問題に対する人間の知識の有効性をテストする。
このアプローチは人間を弱い学習者とみなし、個々のバイアスとドメインの親密さを相殺するために集約に依存する。
関連論文リスト
- GECOBench: A Gender-Controlled Text Dataset and Benchmark for Quantifying Biases in Explanations [1.0000511213628438]
性別制御されたテキストデータセットであるGECOを作成し、それ以外は男性と女性に同じ文が現れる。
これにより、ジェンダー分類タスクの「世界説明」が根本から生まれる。
また,一般的なXAI手法をベンチマークする厳密な定量的評価フレームワークであるGECOBenchも提供する。
論文 参考訳(メタデータ) (2024-06-17T13:44:37Z) - Debiasing Multimodal Models via Causal Information Minimization [65.23982806840182]
我々は、マルチモーダルデータのための因果グラフにおいて、共同創設者から生じるバイアスを研究する。
ロバストな予測機能は、モデルがアウト・オブ・ディストリビューションデータに一般化するのに役立つ多様な情報を含んでいる。
これらの特徴を共同設立者表現として使用し、因果理論によって動機づけられた手法を用いてモデルからバイアスを取り除く。
論文 参考訳(メタデータ) (2023-11-28T16:46:14Z) - Fast Model Debias with Machine Unlearning [54.32026474971696]
ディープニューラルネットワークは多くの現実世界のシナリオでバイアスのある振る舞いをする。
既存のデバイアス法は、バイアスラベルやモデル再トレーニングのコストが高い。
バイアスを特定し,評価し,除去するための効率的なアプローチを提供する高速モデル脱バイアスフレームワーク(FMD)を提案する。
論文 参考訳(メタデータ) (2023-10-19T08:10:57Z) - Data augmentation and explainability for bias discovery and mitigation
in deep learning [0.0]
この論文は、ディープニューラルネットワークにおけるバイアスの影響を調査し、モデルパフォーマンスへの影響を減らす方法を提案する。
最初の部分は、データやモデルのバイアスやエラーの潜在的な原因を分類し、記述することから始まり、特に機械学習パイプラインのバイアスに焦点を当てている。
次の章では、予測と制御を正当化し、モデルを改善する手段として、説明可能なAIの分類と方法について概説する。
論文 参考訳(メタデータ) (2023-08-18T11:02:27Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - Mitigating Dataset Bias by Using Per-sample Gradient [9.290757451344673]
PGD(Per-sample Gradient-based Debiasing)は,一様バッチサンプリングによるモデルトレーニング,サンプル勾配の基準に比例して各サンプルの重要性の設定,重要バッチサンプリングを用いたモデルトレーニングの3段階からなる。
種々の合成および実世界のデータセットに対する既存のベースラインと比較して,本手法は分類タスクの最先端の精度を示した。
論文 参考訳(メタデータ) (2022-05-31T11:41:02Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z) - X-model: Improving Data Efficiency in Deep Learning with A Minimax Model [78.55482897452417]
ディープラーニングにおける分類と回帰設定の両面でのデータ効率の向上を目標とする。
両世界の力を生かすために,我々は新しいX-モデルを提案する。
X-モデルは、特徴抽出器とタスク固有のヘッドの間でミニマックスゲームを行う。
論文 参考訳(メタデータ) (2021-10-09T13:56:48Z) - Learning to Model and Ignore Dataset Bias with Mixed Capacity Ensembles [66.15398165275926]
本稿では,データセット固有のパターンを自動的に検出・無視する手法を提案する。
我々の方法は、より高い容量モデルでアンサンブルで低容量モデルを訓練する。
視覚的質問応答データセットの10ポイントゲインを含む,すべての設定の改善を示す。
論文 参考訳(メタデータ) (2020-11-07T22:20:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。