論文の概要: Evaluating Pre-Training Bias on Severe Acute Respiratory Syndrome Dataset
- arxiv url: http://arxiv.org/abs/2408.15398v1
- Date: Tue, 27 Aug 2024 20:49:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-29 17:52:31.899983
- Title: Evaluating Pre-Training Bias on Severe Acute Respiratory Syndrome Dataset
- Title(参考訳): 重症急性呼吸症候群データセットにおける事前トレーニングバイアスの評価
- Authors: Diego Dimer Rodrigues,
- Abstract要約: この研究は、OpenDataSUSの重症急性呼吸症候群データセットを使用して、3つのトレーニング済みバイアスメトリクスを可視化する。
目的は、異なる領域のバイアスを比較し、保護された属性に注目し、モデルのパフォーマンスとメトリック値を比較することである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Machine learning (ML) is a growing field of computer science that has found many practical applications in several domains, including Health. However, as data grows in size and availability, and the number of models that aim to aid or replace human decisions, it raises the concern that these models can be susceptible to bias, which can lead to harm to specific individuals by basing its decisions on protected attributes such as gender, religion, sexual orientation, ethnicity, and others. Visualization techniques might generate insights and help summarize large datasets, enabling data scientists to understand the data better before training a model by evaluating pre-training metrics applied to the datasets before training, which might contribute to identifying potential harm before any effort is put into training and deploying the models. This work uses the severe acute respiratory syndrome dataset from OpenDataSUS to visualize three pre-training bias metrics and their distribution across different regions in Brazil. A random forest model is trained in each region and applied to the others. The aim is to compare the bias for the different regions, focusing on their protected attributes and comparing the model's performance with the metric values.
- Abstract(参考訳): 機械学習(ML)は、健康を含むいくつかの領域で多くの実践的な応用を見出したコンピュータサイエンスの分野である。
しかし、データのサイズや可用性が増大し、人間の決定を助けたり置き換えたりするモデルの数が増えるにつれて、これらのモデルが偏見の影響を受けやすくなり、性別、宗教、性的指向、民族性などの保護された属性に基づいて決定を下すことによって特定の個人に害を与える可能性があるという懸念が高まる。
可視化技術は洞察を生成し、大規模なデータセットを要約する助けになり、トレーニング前にデータセットに適用された事前トレーニングメトリクスを評価することで、データサイエンティストがモデルをトレーニングする前にデータをよりよく理解できるようになる。
この研究は、OpenDataSUSの重篤な急性呼吸症候群データセットを使用して、3つのトレーニング済みバイアスメトリクスとそのブラジルの異なる地域への分布を可視化する。
ランダム森林モデルは各地域で訓練され、他の地域に適用される。
目的は、異なる領域のバイアスを比較し、保護された属性に注目し、モデルのパフォーマンスとメトリック値を比較することである。
関連論文リスト
- Fast Model Debias with Machine Unlearning [54.32026474971696]
ディープニューラルネットワークは多くの現実世界のシナリオでバイアスのある振る舞いをする。
既存のデバイアス法は、バイアスラベルやモデル再トレーニングのコストが高い。
バイアスを特定し,評価し,除去するための効率的なアプローチを提供する高速モデル脱バイアスフレームワーク(FMD)を提案する。
論文 参考訳(メタデータ) (2023-10-19T08:10:57Z) - MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data
Augmentation [58.93221876843639]
本稿では,MedDiffusion という,エンドツーエンドの拡散に基づくリスク予測モデルを提案する。
トレーニング中に合成患者データを作成し、サンプルスペースを拡大することで、リスク予測性能を向上させる。
ステップワイズ・アテンション・メカニズムを用いて患者の来訪者間の隠れた関係を識別し、高品質なデータを生成する上で最も重要な情報をモデルが自動的に保持することを可能にする。
論文 参考訳(メタデータ) (2023-10-04T01:36:30Z) - On the Connection between Pre-training Data Diversity and Fine-tuning
Robustness [66.30369048726145]
下流の有効ロバスト性に影響を与える主な要因はデータ量である。
各種自然および合成データソースから抽出した事前学習分布について,本研究の成果を示す。
論文 参考訳(メタデータ) (2023-07-24T05:36:19Z) - Synthetic Model Combination: An Instance-wise Approach to Unsupervised
Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。
専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文 参考訳(メタデータ) (2022-10-11T10:20:31Z) - Assessing Demographic Bias Transfer from Dataset to Model: A Case Study
in Facial Expression Recognition [1.5340540198612824]
2つのメトリクスはデータセットの表現バイアスとステレオタイプバイアスに焦点をあて、もう1つはトレーニングされたモデルの残差バイアスに焦点を当てている。
本稿では、一般的なAffectnetデータセットに基づくFER問題に適用することで、メトリクスの有用性を示す。
論文 参考訳(メタデータ) (2022-05-20T09:40:42Z) - Zero-shot meta-learning for small-scale data from human subjects [10.320654885121346]
我々は,サンプル外テストデータに対する限られたトレーニングデータを用いて,新しい予測タスクに迅速に適応するフレームワークを開発した。
本モデルでは, 介入による遅延処理効果を学習し, 設計上はマルチタスク予測を自然に処理できる。
我々のモデルは、より広い人口への小型人間研究の一般化を向上するために重要である。
論文 参考訳(メタデータ) (2022-03-29T17:42:04Z) - Unsupervised Pre-Training on Patient Population Graphs for Patient-Level
Predictions [48.02011627390706]
プレトレーニングは、コンピュータビジョン(CV)、自然言語処理(NLP)、医療画像など、機械学習のさまざまな分野で成功している。
本稿では,患者結果の予測のために,教師なし事前学習を異種マルチモーダルEHRデータに適用する。
提案手法は,人口レベルでのデータモデリングに有効であることがわかった。
論文 参考訳(メタデータ) (2022-03-23T17:59:45Z) - A Real Use Case of Semi-Supervised Learning for Mammogram Classification
in a Local Clinic of Costa Rica [0.5541644538483946]
ディープラーニングモデルのトレーニングには、かなりの量のラベル付きイメージが必要です。
多くの公開データセットが、さまざまな病院や診療所のデータで構築されている。
ラベルなしデータを利用した半教師付き深層学習手法であるMixMatchを提案し評価した。
論文 参考訳(メタデータ) (2021-07-24T22:26:50Z) - Dataset Cartography: Mapping and Diagnosing Datasets with Training
Dynamics [118.75207687144817]
我々はデータセットを特徴付け、診断するモデルベースのツールであるData Mapsを紹介した。
私たちは、トレーニング中の個々のインスタンス上でのモデルの振る舞いという、ほとんど無視された情報のソースを活用しています。
以上の結果から,データ量から品質へのフォーカスの変化は,ロバストなモデルとアウト・オブ・ディストリビューションの一般化に繋がる可能性が示唆された。
論文 参考訳(メタデータ) (2020-09-22T20:19:41Z) - Unsupervised Pre-trained Models from Healthy ADLs Improve Parkinson's
Disease Classification of Gait Patterns [3.5939555573102857]
パーキンソン病分類のための加速度計歩行データに関連する特徴を抽出する方法を示す。
我々の事前学習したソースモデルは畳み込みオートエンコーダで構成されており、ターゲット分類モデルは単純な多層パーセプトロンモデルである。
本研究は,Parkinson病分類の課題に対する事前学習モデルの選択が与える影響を,異なる活動群を用いて訓練した2つの異なるソースモデルについて検討する。
論文 参考訳(メタデータ) (2020-05-06T04:08:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。