論文の概要: Data AUDIT: Identifying Attribute Utility- and Detectability-Induced
Bias in Task Models
- arxiv url: http://arxiv.org/abs/2304.03218v1
- Date: Thu, 6 Apr 2023 16:50:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-07 13:25:39.887228
- Title: Data AUDIT: Identifying Attribute Utility- and Detectability-Induced
Bias in Task Models
- Title(参考訳): データ監査:タスクモデルにおける属性ユーティリティと検出可能性によるバイアスの識別
- Authors: Mitchell Pavlak, Nathan Drenkow, Nicholas Petrick, Mohammad Mehdi
Farhangi, Mathias Unberath
- Abstract要約: 医用画像データセットの厳密で定量的なスクリーニングのための第1の手法を提案する。
提案手法は,データセット属性に関連するリスクを,検出性と実用性の観点から分解する。
本手法を用いて, ほぼ知覚不能なバイアス誘発アーティファクトを確実に同定するスクリーニング手法を提案する。
- 参考スコア(独自算出の注目度): 8.420252576694583
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To safely deploy deep learning-based computer vision models for
computer-aided detection and diagnosis, we must ensure that they are robust and
reliable. Towards that goal, algorithmic auditing has received substantial
attention. To guide their audit procedures, existing methods rely on heuristic
approaches or high-level objectives (e.g., non-discrimination in regards to
protected attributes, such as sex, gender, or race). However, algorithms may
show bias with respect to various attributes beyond the more obvious ones, and
integrity issues related to these more subtle attributes can have serious
consequences. To enable the generation of actionable, data-driven hypotheses
which identify specific dataset attributes likely to induce model bias, we
contribute a first technique for the rigorous, quantitative screening of
medical image datasets. Drawing from literature in the causal inference and
information theory domains, our procedure decomposes the risks associated with
dataset attributes in terms of their detectability and utility (defined as the
amount of information knowing the attribute gives about a task label). To
demonstrate the effectiveness and sensitivity of our method, we develop a
variety of datasets with synthetically inserted artifacts with different
degrees of association to the target label that allow evaluation of inherited
model biases via comparison of performance against true counterfactual
examples. Using these datasets and results from hundreds of trained models, we
show our screening method reliably identifies nearly imperceptible
bias-inducing artifacts. Lastly, we apply our method to the natural attributes
of a popular skin-lesion dataset and demonstrate its success. Our approach
provides a means to perform more systematic algorithmic audits and guide future
data collection efforts in pursuit of safer and more reliable models.
- Abstract(参考訳): コンピュータ支援による検出・診断のための深層学習型コンピュータビジョンモデルを安全に展開するには,信頼性と信頼性を確保する必要がある。
その目標に向けて,アルゴリズムによる監査が注目されている。
監査手続きを導くために、既存の手法はヒューリスティックなアプローチや高レベルの目的(例えば、性別、性別、人種などの保護された属性に対する非差別)に依存している。
しかし、アルゴリズムは、より明白な属性以上の様々な属性に対するバイアスを示し、これらのより微妙な属性に関連する整合性問題は深刻な結果をもたらす可能性がある。
モデルバイアスを引き起こす可能性のある特定のデータセット属性を識別する実行可能なデータ駆動仮説の生成を可能にするため、医用画像データセットの厳密で定量的なスクリーニングのための第1の手法を提案する。
因果推論および情報理論領域の文献から抽出した手法は,データセット属性の検知性と有用性の観点から,そのリスクを分解する(その属性がタスクラベルについて与える情報量として定義される)。
提案手法の有効性と感度を示すため,本手法では,対象ラベルと異なる相関関係の人工的挿入アーティファクトを用いた多種多様なデータセットを開発し,真偽実例との比較によるモデルバイアスの評価を可能にした。
これらのデータセットと、何百ものトレーニングされたモデルの結果を用いて、我々のスクリーニング手法は、ほとんど知覚不能なバイアス誘導アーチファクトを確実に識別する。
最後に,本手法を一般的なスキンレシオンデータセットの自然属性に適用し,その成功を実証する。
我々のアプローチは、より体系的なアルゴリズム監査を行い、より安全で信頼性の高いモデルを追求する将来のデータ収集の取り組みをガイドする手段を提供する。
関連論文リスト
- Towards Reliable Verification of Unauthorized Data Usage in Personalized Text-to-Image Diffusion Models [23.09033991200197]
新しいパーソナライズ技術は、特定のテーマやスタイルのイメージを作成するために、事前訓練されたベースモデルをカスタマイズするために提案されている。
このような軽量なソリューションは、パーソナライズされたモデルが不正なデータからトレーニングされているかどうかに関して、新たな懸念を生じさせる。
我々は、ブラックボックスパーソナライズされたテキスト・ツー・イメージ拡散モデルにおいて、不正なデータ使用を積極的に追跡する新しい手法であるSIRENを紹介する。
論文 参考訳(メタデータ) (2024-10-14T12:29:23Z) - Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - Thinking Racial Bias in Fair Forgery Detection: Models, Datasets and Evaluations [63.52709761339949]
最初に、Fair Forgery Detection(FairFD)データセットと呼ばれる専用のデータセットをコントリビュートし、SOTA(Public State-of-the-art)メソッドの人種的偏見を証明する。
我々は、偽りの結果を避けることができる平均的メトリクスと実用正規化メトリクスを含む新しいメトリクスを設計する。
また,有効で堅牢な後処理技術であるBias Pruning with Fair Activations (BPFA)も提案する。
論文 参考訳(メタデータ) (2024-07-19T14:53:18Z) - Data Valuation with Gradient Similarity [1.997283751398032]
データ評価アルゴリズムは、与えられた予測タスクへの貢献または重要性に基づいて、データセット内の各サンプルの価値を定量化する。
DVGS(Data Valuation with Gradient similarity)と呼ばれる既存の手法に代わる単純な方法を提案する。
当社のアプローチでは,低品質なデータを迅速かつ正確に識別することが可能で,データクリーニング作業における専門家の知識や手作業による介入の必要性を低減できる。
論文 参考訳(メタデータ) (2024-05-13T22:10:00Z) - Automated Deception Detection from Videos: Using End-to-End Learning
Based High-Level Features and Classification Approaches [0.0]
深層学習と識別モデルを組み合わせたマルチモーダル手法を提案する。
我々は畳み込み学習を用いて、視線、頭ポーズ、表情を解析する。
提案手法は, 経済要因による新しいローリングディース実験を含む5つのデータセットで評価される。
論文 参考訳(メタデータ) (2023-07-13T08:45:15Z) - Simultaneous Improvement of ML Model Fairness and Performance by
Identifying Bias in Data [1.76179873429447]
トレーニング前にデータセットから削除すべき特定の種類のバイアスを記述したインスタンスを検出できるデータ前処理手法を提案する。
特に、類似した特徴を持つインスタンスが存在するが、保護属性の変動に起因するラベルが異なる問題設定では、固有のバイアスがデータセット内で引き起こされる、と主張する。
論文 参考訳(メタデータ) (2022-10-24T13:04:07Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Low-Regret Active learning [64.36270166907788]
トレーニングに最も有用なラベル付きデータポイントを識別するオンライン学習アルゴリズムを開発した。
私たちの仕事の中心は、予測可能な(簡単な)インスタンスの低い後悔を達成するために調整された睡眠専門家のための効率的なアルゴリズムです。
論文 参考訳(メタデータ) (2021-04-06T22:53:45Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。