Fugu-MT 論文翻訳(概要): DispaRisk: Assessing and Interpreting Disparity Risks in Datasets

論文の概要: DispaRisk: Assessing and Interpreting Disparity Risks in Datasets

arxiv url: http://arxiv.org/abs/2405.12372v1
Date: Mon, 20 May 2024 20:56:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-22 14:57:39.881562
Title: DispaRisk: Assessing and Interpreting Disparity Risks in Datasets
Title（参考訳）: DispaRisk: データセットにおける格差リスクの評価と解釈
Authors: Jonathan Vasquez, Carlotta Domeniconi, Huzefa Rangwala,
Abstract要約: DispaRiskは、機械学習パイプラインの初期段階におけるデータセットの格差の潜在的なリスクを積極的に評価するように設計されたフレームワークである。以上の結果から,差別リスクの高いデータセットを識別するDispaRiskの能力,バイアスを伴いやすいモデルファミリー,MLパイプラインにおける識別感受性を高める特徴が示された。
参考スコア（独自算出の注目度）: 21.521208250966918
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Machine Learning algorithms (ML) impact virtually every aspect of human lives and have found use across diverse sectors, including healthcare, finance, and education. Often, ML algorithms have been found to exacerbate societal biases presented in datasets, leading to adversarial impacts on subsets/groups of individuals, in many cases minority groups. To effectively mitigate these untoward effects, it is crucial that disparities/biases are identified and assessed early in a ML pipeline. This proactive approach facilitates timely interventions to prevent bias amplification and reduce complexity at later stages of model development. In this paper, we introduce DispaRisk, a novel framework designed to proactively assess the potential risks of disparities in datasets during the initial stages of the ML pipeline. We evaluate DispaRisk's effectiveness by benchmarking it with commonly used datasets in fairness research. Our findings demonstrate the capabilities of DispaRisk to identify datasets with a high-risk of discrimination, model families prone to biases, and characteristics that heighten discrimination susceptibility in a ML pipeline. The code for our experiments is available in the following repository: https://github.com/jovasque156/disparisk
Abstract（参考訳）: 機械学習アルゴリズム(ML)は、人間の生活のあらゆる側面に影響を与え、医療、金融、教育など、さまざまな分野にまたがって利用されてきた。しばしば、MLアルゴリズムはデータセットで示される社会的バイアスを悪化させ、多くの場合、個人のサブセットやグループに敵対的な影響をもたらす。これらの不適切な効果を効果的に軽減するためには、MLパイプラインの早期に相違/相の同定と評価が不可欠である。このプロアクティブなアプローチは、バイアスの増幅を防ぎ、モデル開発の後期段階で複雑さを減らすために、タイムリーな介入を促進する。本稿では,MLパイプラインの初期段階におけるデータセットの不均一性の潜在的なリスクを積極的に評価するために設計された,新しいフレームワークであるDispaRiskを紹介する。フェアネス研究でよく使われるデータセットとベンチマークすることで、DispaRiskの有効性を評価する。以上の結果から,差別リスクの高いデータセットを識別するDispaRiskの能力,バイアスを伴いやすいモデルファミリー,MLパイプラインにおける識別感受性を高める特徴が示された。実験用のコードは以下のリポジトリで利用可能です。

関連論文リスト

Retaining by Doing: The Role of On-Policy Data in Mitigating Forgetting [40.80967570661867]
言語モデルをポストトレーニングによって新しいタスクに適応することは、既存の能力を劣化させるリスクをもたらす。教師付き微調整(SFT)と強化学習(RL)の2つの広く採用されているポストトレーニング手法の忘れパターンを比較した。 RLはSFTよりも忘れられがちだが、目標タスクのパフォーマンスは同等か高い。
論文参考訳（メタデータ） (2025-10-21T17:59:41Z)
LLM-based Agents for Automated Confounder Discovery and Subgroup Analysis in Causal Inference [1.1538255621565348]
本稿では,共同創設者の自動発見とサブグループ分析のための大規模言語モデルに基づくエージェントを提案する。本フレームワークは,サブグループ識別と構造発見を体系的に行う。以上の結果から,LSMをベースとしたエージェントは,スケーラブルで信頼性が高く,セマンティックに認識された因果推論へ有望な道をたどることが示唆された。
論文参考訳（メタデータ） (2025-08-10T07:45:49Z)
Addressing Bias in LLMs: Strategies and Application to Fair AI-based Recruitment [49.81946749379338]
この研究は、トランスフォーマーベースのシステムの能力を分析して、データに存在する人口統計バイアスを学習する。最終ツールにおける偏りを緩和する手段として,学習パイプラインからの性別情報を削減するためのプライバシー向上フレームワークを提案する。
論文参考訳（メタデータ） (2025-06-13T15:29:43Z)
Data Fusion for Partial Identification of Causal Effects [62.56890808004615]
本稿では,研究者が重要な疑問に答えられるような,新しい部分的識別フレームワークを提案する。因果効果は肯定的か否定的か? 本研究の枠組みをSTARプロジェクトに適用し,第3級の標準試験性能に対する教室規模の影響について検討する。
論文参考訳（メタデータ） (2025-05-30T07:13:01Z)
Information Gain-Guided Causal Intervention for Autonomous Debiasing Large Language Models [40.853803921563596]
現在の大規模言語モデル(LLM)は、まだデータセットのバイアスをキャプチャして、推論時に利用することができる。本稿では,情報ゲイン誘導型因果介入脱バイアスフレームワークを提案する。 ICDはLLMを効果的にデバイアスし、様々なタスクにおける一般化性を向上させる。
論文参考訳（メタデータ） (2025-04-17T12:39:25Z)
Understanding and Mitigating the Bias Inheritance in LLM-based Data Augmentation on Downstream Tasks [24.706895491806794]
この研究は、バイアス継承を理解し、分析し、緩和する最初の体系的な研究である。 6種類のバイアスが、異なるバイアス比でどのように現れるかを分析する。トークンベース,マスクベース,損失ベースの3つの緩和戦略を提案する。
論文参考訳（メタデータ） (2025-02-06T15:20:58Z)
Outlier Detection Bias Busted: Understanding Sources of Algorithmic Bias through Data-centric Factors [28.869581543676947]
unsupervised outlier detection (OD) は、金融、セキュリティ等に多くの応用がある。この研究は、データ中心の異なる要因の下で検出モデルを監査することで、ODの不公平な源泉に光を当てることを目的としている。この研究に基づくODアルゴリズムは、すべて公正な落とし穴を示すが、どの種類のデータバイアスがより影響を受けやすいかは異なる。
論文参考訳（メタデータ） (2024-08-24T20:35:32Z)
Thinking Racial Bias in Fair Forgery Detection: Models, Datasets and Evaluations [63.52709761339949]
最初に、Fair Forgery Detection(FairFD)データセットと呼ばれる専用のデータセットをコントリビュートし、SOTA(Public State-of-the-art)メソッドの人種的偏見を証明する。我々は、偽りの結果を避けることができる平均的メトリクスと実用正規化メトリクスを含む新しいメトリクスを設計する。また,有効で堅牢な後処理技術であるBias Pruning with Fair Activations (BPFA)も提案する。
論文参考訳（メタデータ） (2024-07-19T14:53:18Z)
Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文参考訳（メタデータ） (2024-05-28T20:43:53Z)
The Human Factor in Detecting Errors of Large Language Models: A Systematic Literature Review and Future Research Directions [0.0]
2022年11月、OpenAIによるChatGPTのローンチは人工知能の重要な瞬間となった。大規模言語モデル (LLM) は、様々な領域で顕著な会話能力を示す。これらのモデルは「幻覚」や省略といった誤りに影響を受けやすく、誤った情報や不完全な情報を生成する。
論文参考訳（メタデータ） (2024-03-13T21:39:39Z)
Analyzing Adversarial Inputs in Deep Reinforcement Learning [53.3760591018817]
本稿では, 正当性検証のレンズを用いて, 逆入力の特性を包括的に解析する。このような摂動に対する感受性に基づいてモデルを分類するために、新しい計量である逆数率(Adversarial Rate)を導入する。本分析は, 直交入力が所定のDRLシステムの安全性にどのように影響するかを実証的に示す。
論文参考訳（メタデータ） (2024-02-07T21:58:40Z)
D-BIAS: A Causality-Based Human-in-the-Loop System for Tackling Algorithmic Bias [57.87117733071416]
D-BIASは、人間のループ内AIアプローチを具現化し、社会的バイアスを監査し軽減する視覚対話型ツールである。ユーザは、因果ネットワークにおける不公平な因果関係を識別することにより、グループに対する偏見の存在を検出することができる。それぞれのインタラクション、例えばバイアスのある因果縁の弱体化/削除は、新しい(偏りのある)データセットをシミュレートするために、新しい方法を用いている。
論文参考訳（メタデータ） (2022-08-10T03:41:48Z)
TRAPDOOR: Repurposing backdoors to detect dataset bias in machine learning-based genomic analysis [15.483078145498085]
データセット内のグループの下位表現は、特定のグループの不正確な予測につながる可能性があるため、システム的識別問題を悪化させる可能性がある。本稿では,ニューラルネットワークのバックドアであるTRAPDOORを提案する。実世界のがんデータセットを用いて、すでに白人個人に対して存在するバイアスでデータセットを分析し、データセットにバイアスを人工的に導入する。
論文参考訳（メタデータ） (2021-08-14T17:02:02Z)
Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文参考訳（メタデータ） (2021-07-05T12:44:39Z)
FairCVtest Demo: Understanding Bias in Multimodal Learning with a Testbed in Fair Automatic Recruitment [79.23531577235887]
このデモは、非構造化データから機密情報を抽出する採用ツールの背後にある人工知能(AI)の能力を示しています。また、このデモには差別認識学習のための新しいアルゴリズムが含まれており、マルチモーダルAIフレームワークの機密情報を排除している。
論文参考訳（メタデータ） (2020-09-12T17:45:09Z)
Provably Efficient Causal Reinforcement Learning with Confounded Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-06-22T14:49:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。