Fugu-MT 論文翻訳(概要): Fast Model Debias with Machine Unlearning

論文の概要: Fast Model Debias with Machine Unlearning

arxiv url: http://arxiv.org/abs/2310.12560v1
Date: Thu, 19 Oct 2023 08:10:57 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-20 16:16:13.007242
Title: Fast Model Debias with Machine Unlearning
Title（参考訳）: 機械学習による高速モデルデバイアス
Authors: Ruizhe Chen, Jianfei Yang, Huimin Xiong, Jianhong Bai, Tianxiang Hu, Jin Hao, Yang Feng, Joey Tianyi Zhou, Jian Wu, Zuozhu Liu
Abstract要約: ディープニューラルネットワークは多くの現実世界のシナリオでバイアスのある振る舞いをする。既存のデバイアス法は、バイアスラベルやモデル再トレーニングのコストが高い。バイアスを特定し,評価し,除去するための効率的なアプローチを提供する高速モデル脱バイアスフレームワーク(FMD)を提案する。
参考スコア（独自算出の注目度）: 54.32026474971696
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent discoveries have revealed that deep neural networks might behave in a biased manner in many real-world scenarios. For instance, deep networks trained on a large-scale face recognition dataset CelebA tend to predict blonde hair for females and black hair for males. Such biases not only jeopardize the robustness of models but also perpetuate and amplify social biases, which is especially concerning for automated decision-making processes in healthcare, recruitment, etc., as they could exacerbate unfair economic and social inequalities among different groups. Existing debiasing methods suffer from high costs in bias labeling or model re-training, while also exhibiting a deficiency in terms of elucidating the origins of biases within the model. To this respect, we propose a fast model debiasing framework (FMD) which offers an efficient approach to identify, evaluate and remove biases inherent in trained models. The FMD identifies biased attributes through an explicit counterfactual concept and quantifies the influence of data samples with influence functions. Moreover, we design a machine unlearning-based strategy to efficiently and effectively remove the bias in a trained model with a small counterfactual dataset. Experiments on the Colored MNIST, CelebA, and Adult Income datasets along with experiments with large language models demonstrate that our method achieves superior or competing accuracies compared with state-of-the-art methods while attaining significantly fewer biases and requiring much less debiasing cost. Notably, our method requires only a small external dataset and updating a minimal amount of model parameters, without the requirement of access to training data that may be too large or unavailable in practice.
Abstract（参考訳）: 最近の発見により、深層ニューラルネットワークは多くの現実世界のシナリオでバイアスのある振る舞いをする可能性があることが判明した。例えば、大規模な顔認識データセットCelebAでトレーニングされたディープネットワークは、女性のブロンドの髪と男性の黒い髪を予測する傾向がある。このようなバイアスはモデルの堅牢性を損なうだけでなく、不公平な経済や社会的不平等を悪化させる可能性があるため、特に医療や採用などの自動意思決定プロセスに関係している社会的偏見を永続的かつ増幅する。既存のデバイアス法ではバイアスラベリングやモデル再トレーニングに高いコストがかかる一方、モデル内のバイアスの起源を解明する観点では不足している。そこで本研究では,学習モデルに内在するバイアスを識別,評価,除去するための効率的なアプローチを提供する高速モデルデバイアスフレームワーク(fmd)を提案する。 FMDは明示的な反ファクトの概念を通じてバイアス属性を特定し、影響関数を持つデータサンプルの影響を定量化する。さらに,訓練モデルのバイアスを小さな反事実データセットで効果的かつ効果的に除去するために,マシンアンラーニングに基づく戦略を設計する。色付きMNIST, CelebA, およびアダルト所得データセットと, 大規模言語モデルを用いた実験により, 本手法は, バイアスを著しく低減し, 遅延コストをはるかに低減しつつ, 最先端の手法に比べて優れた, あるいは競合する精度を達成できることが実証された。特筆すべきは、この方法は小さな外部データセットと最小限のモデルパラメータの更新しか必要とせず、実際には大きすぎる、あるいは使用できない可能性のあるトレーニングデータにアクセスする必要がなくなることである。

関連論文リスト

Detecting Prefix Bias in LLM-based Reward Models [4.596249232904721]
選好データセットに基づいて訓練された報酬モデルにおいて,プレフィックスバイアスを検知し,評価するための新しい手法を提案する。これらの指標を活用して、人種と性別の異なる嗜好モデルにおける大きなバイアスを明らかにします。本研究は,公正かつ信頼性の高い報酬モデルを開発する上で,バイアス対応データセットの設計と評価を重要視するものである。
論文参考訳（メタデータ） (2025-05-13T21:50:03Z)
Biased Heritage: How Datasets Shape Models in Facial Expression Recognition [13.77824359359967]
画像に基づく表情認識システムにおいて,データセットから訓練されたモデルへのバイアス伝搬について検討する。本稿では,複数の階層群を有する複数クラス問題に特化して設計された新しいバイアス指標を提案する。その結果,FERデータセットの一般的な人口収支よりも,感情特異的な人口動態パターンの防止が優先されるべきであることが示唆された。
論文参考訳（メタデータ） (2025-03-05T12:25:22Z)
Understanding trade-offs in classifier bias with quality-diversity optimization: an application to talent management [2.334978724544296]
公正なAIモデルを開発する上での大きな課題は、そのようなモデルをトレーニングする上で利用可能なデータのバイアスにある。本稿では,データセットに固有のバイアスを可視化し,公平性と正確性の間の潜在的なトレードオフを理解する方法を提案する。
論文参考訳（メタデータ） (2024-11-25T22:14:02Z)
Addressing Bias Through Ensemble Learning and Regularized Fine-Tuning [0.2812395851874055]
本稿では,AIモデルのバイアスを取り除くために,複数の手法を用いた包括的アプローチを提案する。我々は、データ分割、局所訓練、正規化ファインチューニングを通じて、事前訓練されたモデルのカウンターバイアスで複数のモデルを訓練する。我々は、単一のバイアスのないニューラルネットワークをもたらす知識蒸留を用いて、ソリューションを結論付けている。
論文参考訳（メタデータ） (2024-02-01T09:24:36Z)
Improving Bias Mitigation through Bias Experts in Natural Language Understanding [10.363406065066538]
補助モデルと主モデルの間に二項分類器を導入するデバイアス化フレームワークを提案する。提案手法は補助モデルのバイアス識別能力を向上させる。
論文参考訳（メタデータ） (2023-12-06T16:15:00Z)
Debiasing Multimodal Models via Causal Information Minimization [65.23982806840182]
我々は、マルチモーダルデータのための因果グラフにおいて、共同創設者から生じるバイアスを研究する。ロバストな予測機能は、モデルがアウト・オブ・ディストリビューションデータに一般化するのに役立つ多様な情報を含んでいる。これらの特徴を共同設立者表現として使用し、因果理論によって動機づけられた手法を用いてモデルからバイアスを取り除く。
論文参考訳（メタデータ） (2023-11-28T16:46:14Z)
Non-Invasive Fairness in Learning through the Lens of Data Drift [88.37640805363317]
データや学習アルゴリズムを変更することなく、機械学習モデルの公平性を向上する方法を示す。異なる集団間の傾向のばらつきと、学習モデルと少数民族間の連続的な傾向は、データドリフトと類似している。このドリフトを解決するための2つの戦略(モデル分割とリウィーディング)を探索し、基礎となるデータに対するモデル全体の適合性を改善することを目的としている。
論文参考訳（メタデータ） (2023-03-30T17:30:42Z)
Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文参考訳（メタデータ） (2023-01-31T20:09:33Z)
BLIND: Bias Removal With No Demographics [29.16221451643288]
我々は、データセットの人口統計学の事前知識のないバイアス除去手法であるBLINDを紹介する。下流タスクでモデルをトレーニングしている間、BLINDは、メインモデルの成功を予測する補助モデルを使用してバイアス付きサンプルを検出し、トレーニングプロセス中にこれらのサンプルをダウンウェイトする。感情分類と職業分類タスクにおける人種的および性別的偏見による実験は、BLINDがコストのかかる人口統計学的アノテーションプロセスに頼ることなく社会的偏見を緩和することを示した。
論文参考訳（メタデータ） (2022-12-20T18:59:42Z)
D-BIAS: A Causality-Based Human-in-the-Loop System for Tackling Algorithmic Bias [57.87117733071416]
D-BIASは、人間のループ内AIアプローチを具現化し、社会的バイアスを監査し軽減する視覚対話型ツールである。ユーザは、因果ネットワークにおける不公平な因果関係を識別することにより、グループに対する偏見の存在を検出することができる。それぞれのインタラクション、例えばバイアスのある因果縁の弱体化/削除は、新しい(偏りのある)データセットをシミュレートするために、新しい方法を用いている。
論文参考訳（メタデータ） (2022-08-10T03:41:48Z)
Learning from others' mistakes: Avoiding dataset biases without modeling them [111.17078939377313]
最先端自然言語処理(NLP)モデルは、意図したタスクをターゲットとする機能ではなく、データセットのバイアスや表面形状の相関をモデル化することを学ぶことが多い。これまでの研究は、バイアスに関する知識が利用できる場合に、これらの問題を回避するための効果的な方法を示してきた。本稿では,これらの問題点を無視する学習モデルについて述べる。
論文参考訳（メタデータ） (2020-12-02T16:10:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。