論文の概要: FairSISA: Ensemble Post-Processing to Improve Fairness of Unlearning in
LLMs
- arxiv url: http://arxiv.org/abs/2312.07420v1
- Date: Tue, 12 Dec 2023 16:44:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 15:15:49.863827
- Title: FairSISA: Ensemble Post-Processing to Improve Fairness of Unlearning in
LLMs
- Title(参考訳): FairSISA:LLMにおける未学習の公平性を改善するためのポストプロセシング
- Authors: Swanand Ravindra Kadhe, Anisa Halimi, Ambrish Rawat, Nathalie
Baracaldo
- Abstract要約: 大規模言語モデル(LLM)における未学習と公平性の相互作用について検討する。
我々は、SISAとして知られる人気のある非学習フレームワークに焦点を当て、非結合シャードで訓練されたモデルのアンサンブルを作成する。
SISAによるアンサンブルモデルに対する後処理バイアス軽減手法を提案する。
- 参考スコア(独自算出の注目度): 6.689848416609951
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Training large language models (LLMs) is a costly endeavour in terms of time
and computational resources. The large amount of training data used during the
unsupervised pre-training phase makes it difficult to verify all data and,
unfortunately, undesirable data may be ingested during training. Re-training
from scratch is impractical and has led to the creation of the 'unlearning'
discipline where models are modified to "unlearn" undesirable information
without retraining. However, any modification can alter the behaviour of LLMs,
especially on key dimensions such as fairness. This is the first work that
examines this interplay between unlearning and fairness for LLMs. In
particular, we focus on a popular unlearning framework known as SISA [Bourtoule
et al., 2021], which creates an ensemble of models trained on disjoint shards.
We evaluate the performance-fairness trade-off for SISA, and empirically
demsontrate that SISA can indeed reduce fairness in LLMs. To remedy this, we
propose post-processing bias mitigation techniques for ensemble models produced
by SISA. We adapt the post-processing fairness improvement technique from
[Hardt et al., 2016] to design three methods that can handle model ensembles,
and prove that one of the methods is an optimal fair predictor for ensemble of
models. Through experimental results, we demonstrate the efficacy of our
post-processing framework called 'FairSISA'.
- Abstract(参考訳): 大規模言語モデル(LLM)の訓練は、時間と計算資源の面で費用がかかる作業である。
教師なし事前トレーニングフェーズで使用される大量のトレーニングデータは、すべてのデータの検証が困難であり、残念なことに、トレーニング中に望ましくないデータが取り込まれる可能性がある。
スクラッチからのリトレーニングは現実的ではなく、モデルがリトレーニングなしで望ましくない情報を"未学習"するように修正される"アンラーニング"の規律が生み出された。
しかしながら、どんな修正でも、特に公平性のような重要な次元において、LLMの振る舞いを変えることができる。
これは、LLMの未学習と公平性の間のこの相互作用を調べる最初の研究である。
特に、disjoint shardsでトレーニングされたモデルのアンサンブルを作成するsisa(bourtoule et al., 2021)として知られる一般的なアンラーニングフレームワークにフォーカスしています。
我々は,SISAの性能・公正トレードオフを評価し,SISAがLLMの公平性を実際に低減できることを示す。
そこで本研究では,SISA によるアンサンブルモデルの処理後バイアス軽減手法を提案する。
我々は,モデルアンサンブルを扱える3つの手法を設計するために,[Hardt et al., 2016] の処理後フェアネス改善手法を適用し,その1つがモデルのアンサンブルに最適なフェア予測器であることを証明した。
実験の結果,'fairsisa' と呼ばれるポストプロセッシングフレームワークの有効性を実証した。
関連論文リスト
- A Little Help Goes a Long Way: Efficient LLM Training by Leveraging Small LMs [74.35290684163718]
大規模言語モデル(LLM)開発における最大の課題は、その面倒な事前トレーニングコストである。
本稿では,小言語モデル(SLM)を活用して,LLMの事前学習効率と品質を改善するための有望なパラダイムについて検討する。
論文 参考訳(メタデータ) (2024-10-24T14:31:52Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Using Self-supervised Learning Can Improve Model Fairness [10.028637666224093]
自己教師型学習(SSL)は,大規模モデルのデファクトトレーニングパラダイムとなっている。
本研究では,事前学習と微調整が公正性に及ぼす影響について検討する。
SSLの公平性評価フレームワークを導入し、データセット要件の定義、事前トレーニング、段階的凍結による微調整、人口統計学的に条件付けられた表現類似性の評価、ドメイン固有の評価プロセスの確立の5段階を含む。
論文 参考訳(メタデータ) (2024-06-04T14:38:30Z) - Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
我々は、報酬モデルと政策モデルを同時に構築するために、逆強化学習(IRL)技術を活用することを提案する。
提案アルゴリズムはIRL問題の定常解に収束することを示す。
その結果,アライメントプロセス全体を通じて報酬学習を活用することは有益であることが示唆された。
論文 参考訳(メタデータ) (2024-05-28T07:11:05Z) - Unlearnable Algorithms for In-context Learning [36.895152458323764]
本稿では,事前訓練された大規模言語モデルのタスク適応フェーズに対する効率的なアンラーニング手法に着目した。
タスク適応のための文脈内学習を行うLLMの能力は、タスク適応トレーニングデータの効率的なアンラーニングを可能にする。
本稿では,様々な推論コストを考慮に入れた非学習コストの包括的尺度を提案する。
論文 参考訳(メタデータ) (2024-02-01T16:43:04Z) - Unlearn What You Want to Forget: Efficient Unlearning for LLMs [92.51670143929056]
大規模言語モデル(LLM)は、幅広いテキストデータを事前学習し記憶することで大きな進歩を遂げた。
このプロセスはプライバシー問題やデータ保護規則違反に悩まされる可能性がある。
データ削除後のモデル全体を再トレーニングすることなく、LLMを効率的に更新できる効率的なアンラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:35:59Z) - In-Context Unlearning: Language Models as Few Shot Unlearners [27.962361828354716]
我々は,Large Language Models (LLMs) のための新しいアンラーニング手法を提案する。
このメソッドは、モデルパラメータを更新することなく、コンテキスト内で特定の種類の入力を提供することで、モデルからインスタンスを解放する。
実験の結果、文脈内アンラーニングは、モデルパラメータへのアクセスを必要とする他の最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-11T15:19:31Z) - Adapting Large Language Models for Content Moderation: Pitfalls in Data
Engineering and Supervised Fine-tuning [79.53130089003986]
大規模言語モデル(LLM)は、様々なドメインでタスクを処理するための実現可能なソリューションとなっている。
本稿では、コンテンツモデレーションのためにプライベートにデプロイ可能なLLMモデルを微調整する方法を紹介する。
論文 参考訳(メタデータ) (2023-10-05T09:09:44Z) - Making Pre-trained Language Models both Task-solvers and
Self-calibrators [52.98858650625623]
プレトレーニング言語モデル(PLM)は、様々な現実世界のシステムのバックボーンとして機能する。
以前の研究は、余分なキャリブレーションタスクを導入することでこの問題を緩和できることを示している。
課題に対処するためのトレーニングアルゴリズムLM-TOASTを提案する。
論文 参考訳(メタデータ) (2023-07-21T02:51:41Z) - Model Sparsity Can Simplify Machine Unlearning [33.18951938708467]
最近のデータ規制要件に応えて、マシン・アンラーニング(MU)が重要なプロセスとして登場した。
本研究は,ウェイトプルーニングによるモデルスペーシフィケーションという,新しいモデルベース視点を紹介する。
理論と実践の両方において、モデルスパーシティは、近似アンラーナーのマルチ基準アンラーニング性能を高めることができることを示す。
論文 参考訳(メタデータ) (2023-04-11T02:12:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。