論文の概要: FairSISA: Ensemble Post-Processing to Improve Fairness of Unlearning in
LLMs
- arxiv url: http://arxiv.org/abs/2312.07420v1
- Date: Tue, 12 Dec 2023 16:44:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 15:15:49.863827
- Title: FairSISA: Ensemble Post-Processing to Improve Fairness of Unlearning in
LLMs
- Title(参考訳): FairSISA:LLMにおける未学習の公平性を改善するためのポストプロセシング
- Authors: Swanand Ravindra Kadhe, Anisa Halimi, Ambrish Rawat, Nathalie
Baracaldo
- Abstract要約: 大規模言語モデル(LLM)における未学習と公平性の相互作用について検討する。
我々は、SISAとして知られる人気のある非学習フレームワークに焦点を当て、非結合シャードで訓練されたモデルのアンサンブルを作成する。
SISAによるアンサンブルモデルに対する後処理バイアス軽減手法を提案する。
- 参考スコア(独自算出の注目度): 6.689848416609951
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Training large language models (LLMs) is a costly endeavour in terms of time
and computational resources. The large amount of training data used during the
unsupervised pre-training phase makes it difficult to verify all data and,
unfortunately, undesirable data may be ingested during training. Re-training
from scratch is impractical and has led to the creation of the 'unlearning'
discipline where models are modified to "unlearn" undesirable information
without retraining. However, any modification can alter the behaviour of LLMs,
especially on key dimensions such as fairness. This is the first work that
examines this interplay between unlearning and fairness for LLMs. In
particular, we focus on a popular unlearning framework known as SISA [Bourtoule
et al., 2021], which creates an ensemble of models trained on disjoint shards.
We evaluate the performance-fairness trade-off for SISA, and empirically
demsontrate that SISA can indeed reduce fairness in LLMs. To remedy this, we
propose post-processing bias mitigation techniques for ensemble models produced
by SISA. We adapt the post-processing fairness improvement technique from
[Hardt et al., 2016] to design three methods that can handle model ensembles,
and prove that one of the methods is an optimal fair predictor for ensemble of
models. Through experimental results, we demonstrate the efficacy of our
post-processing framework called 'FairSISA'.
- Abstract(参考訳): 大規模言語モデル(LLM)の訓練は、時間と計算資源の面で費用がかかる作業である。
教師なし事前トレーニングフェーズで使用される大量のトレーニングデータは、すべてのデータの検証が困難であり、残念なことに、トレーニング中に望ましくないデータが取り込まれる可能性がある。
スクラッチからのリトレーニングは現実的ではなく、モデルがリトレーニングなしで望ましくない情報を"未学習"するように修正される"アンラーニング"の規律が生み出された。
しかしながら、どんな修正でも、特に公平性のような重要な次元において、LLMの振る舞いを変えることができる。
これは、LLMの未学習と公平性の間のこの相互作用を調べる最初の研究である。
特に、disjoint shardsでトレーニングされたモデルのアンサンブルを作成するsisa(bourtoule et al., 2021)として知られる一般的なアンラーニングフレームワークにフォーカスしています。
我々は,SISAの性能・公正トレードオフを評価し,SISAがLLMの公平性を実際に低減できることを示す。
そこで本研究では,SISA によるアンサンブルモデルの処理後バイアス軽減手法を提案する。
我々は,モデルアンサンブルを扱える3つの手法を設計するために,[Hardt et al., 2016] の処理後フェアネス改善手法を適用し,その1つがモデルのアンサンブルに最適なフェア予測器であることを証明した。
実験の結果,'fairsisa' と呼ばれるポストプロセッシングフレームワークの有効性を実証した。
関連論文リスト
- Mitigating Catastrophic Forgetting in Large Language Models with
Self-Synthesized Rehearsal [51.36134981232229]
大規模言語モデル(LLM)は、連続学習中に破滅的な忘れ込みに悩まされる。
自己合成リハーサル(Self-Synthesized Rehearsal, SSR)と呼ばれるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-02T16:11:23Z) - Unlearnable Algorithms for In-context Learning [36.895152458323764]
本稿では,事前訓練された大規模言語モデルのタスク適応フェーズに対する効率的なアンラーニング手法に着目した。
タスク適応のための文脈内学習を行うLLMの能力は、タスク適応トレーニングデータの効率的なアンラーニングを可能にする。
本稿では,様々な推論コストを考慮に入れた非学習コストの包括的尺度を提案する。
論文 参考訳(メタデータ) (2024-02-01T16:43:04Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language
Models [56.84735912476625]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - Unlearn What You Want to Forget: Efficient Unlearning for LLMs [92.51670143929056]
大規模言語モデル(LLM)は、幅広いテキストデータを事前学習し記憶することで大きな進歩を遂げた。
このプロセスはプライバシー問題やデータ保護規則違反に悩まされる可能性がある。
データ削除後のモデル全体を再トレーニングすることなく、LLMを効率的に更新できる効率的なアンラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:35:59Z) - In-Context Unlearning: Language Models as Few Shot Unlearners [31.426892450603873]
''In-Context Unlearning''は、モデルパラメータを更新することなく、コンテキスト内のインプットを提供する。
これらのコンテキストは、最先端の未学習手法と競合するパフォーマンスレベルを維持しながら、トレーニングセットから特定の情報を効果的に除去することを示します。
論文 参考訳(メタデータ) (2023-10-11T15:19:31Z) - Adapting Large Language Models for Content Moderation: Pitfalls in Data
Engineering and Supervised Fine-tuning [79.53130089003986]
大規模言語モデル(LLM)は、様々なドメインでタスクを処理するための実現可能なソリューションとなっている。
本稿では、コンテンツモデレーションのためにプライベートにデプロイ可能なLLMモデルを微調整する方法を紹介する。
論文 参考訳(メタデータ) (2023-10-05T09:09:44Z) - Making Pre-trained Language Models both Task-solvers and
Self-calibrators [52.98858650625623]
プレトレーニング言語モデル(PLM)は、様々な現実世界のシステムのバックボーンとして機能する。
以前の研究は、余分なキャリブレーションタスクを導入することでこの問題を緩和できることを示している。
課題に対処するためのトレーニングアルゴリズムLM-TOASTを提案する。
論文 参考訳(メタデータ) (2023-07-21T02:51:41Z) - INGENIOUS: Using Informative Data Subsets for Efficient Pre-Training of
Language Models [40.54353850357839]
トレーニングコーパスの高度に代表的なサブセットを選択するために、サブモジュラー最適化を利用する方法を示す。
その結果,完全学習モデルの性能の最大$sim99%が得られた。
論文 参考訳(メタデータ) (2023-05-11T09:24:41Z) - Model Sparsity Can Simplify Machine Unlearning [33.18951938708467]
最近のデータ規制要件に応えて、マシン・アンラーニング(MU)が重要なプロセスとして登場した。
本研究は,ウェイトプルーニングによるモデルスペーシフィケーションという,新しいモデルベース視点を紹介する。
理論と実践の両方において、モデルスパーシティは、近似アンラーナーのマルチ基準アンラーニング性能を高めることができることを示す。
論文 参考訳(メタデータ) (2023-04-11T02:12:02Z) - FairIF: Boosting Fairness in Deep Learning via Influence Functions with
Validation Set Sensitive Attributes [51.02407217197623]
本稿では,FAIRIFという2段階の学習アルゴリズムを提案する。
サンプル重みが計算される再重み付きデータセットの損失を最小限に抑える。
FAIRIFは、様々な種類のバイアスに対して、フェアネスとユーティリティのトレードオフを良くしたモデルが得られることを示す。
論文 参考訳(メタデータ) (2022-01-15T05:14:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。