論文の概要: Fairness-Aware Structured Pruning in Transformers
- arxiv url: http://arxiv.org/abs/2312.15398v1
- Date: Sun, 24 Dec 2023 03:57:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 18:15:42.142354
- Title: Fairness-Aware Structured Pruning in Transformers
- Title(参考訳): 変圧器におけるフェアネスアウェア構造プルーニング
- Authors: Abdelrahman Zayed, Goncalo Mordido, Samira Shabanian, Ioana Baldini,
Sarath Chandar
- Abstract要約: 本研究では,事前学習した言語モデルにおける注意が公平性とパフォーマンスに与える影響について検討する。
本稿では,パフォーマンスに重要な頭部を維持しつつ,公平性に悪影響を及ぼすような注意を喚起する新しい手法を提案する。
以上の結果から, DistilGPT-2, GPT-2, GPT-Neo, Llama 2モデルでは, 性別バイアスが19%, 19.5%, 39.5%, 34.7%, 23%, 8%減少した。
- 参考スコア(独自算出の注目度): 14.439885480035324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing size of large language models (LLMs) has introduced challenges
in their training and inference. Removing model components is perceived as a
solution to tackle the large model sizes, however, existing pruning methods
solely focus on performance, without considering an essential aspect for the
responsible use of LLMs: model fairness. It is crucial to address the fairness
of LLMs towards diverse groups, such as women, Black people, LGBTQ+, Jewish
communities, among others, as they are being deployed and available to a wide
audience. In this work, first, we investigate how attention heads impact
fairness and performance in pre-trained transformer-based language models. We
then propose a novel method to prune the attention heads that negatively impact
fairness while retaining the heads critical for performance, i.e. language
modeling capabilities. Our approach is practical in terms of time and
resources, as it does not require fine-tuning the final pruned, and fairer,
model. Our findings demonstrate a reduction in gender bias by 19%, 19.5%,
39.5%, 34.7%, 23%, and 8% for DistilGPT-2, GPT-2, GPT-Neo of two different
sizes, GPT-J, and Llama 2 models, respectively, in comparison to the biased
model, with only a slight decrease in performance.
- Abstract(参考訳): 大きな言語モデル(LLM)のサイズが大きくなるにつれ、トレーニングや推論の課題が持ち上がっている。
モデルコンポーネントの除去は、大きなモデルサイズに取り組むための解決策として認識されているが、既存のプルーニングメソッドは、llmの責任ある使用に不可欠な側面を考慮せずに、パフォーマンスのみに焦点を当てている。
女性、黒人、lgbtq+、ユダヤ人コミュニティなど多様なグループに対するllmの公平性に対処することが重要であり、幅広いオーディエンスに展開され利用可能である。
本稿では,まず,事前学習されたトランスフォーマー言語モデルにおける注意ヘッドが公平性と性能に与える影響について検討する。
そこで,本研究では,言語モデリング能力に欠かせない性能を保ちつつ,公平性に悪影響を及ぼす注意を喚起する新しい手法を提案する。
我々のアプローチは時間と資源の面で実用的であり、最終段階の細かな調整や公平なモデルを必要としない。
以上の結果から, 性別偏差が19%, 19.5%, 39.5%, 34.7%, 23%, 8%のdishlegpt-2, gpt-2, gpt-neo, gpt-j, llama 2モデルにおいて, 偏差モデルと比較すると, わずかに性能が低下する傾向がみられた。
関連論文リスト
- FairPIVARA: Reducing and Assessing Biases in CLIP-Based Multimodal Models [5.748694060126043]
視覚言語モデルにおける4種類の識別実践を評価した。
特徴埋め込みの最も影響の大きい次元を除去し,FairPItheraを提案する。
FairPItheraの応用により、観測されたバイアスの最大98%が大幅に削減された。
論文 参考訳(メタデータ) (2024-09-28T22:49:22Z) - LLaVA-Gemma: Accelerating Multimodal Foundation Models with a Compact Language Model [4.6373877301731]
我々は、最近リリースされた大規模言語モデル(LLM)のGemmaファミリで、人気のあるLLaVAフレームワークを使用して、MMFM(Multimodal foundation model)のスイートをトレーニングする。
コネクタの事前訓練,より強力な画像バックボーンの利用,言語バックボーンのサイズ拡大という,3つの設計上の特徴を損なう効果を検証した。
LLaVA-Gemmaと呼ばれる結果のモデルは、評価の配列に対して適度な性能を示すが、現在の大容量SOTAモデルよりは改善されない。
論文 参考訳(メタデータ) (2024-03-29T21:32:50Z) - Teaching Language Models to Self-Improve through Interactive Demonstrations [83.9421355808174]
大規模言語モデルの自己改善能力は欠如しており、より小さなモデルで学ぶことは困難である。
このような自己改善能力を持つ小型モデルのトレーニングアルゴリズムであるTriPosTを導入する。
我々は,LLaMA-7bの算数および推論タスクの性能を最大7.13%向上させることができることを示す。
論文 参考訳(メタデータ) (2023-10-20T14:11:04Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z) - Language Models Get a Gender Makeover: Mitigating Gender Bias with
Few-Shot Data Interventions [50.67412723291881]
事前訓練された大きな言語モデルに存在する社会的バイアスが重要な問題である。
我々は,事前学習モデルにおける性別バイアスを低減するために,データ介入戦略を強力かつ簡単な手法として提案する。
論文 参考訳(メタデータ) (2023-06-07T16:50:03Z) - Honey, I Shrunk the Language: Language Model Behavior at Reduced Scale [5.759319006531332]
マスク付き言語モデリング(MLM)を用いた事前学習の利点を1.25Mパラメータのモデルで示す。
スケール法則を100Mパラメータのモデルに拡張し,ダウンスケーリング効果について検討する。
論文 参考訳(メタデータ) (2023-05-26T21:22:10Z) - Should We Attend More or Less? Modulating Attention for Fairness [11.91250446389124]
社会的バイアスの伝播において,現在最先端のNLPモデルにおいて広く用いられている手法である注意の役割について検討する。
トレーニング後のモデルフェアネスを改善するために,注目度を変調する新しい手法を提案する。
本結果から,テキスト分類や生成タスクにおいて,公平性の増加と性能損失の最小化が示唆された。
論文 参考訳(メタデータ) (2023-05-22T14:54:21Z) - Non-Invasive Fairness in Learning through the Lens of Data Drift [88.37640805363317]
データや学習アルゴリズムを変更することなく、機械学習モデルの公平性を向上する方法を示す。
異なる集団間の傾向のばらつきと、学習モデルと少数民族間の連続的な傾向は、データドリフトと類似している。
このドリフトを解決するための2つの戦略(モデル分割とリウィーディング)を探索し、基礎となるデータに対するモデル全体の適合性を改善することを目的としている。
論文 参考訳(メタデータ) (2023-03-30T17:30:42Z) - PLATON: Pruning Large Transformer Models with Upper Confidence Bound of
Weight Importance [114.1541203743303]
本稿では,重要度推定の上位信頼度境界(UCB)による重要度スコアの不確かさを捉えるPLATONを提案する。
我々は、自然言語理解、質問応答、画像分類に関するトランスフォーマーモデルを用いて、広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2022-06-25T05:38:39Z) - Perturbation Augmentation for Fairer NLP [33.442601687940204]
少なくとも、モデルフェアネスを測定するための最良の指標によると、人口動態に乱れたコーパスで事前訓練された言語モデルは、より公平である。
我々の発見は有望であるように思われるが、大きな言語モデルの(不)公正性を評価するのにどのように最適かという優れた疑問だけでなく、まだいくつかの制限がある。
論文 参考訳(メタデータ) (2022-05-25T09:00:29Z) - FairIF: Boosting Fairness in Deep Learning via Influence Functions with
Validation Set Sensitive Attributes [51.02407217197623]
本稿では,FAIRIFという2段階の学習アルゴリズムを提案する。
サンプル重みが計算される再重み付きデータセットの損失を最小限に抑える。
FAIRIFは、様々な種類のバイアスに対して、フェアネスとユーティリティのトレードオフを良くしたモデルが得られることを示す。
論文 参考訳(メタデータ) (2022-01-15T05:14:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。