論文の概要: Understanding the Effect of Model Compression on Social Bias in Large
Language Models
- arxiv url: http://arxiv.org/abs/2312.05662v2
- Date: Tue, 12 Dec 2023 12:51:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 12:43:58.641765
- Title: Understanding the Effect of Model Compression on Social Bias in Large
Language Models
- Title(参考訳): 大規模言語モデルにおけるモデル圧縮が社会バイアスに及ぼす影響の理解
- Authors: Gustavo Gon\c{c}alves and Emma Strubell
- Abstract要約: 大規模言語モデル(LLM)は、そのテキストの社会的バイアスに適合する膨大なウェブテキストのコーパスを自己監督で訓練する。
本研究では, LLMの社会的バイアス測定における定量化と知識蒸留によるモデル圧縮の影響について検討する。
- 参考スコア(独自算出の注目度): 12.289003145872481
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models (LLMs) trained with self-supervision on vast corpora of
web text fit to the social biases of that text. Without intervention, these
social biases persist in the model's predictions in downstream tasks, leading
to representational harm. Many strategies have been proposed to mitigate the
effects of inappropriate social biases learned during pretraining.
Simultaneously, methods for model compression have become increasingly popular
to reduce the computational burden of LLMs. Despite the popularity and need for
both approaches, little work has been done to explore the interplay between
these two. We perform a carefully controlled study of the impact of model
compression via quantization and knowledge distillation on measures of social
bias in LLMs. Longer pretraining and larger models led to higher social bias,
and quantization showed a regularizer effect with its best trade-off around 20%
of the original pretraining time.
- Abstract(参考訳): 大規模言語モデル(LLM)は、そのテキストの社会的バイアスに適合する膨大なウェブテキストのコーパスを自己監督で訓練する。
介入がなければ、これらの社会的偏見は下流のタスクにおけるモデルの予測に留まり、表現的害をもたらす。
事前訓練中に学習した不適切な社会バイアスの影響を軽減するために、多くの戦略が提案されている。
同時に, LLMの計算負担を軽減するため, モデル圧縮法がますます普及している。
両方のアプローチの人気と必要性にもかかわらず、この2つの間の相互作用を探求する作業はほとんど行われていない。
我々は, LLMの社会的バイアス測定における量化と知識蒸留によるモデル圧縮の影響について, 慎重に検討した。
より長い事前訓練とより大きなモデルにより、社会的偏見が高まり、量子化は、最初の事前訓練時間の20%のトレードオフで正則化効果を示した。
関連論文リスト
- Self-Debiasing Large Language Models: Zero-Shot Recognition and
Reduction of Stereotypes [73.12947922129261]
ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。
自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。
この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
論文 参考訳(メタデータ) (2024-02-03T01:40:11Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - Decoding the Silent Majority: Inducing Belief Augmented Social Graph
with Large Language Model for Response Forecasting [74.68371461260946]
SocialSenseは、既存のソーシャルネットワーク上に信念中心のグラフを誘導するフレームワークであり、グラフベースの伝播によって社会的ダイナミクスを捉える。
本手法は,ゼロショット設定と教師あり設定の両方に対する実験的な評価において,既存の最先端技術を超えている。
論文 参考訳(メタデータ) (2023-10-20T06:17:02Z) - A Predictive Factor Analysis of Social Biases and Task-Performance in
Pretrained Masked Language Models [37.60331159498764]
社会的バイアスは、事前訓練された言語マスケッド言語モデル(MLM)によって報告されている。
我々は、異なるモデルサイズ、訓練対象、トークン化方法、データドメインと言語をカバーする39以上の事前訓練研究を行う。
我々の結果は、トークン化やモデル目的など、以前の文献で無視される重要な要素に光を当てた。
論文 参考訳(メタデータ) (2023-10-19T17:33:33Z) - Improved Bayes Risk Can Yield Reduced Social Welfare Under Competition [99.7047087527422]
本研究は,機械学習のスケーリングトレンドの振る舞いを根本的に変化させることを実証する。
データ表現品質の改善により、ユーザ間での全体的な予測精度が低下する、多くの設定が見つかる。
概念レベルでは,各モデルプロジェクタのスケーリング傾向が,社会福祉の下流改善に寄与する必要はないことが示唆された。
論文 参考訳(メタデータ) (2023-06-26T13:06:34Z) - Should We Attend More or Less? Modulating Attention for Fairness [11.249410336982258]
社会的バイアスの伝播において,現在最先端のNLPモデルにおいて広く用いられている手法である注意の役割について検討する。
トレーニング後のモデルフェアネスを改善するために,注目度を変調する新しい手法を提案する。
本結果から,テキスト分類や生成タスクにおいて,公平性の増加と性能損失の最小化が示唆された。
論文 参考訳(メタデータ) (2023-05-22T14:54:21Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Soft Attention: Does it Actually Help to Learn Social Interactions in
Pedestrian Trajectory Prediction? [2.180763067449862]
本研究では,歩行者の移動履歴と周辺歩行者の移動履歴を用いて,歩行者の将来経路を予測することの課題について考察する。
ディープラーニングは、歩行者の動きに対する社会的相互作用の影響をモデル化するための主要なツールとなっている。
論文 参考訳(メタデータ) (2021-06-16T17:39:35Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。