論文の概要: Understanding the Effect of Model Compression on Social Bias in Large
Language Models
- arxiv url: http://arxiv.org/abs/2312.05662v1
- Date: Sat, 9 Dec 2023 20:04:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 19:22:06.732251
- Title: Understanding the Effect of Model Compression on Social Bias in Large
Language Models
- Title(参考訳): 大規模言語モデルにおけるモデル圧縮が社会バイアスに及ぼす影響の理解
- Authors: Gustavo Gon\c{c}alves and Emma Strubell
- Abstract要約: 大規模言語モデル(LLM)は、そのテキストの社会的バイアスに適合する膨大なウェブテキストのコーパスを自己監督で訓練する。
本研究では, LLMの社会的バイアス測定における定量化と知識蒸留によるモデル圧縮の影響について検討する。
- 参考スコア(独自算出の注目度): 12.289003145872481
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models (LLMs) trained with self-supervision on vast corpora of
web text fit to the social biases of that text. Without intervention, these
social biases persist in the model's predictions in downstream tasks, leading
to representational harm. Many strategies have been proposed to mitigate the
effects of inappropriate social biases learned during pretraining.
Simultaneously, methods for model compression have become increasingly popular
to reduce the computational burden of LLMs. Despite the popularity and need for
both approaches, little work has been done to explore the interplay between
these two. We perform a carefully controlled study of the impact of model
compression via quantization and knowledge distillation on measures of social
bias in LLMs. Longer pretraining and larger models led to higher social bias,
and quantization showed a regularizer effect with its best trade-off around 20%
of the original pretraining time.
- Abstract(参考訳): 大規模言語モデル(LLM)は、そのテキストの社会的バイアスに適合する膨大なウェブテキストのコーパスを自己監督で訓練する。
介入がなければ、これらの社会的偏見は下流のタスクにおけるモデルの予測に留まり、表現的害をもたらす。
事前訓練中に学習した不適切な社会バイアスの影響を軽減するために、多くの戦略が提案されている。
同時に, LLMの計算負担を軽減するため, モデル圧縮法がますます普及している。
両方のアプローチの人気と必要性にもかかわらず、この2つの間の相互作用を探求する作業はほとんど行われていない。
我々は, LLMの社会的バイアス測定における量化と知識蒸留によるモデル圧縮の影響について, 慎重に検討した。
より長い事前訓練とより大きなモデルにより、社会的偏見が高まり、量子化は、最初の事前訓練時間の20%のトレードオフで正則化効果を示した。
関連論文リスト
- Social Debiasing for Fair Multi-modal LLMs [55.8071045346024]
MLLM(Multi-modal Large Language Models)は、強力な視覚言語理解機能を提供する。
しかしながら、これらのモデルはトレーニングデータセットから深刻な社会的偏見を継承することが多く、人種や性別といった属性に基づいた不公平な予測につながります。
本稿では,MLLMにおける社会的バイアスの問題に対処する。i)多元的社会的概念(CMSC)を用いた包括的対実的データセットの導入,i)アンチステレオタイプデバイアス戦略(ASD)を提案する。
論文 参考訳(メタデータ) (2024-08-13T02:08:32Z) - Understanding the Interplay of Scale, Data, and Bias in Language Models: A Case Study with BERT [4.807994469764776]
モデルスケールと事前学習データが学習した社会バイアスに与える影響について検討する。
実験の結果,事前学習したデータは,モデルスケールで上流バイアスがどのように進化するかに大きな影響を及ぼすことがわかった。
データとモデルスケールの複雑な相互作用に光を当て、それが具体的なバイアスにどのように変換されるかを調査しました。
論文 参考訳(メタデータ) (2024-07-25T23:09:33Z) - The Devil is in the Neurons: Interpreting and Mitigating Social Biases in Pre-trained Language Models [78.69526166193236]
プレトレーニング言語モデル(PLM)は、社会的バイアスのような有害な情報を含むことが認識されている。
我々は,社会バイアスなどの望ましくない行動に起因する言語モデルにおいて,正確に単位(すなわちニューロン)を特定するために,sc Social Bias Neuronsを提案する。
StereoSetの以前の測定値からわかるように、我々のモデルは、低コストで言語モデリング能力を維持しながら、より高い公平性を達成する。
論文 参考訳(メタデータ) (2024-06-14T15:41:06Z) - On the social bias of speech self-supervised models [45.787612513520386]
SSLモデルの社会的バイアスは、差別的パターンを自動化し、不平等なシステムを補強することによって、不公平を永続することができる。
モデルアーキテクチャやサイズ,トレーニング方法論といったさまざまな要因が,これらのモデル内の社会的バイアスの伝播にどのように影響するかを考察する。
以上の結果から,行プルーニングやトレーニングなどの手法を用いることで,SSLモデル内の社会的バイアスを効果的に軽減できることがわかった。
論文 参考訳(メタデータ) (2024-06-07T15:07:07Z) - Decoding the Silent Majority: Inducing Belief Augmented Social Graph
with Large Language Model for Response Forecasting [74.68371461260946]
SocialSenseは、既存のソーシャルネットワーク上に信念中心のグラフを誘導するフレームワークであり、グラフベースの伝播によって社会的ダイナミクスを捉える。
本手法は,ゼロショット設定と教師あり設定の両方に対する実験的な評価において,既存の最先端技術を超えている。
論文 参考訳(メタデータ) (2023-10-20T06:17:02Z) - Improved Bayes Risk Can Yield Reduced Social Welfare Under Competition [99.7047087527422]
本研究は,機械学習のスケーリングトレンドの振る舞いを根本的に変化させることを実証する。
データ表現品質の改善により、ユーザ間での全体的な予測精度が低下する、多くの設定が見つかる。
概念レベルでは,各モデルプロジェクタのスケーリング傾向が,社会福祉の下流改善に寄与する必要はないことが示唆された。
論文 参考訳(メタデータ) (2023-06-26T13:06:34Z) - Soft Attention: Does it Actually Help to Learn Social Interactions in
Pedestrian Trajectory Prediction? [2.180763067449862]
本研究では,歩行者の移動履歴と周辺歩行者の移動履歴を用いて,歩行者の将来経路を予測することの課題について考察する。
ディープラーニングは、歩行者の動きに対する社会的相互作用の影響をモデル化するための主要なツールとなっている。
論文 参考訳(メタデータ) (2021-06-16T17:39:35Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。