Fugu-MT 論文翻訳(概要): Understanding the Effect of Model Compression on Social Bias in Large Language Models

論文の概要: Understanding the Effect of Model Compression on Social Bias in Large Language Models

arxiv url: http://arxiv.org/abs/2312.05662v2
Date: Tue, 12 Dec 2023 12:51:52 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-13 12:43:58.641765
Title: Understanding the Effect of Model Compression on Social Bias in Large Language Models
Title（参考訳）: 大規模言語モデルにおけるモデル圧縮が社会バイアスに及ぼす影響の理解
Authors: Gustavo Gon\c{c}alves and Emma Strubell
Abstract要約: 大規模言語モデル(LLM)は、そのテキストの社会的バイアスに適合する膨大なウェブテキストのコーパスを自己監督で訓練する。本研究では, LLMの社会的バイアス測定における定量化と知識蒸留によるモデル圧縮の影響について検討する。
参考スコア（独自算出の注目度）: 12.289003145872481
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Large Language Models (LLMs) trained with self-supervision on vast corpora of web text fit to the social biases of that text. Without intervention, these social biases persist in the model's predictions in downstream tasks, leading to representational harm. Many strategies have been proposed to mitigate the effects of inappropriate social biases learned during pretraining. Simultaneously, methods for model compression have become increasingly popular to reduce the computational burden of LLMs. Despite the popularity and need for both approaches, little work has been done to explore the interplay between these two. We perform a carefully controlled study of the impact of model compression via quantization and knowledge distillation on measures of social bias in LLMs. Longer pretraining and larger models led to higher social bias, and quantization showed a regularizer effect with its best trade-off around 20% of the original pretraining time.
Abstract（参考訳）: 大規模言語モデル(LLM)は、そのテキストの社会的バイアスに適合する膨大なウェブテキストのコーパスを自己監督で訓練する。介入がなければ、これらの社会的偏見は下流のタスクにおけるモデルの予測に留まり、表現的害をもたらす。事前訓練中に学習した不適切な社会バイアスの影響を軽減するために、多くの戦略が提案されている。同時に, LLMの計算負担を軽減するため, モデル圧縮法がますます普及している。両方のアプローチの人気と必要性にもかかわらず、この2つの間の相互作用を探求する作業はほとんど行われていない。我々は, LLMの社会的バイアス測定における量化と知識蒸留によるモデル圧縮の影響について, 慎重に検討した。より長い事前訓練とより大きなモデルにより、社会的偏見が高まり、量子化は、最初の事前訓練時間の20%のトレードオフで正則化効果を示した。

関連論文リスト

An Empirical Survey of Model Merging Algorithms for Social Bias Mitigation [0.9430947207126281]
大規模言語モデル(LLM)は、学習前のコーパスに存在する社会的バイアスを継承し、増幅することが知られている。私たちは、Linear、Karcher Mean、SLERP、NuSLERP、TIES、DELLA、Nearswapの7つのアルゴリズムを実験的に調査し、GPT、LLaMA、Qwenファミリーで13のオープンウェイトモデルを適用した。バイアス低減と下流性能のトレードオフを見出した。
論文参考訳（メタデータ） (2025-12-02T12:18:48Z)
Inside you are many wolves: Using cognitive models to interpret value trade-offs in LLMs [13.120615048847434]
我々は,LLMが人間のようなトレードオフを表現する程度を,丁寧な発話の認知モデルを用いて解釈する。本研究は, 理論的推論モデルにおいて, ソーシャルユーティリティよりも高い情報ユーティリティのパターンと, 数学的推論においてより強力なオープンソースモデルを示すものである。
論文参考訳（メタデータ） (2025-06-25T17:58:12Z)
Mitigating Spurious Correlations in LLMs via Causality-Aware Post-Training [57.03005244917803]
大規模言語モデル (LLMs) は、事前学習中に得られた素早い相関関係により、アウト・オブ・ディストリビューション (OOD) のサンプルで失敗することが多い。ここでは、因果認識後学習(CAPT)を通して、このような素因的相関を緩和することを目的とする。公式因果推論ベンチマークCLadderと論理推論データセットPrOntoQAの実験により、CAPTで微調整された3Bスケールの言語モデルでは、従来のSFTおよびより大きなLLMを分散処理(ID)およびOODタスクで上回る結果が得られた。
論文参考訳（メタデータ） (2025-06-11T06:30:28Z)
Can LLMs Simulate Social Media Engagement? A Study on Action-Guided Response Generation [51.44040615856536]
本稿では、行動誘導応答生成によるソーシャルメディアのエンゲージメントをシミュレートする大規模言語モデルの能力について分析する。 GPT-4o-mini,O1-mini,DeepSeek-R1をソーシャルメディアエンゲージメントシミュレーションで評価した。
論文参考訳（メタデータ） (2025-02-17T17:43:08Z)
Social Debiasing for Fair Multi-modal LLMs [55.8071045346024]
MLLM(Multi-modal Large Language Models)は、強力な視覚言語理解機能を提供する。しかしながら、これらのモデルはトレーニングデータセットから深刻な社会的偏見を継承することが多く、人種や性別といった属性に基づいた不公平な予測につながります。本稿では,MLLMにおける社会的バイアスの問題に対処する。i)多元的社会的概念(CMSC)を用いた包括的対実的データセットの導入,i)アンチステレオタイプデバイアス戦略(ASD)を提案する。
論文参考訳（メタデータ） (2024-08-13T02:08:32Z)
Understanding the Interplay of Scale, Data, and Bias in Language Models: A Case Study with BERT [4.807994469764776]
モデルスケールと事前学習データが学習した社会バイアスに与える影響について検討する。実験の結果,事前学習したデータは,モデルスケールで上流バイアスがどのように進化するかに大きな影響を及ぼすことがわかった。データとモデルスケールの複雑な相互作用に光を当て、それが具体的なバイアスにどのように変換されるかを調査しました。
論文参考訳（メタデータ） (2024-07-25T23:09:33Z)
The Devil is in the Neurons: Interpreting and Mitigating Social Biases in Pre-trained Language Models [78.69526166193236]
プレトレーニング言語モデル(PLM)は、社会的バイアスのような有害な情報を含むことが認識されている。我々は,社会バイアスなどの望ましくない行動に起因する言語モデルにおいて,正確に単位(すなわちニューロン)を特定するために,sc Social Bias Neuronsを提案する。 StereoSetの以前の測定値からわかるように、我々のモデルは、低コストで言語モデリング能力を維持しながら、より高い公平性を達成する。
論文参考訳（メタデータ） (2024-06-14T15:41:06Z)
On the social bias of speech self-supervised models [45.787612513520386]
SSLモデルの社会的バイアスは、差別的パターンを自動化し、不平等なシステムを補強することによって、不公平を永続することができる。モデルアーキテクチャやサイズ,トレーニング方法論といったさまざまな要因が,これらのモデル内の社会的バイアスの伝播にどのように影響するかを考察する。以上の結果から,行プルーニングやトレーニングなどの手法を用いることで,SSLモデル内の社会的バイアスを効果的に軽減できることがわかった。
論文参考訳（メタデータ） (2024-06-07T15:07:07Z)
Decoding the Silent Majority: Inducing Belief Augmented Social Graph with Large Language Model for Response Forecasting [74.68371461260946]
SocialSenseは、既存のソーシャルネットワーク上に信念中心のグラフを誘導するフレームワークであり、グラフベースの伝播によって社会的ダイナミクスを捉える。本手法は,ゼロショット設定と教師あり設定の両方に対する実験的な評価において,既存の最先端技術を超えている。
論文参考訳（メタデータ） (2023-10-20T06:17:02Z)
Improved Bayes Risk Can Yield Reduced Social Welfare Under Competition [99.7047087527422]
本研究は,機械学習のスケーリングトレンドの振る舞いを根本的に変化させることを実証する。データ表現品質の改善により、ユーザ間での全体的な予測精度が低下する、多くの設定が見つかる。概念レベルでは,各モデルプロジェクタのスケーリング傾向が,社会福祉の下流改善に寄与する必要はないことが示唆された。
論文参考訳（メタデータ） (2023-06-26T13:06:34Z)
Soft Attention: Does it Actually Help to Learn Social Interactions in Pedestrian Trajectory Prediction? [2.180763067449862]
本研究では,歩行者の移動履歴と周辺歩行者の移動履歴を用いて,歩行者の将来経路を予測することの課題について考察する。ディープラーニングは、歩行者の動きに対する社会的相互作用の影響をモデル化するための主要なツールとなっている。
論文参考訳（メタデータ） (2021-06-16T17:39:35Z)
MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文参考訳（メタデータ） (2020-11-01T18:47:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。