論文の概要: An Empirical Survey of Model Merging Algorithms for Social Bias Mitigation
- arxiv url: http://arxiv.org/abs/2512.02689v1
- Date: Tue, 02 Dec 2025 12:18:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.857615
- Title: An Empirical Survey of Model Merging Algorithms for Social Bias Mitigation
- Title(参考訳): 社会バイアス軽減のためのモデルマージアルゴリズムの実証的研究
- Authors: Daiki Shirafuji, Tatsuhiko Saito, Yasutomo Kimura,
- Abstract要約: 大規模言語モデル(LLM)は、学習前のコーパスに存在する社会的バイアスを継承し、増幅することが知られている。
私たちは、Linear、Karcher Mean、SLERP、NuSLERP、TIES、DELLA、Nearswapの7つのアルゴリズムを実験的に調査し、GPT、LLaMA、Qwenファミリーで13のオープンウェイトモデルを適用した。
バイアス低減と下流性能のトレードオフを見出した。
- 参考スコア(独自算出の注目度): 0.9430947207126281
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) are known to inherit and even amplify societal biases present in their pre-training corpora, threatening fairness and social trust. To address this issue, recent work has explored ``editing'' LLM parameters to mitigate social bias with model merging approaches; however, there is no empirical comparison. In this work, we empirically survey seven algorithms: Linear, Karcher Mean, SLERP, NuSLERP, TIES, DELLA, and Nearswap, applying 13 open weight models in the GPT, LLaMA, and Qwen families. We perform a comprehensive evaluation using three bias datasets (BBQ, BOLD, and HONEST) and measure the impact of these techniques on LLM performance in downstream tasks of the SuperGLUE benchmark. We find a trade-off between bias reduction and downstream performance: methods achieving greater bias mitigation degrade accuracy, particularly on tasks requiring reading comprehension and commonsense and causal reasoning. Among the merging algorithms, Linear, SLERP, and Nearswap consistently reduce bias while maintaining overall performance, with SLERP at moderate interpolation weights emerging as the most balanced choice. These results highlight the potential of model merging algorithms for bias mitigation, while indicating that excessive debiasing or inappropriate merging methods may lead to the degradation of important linguistic abilities.
- Abstract(参考訳): 大規模言語モデル(LLM)は、訓練前のコーパスに存在する社会的バイアスを継承し、増幅することで知られており、公正さと社会的信頼を脅かす。
この問題に対処するために、最近の研究では、モデルマージアプローチによる社会的バイアスを軽減するために、'editing'のLLMパラメータを探索しているが、実証的な比較はない。
本研究では,Linear,Karcher Mean,SLERP,NuSLERP,TIES,DELLA,Nearswapの7つのアルゴリズムを実験的に調査し,GPT,LLaMA,Qwenファミリーで13のオープンウェイトモデルを適用した。
我々は,3つのバイアスデータセット(BBQ,BOLD,HONEST)を用いて総合評価を行い,これらの手法がSuperGLUEベンチマークの下流タスクにおけるLLM性能に与える影響を評価する。
バイアス低減とダウンストリーム性能のトレードオフは,特に理解・常識・因果推論を必要とするタスクにおいて,より優れたバイアス緩和を実現する手法が精度を低下させることである。
マージアルゴリズムのうち、Linear、SLERP、Nearswapは、全体的な性能を維持しながらバイアスを一貫して減らし、SLERPは中間補間重みを最もバランスの取れた選択として現れる。
これらの結果は、バイアス緩和のためのモデルマージアルゴリズムの可能性を強調し、過度なデバイアス化や不適切なマージ手法が重要な言語能力の低下につながることを示唆している。
関連論文リスト
- Attention Pruning: Automated Fairness Repair of Language Models via Surrogate Simulated Annealing [14.432850893209817]
本稿では,大規模言語モデル (LLM) におけるアテンションヘッドに対するアテンション・プルーニング(Attention Pruning) を提案する。
我々の実験は、注意喚起によって最大40%の性別バイアスが減少し、最先端のバイアス緩和戦略よりも優れることを示した。
論文 参考訳(メタデータ) (2025-03-20T03:02:32Z) - Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。
本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文 参考訳(メタデータ) (2025-02-03T17:13:03Z) - A Multi-LLM Debiasing Framework [85.17156744155915]
大規模言語モデル(LLM)は、社会に多大な利益をもたらす可能性がある強力なツールであるが、社会的不平等を持続するバイアスを示す。
近年,マルチLLM手法への関心が高まっており,推論の質向上に有効であることが示されている。
LLMのバイアス低減を目的としたマルチLLMデバイアスフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-20T20:24:50Z) - Identifying and Mitigating Social Bias Knowledge in Language Models [52.52955281662332]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - Optimizing Class-Level Probability Reweighting Coefficients for Equitable Prompting Accuracy [12.287692969438169]
LLMは、事前訓練されたデータの統計正則性からのバイアスをしばしば発見する。
これは、分類とQAにおいて、永続的で不均一なクラス精度をもたらす。
本研究では,非微分不可能な性能駆動メトリクスを直接最適化するポストホック確率再重み付け手法を開発した。
論文 参考訳(メタデータ) (2024-05-13T10:30:33Z) - Marginal Debiased Network for Fair Visual Recognition [59.05212866862219]
本稿では,デバイアス表現を学習するための新しい限界脱バイアスネットワーク(MDN)を提案する。
我々のMDNは、表現不足のサンプルに対して顕著な性能を達成できる。
論文 参考訳(メタデータ) (2024-01-04T08:57:09Z) - Keeping Up with the Language Models: Systematic Benchmark Extension for Bias Auditing [33.25539075550122]
我々は, LM生成語彙変動, 逆フィルタリング, 人間の検証を組み合わせることで, 既存のNLIのバイアスベンチマークを拡張した。
BBNLI-nextは最先端のNLIモデルの精度を95.3%から57.5%に下げることを示した。
バイアスとモデル脆性の両方を考慮したバイアス対策を提案する。
論文 参考訳(メタデータ) (2023-05-22T01:02:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。