論文の概要: Attention Pruning: Automated Fairness Repair of Language Models via Surrogate Simulated Annealing
- arxiv url: http://arxiv.org/abs/2503.15815v1
- Date: Thu, 20 Mar 2025 03:02:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:34:31.518543
- Title: Attention Pruning: Automated Fairness Repair of Language Models via Surrogate Simulated Annealing
- Title(参考訳): アテンション・プルーニング:サロゲート・シミュレート・アニーリングによる言語モデルの自動フェアネス修復
- Authors: Vishnu Asutosh Dasu, Md Rafi ur Rashid, Vipul Gupta, Saeid Tizpaz-Niari, Gang Tan,
- Abstract要約: 本稿では,大規模言語モデル (LLM) におけるアテンションヘッドに対するアテンション・プルーニング(Attention Pruning) を提案する。
我々の実験は、注意喚起によって最大40%の性別バイアスが減少し、最先端のバイアス緩和戦略よりも優れることを示した。
- 参考スコア(独自算出の注目度): 14.114970711442512
- License:
- Abstract: This paper explores pruning attention heads as a post-processing bias mitigation method for large language models (LLMs). Modern AI systems such as LLMs are expanding into sensitive social contexts where fairness concerns become especially crucial. Since LLMs develop decision-making patterns by training on massive datasets of human-generated content, they naturally encode and perpetuate societal biases. While modifying training datasets and algorithms is expensive and requires significant resources; post-processing techniques-such as selectively deactivating neurons and attention heads in pre-trained LLMs-can provide feasible and effective approaches to improve fairness. However, identifying the optimal subset of parameters to prune presents a combinatorial challenge within LLMs' immense parameter space, requiring solutions that efficiently balance competing objectives across the frontiers of model fairness and utility. To address the computational challenges, we explore a search-based program repair approach via randomized simulated annealing. Given the prohibitive evaluation costs in billion-parameter LLMs, we develop surrogate deep neural networks that efficiently model the relationship between attention head states (active/inactive) and their corresponding fairness/utility metrics. This allows us to perform optimization over the surrogate models and efficiently identify optimal subsets of attention heads for selective pruning rather than directly searching through the LLM parameter space. This paper introduces Attention Pruning, a fairness-aware surrogate simulated annealing approach to prune attention heads in LLMs that disproportionately contribute to bias while minimally impacting overall model utility. Our experiments show that Attention Pruning achieves up to $40\%$ reduction in gender bias and outperforms the state-of-the-art bias mitigation strategies.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)の処理後バイアス軽減手法として,プルーニングアテンションヘッドについて検討する。
LLMのような現代のAIシステムは、公平性に関する懸念が特に重要になるような、センシティブな社会的文脈に拡張されている。
LLMは、人間の生成したコンテンツの大量のデータセットをトレーニングすることで意思決定パターンを発達させるため、自然に社会的バイアスをエンコードし、永続する。
トレーニングデータセットとアルゴリズムの変更は高価であり、重要なリソースを必要とする。事前訓練されたLSMにおける神経細胞や注意ヘッドの選択的な非活性化のような後処理技術は、公正性を改善するための実現可能かつ効果的なアプローチを提供する。
しかし、プルーンのパラメータの最適部分集合を特定することは、LLMsの膨大なパラメータ空間における組合せ的課題を示し、モデルフェアネスとユーティリティのフロンティアで競合する目的を効率的にバランスさせるソリューションを必要とする。
計算課題に対処するため,ランダム化された擬似アニールを用いた探索型プログラム修復手法を提案する。
数十億パラメータのLLMにおける禁止的評価コストを考慮し、注目ヘッド状態(アクティブ/非アクティブ)とそれに対応するフェアネス/ユーティリティメトリクスの関係を効率的にモデル化するサーロゲートディープニューラルネットワークを開発した。
これにより、サロゲートモデルに対して最適化を行い、LLMパラメータ空間を直接探索するのではなく、選択的プルーニングのためのアテンションヘッドの最適部分集合を効率的に同定することができる。
本稿では,LLMにおけるアテンションヘッドに対するアテンション・プルーニング(アテンション・プルーニング)という,アテンション・プルーニング(アテンション・プルーニング)という,アテンション・プルーニング(アテンション・プルーニング)という,アテンション・プルーニング(アテンション・プルーニング)という手法を紹介した。
我々の実験によると、注意喚起は、性別バイアスの最大40\%の削減を実現し、最先端の偏見緩和戦略を上回ります。
関連論文リスト
- Efficient Self-Improvement in Multimodal Large Language Models: A Model-Level Judge-Free Approach [31.654345704242512]
本稿では,新しいモデルレベルの判断自由自己改善フレームワークを提案する。
本手法では,検証ループにおけるMLLMの必要性を解消しつつ,制御されたフィードバック機構を用いる。
計算要求が大幅に小さく、精度とリコールの精度が向上する。
論文 参考訳(メタデータ) (2024-11-26T00:44:37Z) - A Little Help Goes a Long Way: Efficient LLM Training by Leveraging Small LMs [74.35290684163718]
大規模言語モデル(LLM)開発における最大の課題は、その面倒な事前トレーニングコストである。
本稿では,小言語モデル(SLM)を活用して,LLMの事前学習効率と品質を改善するための有望なパラダイムについて検討する。
論文 参考訳(メタデータ) (2024-10-24T14:31:52Z) - A Multi-LLM Debiasing Framework [85.17156744155915]
大規模言語モデル(LLM)は、社会に多大な利益をもたらす可能性がある強力なツールであるが、社会的不平等を持続するバイアスを示す。
近年,マルチLLM手法への関心が高まっており,推論の質向上に有効であることが示されている。
LLMのバイアス低減を目的としたマルチLLMデバイアスフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-20T20:24:50Z) - The Ultimate Guide to Fine-Tuning LLMs from Basics to Breakthroughs: An Exhaustive Review of Technologies, Research, Best Practices, Applied Research Challenges and Opportunities [0.35998666903987897]
本稿では,Large Language Models (LLM) の微調整について検討する。
従来の自然言語処理(NLP)モデルから、AIにおける彼らの重要な役割まで、LLMの歴史的進化を概説している。
本報告では, 微調整LDMのための構造化7段パイプラインについて紹介する。
論文 参考訳(メタデータ) (2024-08-23T14:48:02Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - On the Algorithmic Bias of Aligning Large Language Models with RLHF: Preference Collapse and Matching Regularization [33.331389392270665]
選好マッチング(PM) RLHF はBradley-Terry--Luce/Plackett--Luce モデルの下で、大きな言語モデルと報酬モデルの選好分布を整合させる新しいアプローチである。
我々のアプローチの中心はPM正則化器であり、応答上の LLM のポリシー確率分布の負の対数の形を取る。
本稿では,自然言語生成に適した条件付きPM RLHFを提案する。
論文 参考訳(メタデータ) (2024-05-26T07:00:05Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Causal Prompting: Debiasing Large Language Model Prompting based on Front-Door Adjustment [32.12998469814097]
大規模言語モデル(LLM)のバイアスを効果的に軽減するために,正面調整に基づく新たな因果的プロンプト手法を提案する。
実験結果から,提案手法は7つの自然言語処理データセットにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-03-05T07:47:34Z) - Adapting LLMs for Efficient, Personalized Information Retrieval: Methods
and Implications [0.7832189413179361]
LLM(Large Language Models)は、人間に似たテキストの理解と生成に優れた言語モデルである。
本稿では,言語モデル(LLM)と情報検索(IR)システムの統合戦略について検討する。
論文 参考訳(メタデータ) (2023-11-21T02:01:01Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。