Fugu-MT 論文翻訳(概要): Attention Pruning: Automated Fairness Repair of Language Models via Surrogate Simulated Annealing

論文の概要: Attention Pruning: Automated Fairness Repair of Language Models via Surrogate Simulated Annealing

arxiv url: http://arxiv.org/abs/2503.15815v1
Date: Thu, 20 Mar 2025 03:02:32 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-21 15:30:52.240189
Title: Attention Pruning: Automated Fairness Repair of Language Models via Surrogate Simulated Annealing
Title（参考訳）: アテンション・プルーニング:サロゲート・シミュレート・アニーリングによる言語モデルの自動フェアネス修復
Authors: Vishnu Asutosh Dasu, Md Rafi ur Rashid, Vipul Gupta, Saeid Tizpaz-Niari, Gang Tan,
Abstract要約: 本稿では,大規模言語モデル (LLM) におけるアテンションヘッドに対するアテンション・プルーニング(Attention Pruning) を提案する。我々の実験は、注意喚起によって最大40%の性別バイアスが減少し、最先端のバイアス緩和戦略よりも優れることを示した。
参考スコア（独自算出の注目度）: 14.114970711442512
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper explores pruning attention heads as a post-processing bias mitigation method for large language models (LLMs). Modern AI systems such as LLMs are expanding into sensitive social contexts where fairness concerns become especially crucial. Since LLMs develop decision-making patterns by training on massive datasets of human-generated content, they naturally encode and perpetuate societal biases. While modifying training datasets and algorithms is expensive and requires significant resources; post-processing techniques-such as selectively deactivating neurons and attention heads in pre-trained LLMs-can provide feasible and effective approaches to improve fairness. However, identifying the optimal subset of parameters to prune presents a combinatorial challenge within LLMs' immense parameter space, requiring solutions that efficiently balance competing objectives across the frontiers of model fairness and utility. To address the computational challenges, we explore a search-based program repair approach via randomized simulated annealing. Given the prohibitive evaluation costs in billion-parameter LLMs, we develop surrogate deep neural networks that efficiently model the relationship between attention head states (active/inactive) and their corresponding fairness/utility metrics. This allows us to perform optimization over the surrogate models and efficiently identify optimal subsets of attention heads for selective pruning rather than directly searching through the LLM parameter space. This paper introduces Attention Pruning, a fairness-aware surrogate simulated annealing approach to prune attention heads in LLMs that disproportionately contribute to bias while minimally impacting overall model utility. Our experiments show that Attention Pruning achieves up to $40\%$ reduction in gender bias and outperforms the state-of-the-art bias mitigation strategies.
Abstract（参考訳）: 本稿では,大規模言語モデル(LLM)の処理後バイアス軽減手法として,プルーニングアテンションヘッドについて検討する。 LLMのような現代のAIシステムは、公平性に関する懸念が特に重要になるような、センシティブな社会的文脈に拡張されている。 LLMは、人間の生成したコンテンツの大量のデータセットをトレーニングすることで意思決定パターンを発達させるため、自然に社会的バイアスをエンコードし、永続する。トレーニングデータセットとアルゴリズムの変更は高価であり、重要なリソースを必要とする。事前訓練されたLSMにおける神経細胞や注意ヘッドの選択的な非活性化のような後処理技術は、公正性を改善するための実現可能かつ効果的なアプローチを提供する。しかし、プルーンのパラメータの最適部分集合を特定することは、LLMsの膨大なパラメータ空間における組合せ的課題を示し、モデルフェアネスとユーティリティのフロンティアで競合する目的を効率的にバランスさせるソリューションを必要とする。計算課題に対処するため,ランダム化された擬似アニールを用いた探索型プログラム修復手法を提案する。数十億パラメータのLLMにおける禁止的評価コストを考慮し、注目ヘッド状態(アクティブ/非アクティブ)とそれに対応するフェアネス/ユーティリティメトリクスの関係を効率的にモデル化するサーロゲートディープニューラルネットワークを開発した。これにより、サロゲートモデルに対して最適化を行い、LLMパラメータ空間を直接探索するのではなく、選択的プルーニングのためのアテンションヘッドの最適部分集合を効率的に同定することができる。本稿では,LLMにおけるアテンションヘッドに対するアテンション・プルーニング(アテンション・プルーニング)という,アテンション・プルーニング(アテンション・プルーニング)という,アテンション・プルーニング(アテンション・プルーニング)という,アテンション・プルーニング(アテンション・プルーニング)という手法を紹介した。我々の実験によると、注意喚起は、性別バイアスの最大40\%の削減を実現し、最先端の偏見緩和戦略を上回ります。

関連論文リスト

Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文参考訳（メタデータ） (2025-07-26T07:53:11Z)
Advances in LLMs with Focus on Reasoning, Adaptability, Efficiency and Ethics [0.46174569259495524]
本稿では,Large Language Models(LLMs)の分野における重要な展開について概説する。人間と機械のコミュニケーションのギャップを埋めるのに最も効果的なテクニックには、Chain-of-Thought prompting、Instruction Tuning、Reinforcement Learning from Human Feedbackなどがある。効率性、スケーリング戦略、最適化テクニック、および影響力のあるMixture-of-Experts(MoE)アーキテクチャについて、重要な焦点が当てられている。
論文参考訳（メタデータ） (2025-06-14T05:55:19Z)
Modality-Balancing Preference Optimization of Large Multimodal Models by Adversarial Negative Mining [66.54211199959298]
LMMにおけるモダリティの不均衡に対処するため、新しい選好学習フレームワークMBPOを提案する。 MBPOは、強い負の反応、すなわちLLMバイアスによって誤った反応を生成することによって、より効果的なオフライン嗜好データセットを構築する。視覚言語課題におけるLMM性能を高め、幻覚を効果的に軽減することができる。
論文参考訳（メタデータ） (2025-05-20T03:59:05Z)
Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文参考訳（メタデータ） (2025-05-13T16:47:00Z)
LENSLLM: Unveiling Fine-Tuning Dynamics for LLM Selection [11.353302879735862]
オープンソースのLarge Language Models (LLM) と様々な下流タスクは効率的なモデル選択を必要とする。 LLMの一般化能力を評価するための適切なレンズを提供する新しい理論フレームワークを提案する。特に, LLMの微調整ダイナミクスを明らかにするPAC-Bayesian Generalization Boundを導出する。次に,ニューラルタンジェントカーネル(NTK)をベースとしたRectified Scaling ModelであるLENSLLMを紹介し,正確な性能予測を実現する。
論文参考訳（メタデータ） (2025-05-01T15:07:32Z)
R-Sparse: Rank-Aware Activation Sparsity for Efficient LLM Inference [77.47238561728459]
R-スパース(R-Sparse)は、高度なLCMにおいて高い疎度を達成できる訓練不要なアクティベーション・スパシティ・アプローチである。 10種類のタスクにわたるLlama-2/3およびMistralモデルの実験は、R-Sparseが50%のモデルレベルの間隔で同等のパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2025-04-28T03:30:32Z)
Efficient Self-Improvement in Multimodal Large Language Models: A Model-Level Judge-Free Approach [31.654345704242512]
本稿では,新しいモデルレベルの判断自由自己改善フレームワークを提案する。本手法では,検証ループにおけるMLLMの必要性を解消しつつ,制御されたフィードバック機構を用いる。計算要求が大幅に小さく、精度とリコールの精度が向上する。
論文参考訳（メタデータ） (2024-11-26T00:44:37Z)
A Little Help Goes a Long Way: Efficient LLM Training by Leveraging Small LMs [74.35290684163718]
大規模言語モデル(LLM)開発における最大の課題は、その面倒な事前トレーニングコストである。本稿では,小言語モデル(SLM)を活用して,LLMの事前学習効率と品質を改善するための有望なパラダイムについて検討する。
論文参考訳（メタデータ） (2024-10-24T14:31:52Z)
A Multi-LLM Debiasing Framework [85.17156744155915]
大規模言語モデル(LLM)は、社会に多大な利益をもたらす可能性がある強力なツールであるが、社会的不平等を持続するバイアスを示す。近年,マルチLLM手法への関心が高まっており,推論の質向上に有効であることが示されている。 LLMのバイアス低減を目的としたマルチLLMデバイアスフレームワークを提案する。
論文参考訳（メタデータ） (2024-09-20T20:24:50Z)
The Ultimate Guide to Fine-Tuning LLMs from Basics to Breakthroughs: An Exhaustive Review of Technologies, Research, Best Practices, Applied Research Challenges and Opportunities [0.35998666903987897]
本稿では,Large Language Models (LLM) の微調整について検討する。従来の自然言語処理(NLP)モデルから、AIにおける彼らの重要な役割まで、LLMの歴史的進化を概説している。本報告では, 微調整LDMのための構造化7段パイプラインについて紹介する。
論文参考訳（メタデータ） (2024-08-23T14:48:02Z)
Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-05-29T17:59:07Z)
On the Algorithmic Bias of Aligning Large Language Models with RLHF: Preference Collapse and Matching Regularization [33.331389392270665]
選好マッチング(PM) RLHF はBradley-Terry--Luce/Plackett--Luce モデルの下で、大きな言語モデルと報酬モデルの選好分布を整合させる新しいアプローチである。我々のアプローチの中心はPM正則化器であり、応答上の LLM のポリシー確率分布の負の対数の形を取る。本稿では,自然言語生成に適した条件付きPM RLHFを提案する。
論文参考訳（メタデータ） (2024-05-26T07:00:05Z)
Illuminating Blind Spots of Language Models with Targeted Agent-in-the-Loop Synthetic Data [9.982616173090264]
言語モデル(LM)は、様々なタスクにおいて顕著な精度を達成したが、高信頼の誤分類(UU)に弱いままである。 UUは機能領域の盲点にクラスタ化され、ハイリスクなアプリケーションに重大なリスクをもたらす。知的エージェントを教師として利用し,UU型エラーを特徴付けることによって,盲点緩和に対処する新しい手法を提案する。
論文参考訳（メタデータ） (2024-03-26T16:49:25Z)
Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文参考訳（メタデータ） (2024-03-08T12:35:07Z)
Causal Prompting: Debiasing Large Language Model Prompting based on Front-Door Adjustment [32.12998469814097]
大規模言語モデル(LLM)のバイアスを効果的に軽減するために,正面調整に基づく新たな因果的プロンプト手法を提案する。実験結果から,提案手法は7つの自然言語処理データセットにおいて優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-03-05T07:47:34Z)
Adapting LLMs for Efficient, Personalized Information Retrieval: Methods and Implications [0.7832189413179361]
LLM(Large Language Models)は、人間に似たテキストの理解と生成に優れた言語モデルである。本稿では,言語モデル(LLM)と情報検索(IR)システムの統合戦略について検討する。
論文参考訳（メタデータ） (2023-11-21T02:01:01Z)
From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文参考訳（メタデータ） (2023-08-23T09:45:29Z)
Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。 DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-05-29T17:57:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。