論文の概要: Diagnosing the Performance Trade-off in Moral Alignment: A Case Study on Gender Stereotypes
- arxiv url: http://arxiv.org/abs/2509.21456v1
- Date: Thu, 25 Sep 2025 19:26:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:53.935922
- Title: Diagnosing the Performance Trade-off in Moral Alignment: A Case Study on Gender Stereotypes
- Title(参考訳): モラルアライメントにおけるパフォーマンストレードオフの診断:ジェンダーステレオタイプを事例として
- Authors: Guangliang Liu, Bocheng Chen, Xitong Zhang, Kristen Marie Johnson,
- Abstract要約: モーラルアライメントは、事前訓練された言語モデル(PLM)の振る舞いを制御するための広く採用されているアプローチとして登場した。
ジェンダーステレオタイプを緩和する文脈において,パフォーマンストレードオフの基盤となるメカニズムについて検討する。
- 参考スコア(独自算出の注目度): 9.264601359430799
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Moral alignment has emerged as a widely adopted approach for regulating the behavior of pretrained language models (PLMs), typically through fine-tuning or model editing on curated datasets. However, this process often comes at the cost of degraded downstream task performance. Prior studies commonly aim to achieve a performance trade-off by encouraging PLMs to selectively forget stereotypical knowledge through carefully designed fairness objectives, while preserving their helpfulness. In this short paper, we investigate the underlying mechanisms of the performance trade-off in the context of mitigating gender stereotypes, through the lens of forgetting and the fairness objective. Our analysis reveals the limitations of current fairness objective in achieving trade-off by demonstrating that: (1) downstream task performance is primarily driven by the overall forgetting level; (2) selective forgetting of stereotypes tends to increase overall forgetting; and (3) general solutions for mitigating forgetting are ineffective at reducing overall forgetting and fail to improve downstream task performance.
- Abstract(参考訳): モーラルアライメントは、訓練済み言語モデル(PLM)の振る舞いを制御するための広く採用されているアプローチとして現れており、典型的には、キュレートされたデータセットの微調整やモデル編集を通じてである。
しかし、このプロセスはダウンストリームタスクのパフォーマンスを低下させるコストがかかることが多い。
先行研究は, PLM が有効性を保ちつつ, 慎重に設計された公正な目的を通じて, ステレオタイプ的知識を選択的に忘れるように促すことによって, パフォーマンスのトレードオフを実現することを目的としていた。
本稿では,ジェンダーステレオタイプを緩和する文脈におけるパフォーマンストレードオフの根底にあるメカニズムを,忘れるレンズとフェアネス目標を用いて検討する。
本分析では,(1)ダウンストリームタスク性能は全般的忘れ度によって主に駆動されること,(2)ステレオタイプの選択的忘れ度は全体的な忘れ度を増大させる傾向があること,(3)全体的な忘れ度を減少させ,ダウンストリームタスク性能の改善に失敗する一般解が有効であることを示すことによって,トレードオフ達成における現在の公正度目標の限界を明らかにした。
関連論文リスト
- Intrinsic Meets Extrinsic Fairness: Assessing the Downstream Impact of Bias Mitigation in Large Language Models [11.396244643030983]
大規模言語モデル(LLM)は、下流のタスクに伝播する社会経済的バイアスを示す。
本研究では,非学習概念による内在バイアス緩和と,反事実データ拡張による外在バイアス緩和を比較するための統合評価フレームワークを提案する。
その結果,非学習による内在的偏見緩和は,内在性偏見を最大94.9%減少させるとともに,人口順等下流のタスクフェアネス指標を最大82%向上させ,精度を損なうことなく改善することを示した。
論文 参考訳(メタデータ) (2025-09-19T22:59:55Z) - Fair Deepfake Detectors Can Generalize [51.21167546843708]
共同設立者(データ分散とモデルキャパシティ)の制御により,公正な介入による一般化が向上することを示す。
この知見を応用して, 逆正当性重み付けとサブグループワイド特徴正規化を併用し, 新たなアライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・インセンティブ・インターベンション・インベンション・インテクション(DAID)を提案する。
DAIDは、いくつかの最先端技術と比較して、公平性と一般化の両方において一貫して優れた性能を達成する
論文 参考訳(メタデータ) (2025-07-03T14:10:02Z) - Identifying and Mitigating Social Bias Knowledge in Language Models [52.52955281662332]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Augmenting Unsupervised Reinforcement Learning with Self-Reference [63.68018737038331]
人間は、新しいタスクを学ぶ際に、過去の経験を明確に表現する能力を持っている。
本稿では,歴史情報を活用するためのアドオンモジュールとして,自己参照(SR)アプローチを提案する。
提案手法は,非教師付き強化学習ベンチマークにおけるIQM(Interquartile Mean)性能と最適ギャップ削減の両面から,最先端の成果を実現する。
論文 参考訳(メタデータ) (2023-11-16T09:07:34Z) - Continual Learners are Incremental Model Generalizers [70.34479702177988]
本稿では,継続学習モデル(CL)が事前学習者に与える影響を幅広く研究する。
その結果, 微調整性能が著しく低下することなく, 表現の伝達品質が徐々に向上することがわかった。
本稿では,下流タスクの解法において,リッチなタスクジェネリック表現を保存できる新しい微調整方式GLobal Attention Discretization(GLAD)を提案する。
論文 参考訳(メタデータ) (2023-06-21T05:26:28Z) - Model Debiasing via Gradient-based Explanation on Representation [14.673988027271388]
本稿では,デリケートな属性やプロキシな属性に関して,デバイアスを行う新しいフェアネスフレームワークを提案する。
我々のフレームワークは、過去の最先端のアプローチよりも、構造化されていないデータセットと構造化されたデータセットの公平性と正確なトレードオフを達成しています。
論文 参考訳(メタデータ) (2023-05-20T11:57:57Z) - Fairness and Explainability: Bridging the Gap Towards Fair Model
Explanations [12.248793742165278]
我々は、説明に基づく手続き指向公正の新たな視点を提示することにより、公正性と説明可能性のギャップを埋める。
本稿では,複数の目的を同時に達成する包括的公正性アルゴリズム (CFA) を提案する。
論文 参考訳(メタデータ) (2022-12-07T18:35:54Z) - Optimising Equal Opportunity Fairness in Model Training [60.0947291284978]
既存のデバイアス法、例えば、敵の訓練や、表現から保護された情報を取り除くことは、バイアスを減らすことが示されている。
2つの新たな学習目標を提案し,2つの分類課題における高い性能を維持しつつ,バイアスの低減に有効であることを示す。
論文 参考訳(メタデータ) (2022-05-05T01:57:58Z) - Ethical Adversaries: Towards Mitigating Unfairness with Adversarial
Machine Learning [8.436127109155008]
個人や組織は、モデルデザイナやデプロイ担当者が責任を持つように、不公平な結果に気付き、テストし、批判します。
トレーニングデータセットから生じる不公平な表現を緩和する上で,これらのグループを支援するフレームワークを提供する。
我々のフレームワークは公平性を改善するために2つの相互運用敵に依存している。
論文 参考訳(メタデータ) (2020-05-14T10:10:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。