論文の概要: KLAAD: Refining Attention Mechanisms to Reduce Societal Bias in Generative Language Models
- arxiv url: http://arxiv.org/abs/2507.19962v1
- Date: Sat, 26 Jul 2025 14:24:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:56.559725
- Title: KLAAD: Refining Attention Mechanisms to Reduce Societal Bias in Generative Language Models
- Title(参考訳): KLAAD:生成言語モデルにおける社会バイアス低減のための注意機構の解明
- Authors: Seorin Kim, Dongyoung Lee, Jaejin Lee,
- Abstract要約: 大規模言語モデル(LLM)は、しばしばアウトプットに社会的偏見を示し、公正さと害に関する倫理的懸念を引き起こす。
KLAAD(KL-Attention Alignment Debiasing)は,ステレオタイプと反ステレオタイプ文ペア間の注意分布を暗黙的に整列する,注意に基づく脱バイアスフレームワークである。
KLAADの実験的評価は、BBQとBOLDのベンチマークにおけるバイアス軽減の改善を示し、言語モデリングの品質に最小限の影響を与える。
- 参考スコア(独自算出の注目度): 1.649505438157608
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) often exhibit societal biases in their outputs, prompting ethical concerns regarding fairness and harm. In this work, we propose KLAAD (KL-Attention Alignment Debiasing), an attention-based debiasing framework that implicitly aligns attention distributions between stereotypical and anti-stereotypical sentence pairs without directly modifying model weights. KLAAD introduces a composite training objective combining Cross-Entropy, KL divergence, and Triplet losses, guiding the model to consistently attend across biased and unbiased contexts while preserving fluency and coherence. Experimental evaluation of KLAAD demonstrates improved bias mitigation on both the BBQ and BOLD benchmarks, with minimal impact on language modeling quality. The results indicate that attention-level alignment offers a principled solution for mitigating bias in generative language models.
- Abstract(参考訳): 大規模言語モデル(LLM)は、しばしばアウトプットに社会的偏見を示し、公正さと害に関する倫理的懸念を引き起こす。
そこで本研究では, モデル重みを直接修正することなく, ステレオタイプと反ステレオタイプ文ペア間の注意分布を暗黙的に調整する, 注意に基づく脱バイアスフレームワーク KLAAD (KL-Attention Alignment Debiasing) を提案する。
KLAADは、クロスエントロピー、KL分岐、トリプルト損失を組み合わせた複合的なトレーニング目標を導入し、流布とコヒーレンスを保ちながらバイアスやバイアスのないコンテキストに一貫して参加するようモデルに誘導する。
KLAADの実験的評価は、BBQとBOLDのベンチマークにおけるバイアス軽減の改善を示し、言語モデリングの品質に最小限の影響を与える。
その結果、注意レベルアライメントは、生成言語モデルにおけるバイアスを軽減するための原則的解決策であることが示された。
関連論文リスト
- Mitigating Spurious Correlations in LLMs via Causality-Aware Post-Training [57.03005244917803]
大規模言語モデル (LLMs) は、事前学習中に得られた素早い相関関係により、アウト・オブ・ディストリビューション (OOD) のサンプルで失敗することが多い。
ここでは、因果認識後学習(CAPT)を通して、このような素因的相関を緩和することを目的とする。
公式因果推論ベンチマークCLadderと論理推論データセットPrOntoQAの実験により、CAPTで微調整された3Bスケールの言語モデルでは、従来のSFTおよびより大きなLLMを分散処理(ID)およびOODタスクで上回る結果が得られた。
論文 参考訳(メタデータ) (2025-06-11T06:30:28Z) - Class-Conditional Distribution Balancing for Group Robust Classification [11.525201208566925]
間違った理由からモデルが正しい予測に導かれるような豪華な相関関係は、堅牢な現実世界の一般化にとって重要な課題である。
クラス-条件分布における不均衡やミスマッチとして、突発的な相関を緩和することで、新しい視点を提供する。
本稿では,バイアスアノテーションと予測の両方を必要としない,シンプルで効果的な頑健な学習手法を提案する。
論文 参考訳(メタデータ) (2025-04-24T07:15:53Z) - A Causal Adjustment Module for Debiasing Scene Graph Generation [28.44150555570101]
我々は、歪んだ分布間の因果関係をモデル化するために因果推論技術を用いる。
提案手法により,ゼロショット関係の合成が可能となり,そのような関係を認識できるモデルの性能が向上する。
論文 参考訳(メタデータ) (2025-03-22T20:44:01Z) - Rethinking Relation Extraction: Beyond Shortcuts to Generalization with a Debiased Benchmark [53.876493664396506]
ベンチマークは、機械学習アルゴリズムのパフォーマンスの評価、比較の促進、優れたソリューションの特定に不可欠である。
本稿では,関係抽出タスクにおけるエンティティバイアスの問題に対処する。
本稿では,エンティティの代替によって,エンティティ参照と関係型との擬似相関を破る不偏関係抽出ベンチマークDREBを提案する。
DREBの新たなベースラインを確立するために,データレベルとモデルトレーニングレベルを組み合わせたデバイアス手法であるMixDebiasを導入する。
論文 参考訳(メタデータ) (2025-01-02T17:01:06Z) - Bias Begets Bias: The Impact of Biased Embeddings on Diffusion Models [0.0]
テキスト・トゥ・イメージ(TTI)システムは、社会的偏見に対する精査が増加している。
組込み空間をTTIモデルのバイアス源として検討する。
CLIPのような偏りのあるマルチモーダル埋め込みは、表現バランスの取れたTTIモデルに対して低いアライメントスコアをもたらす。
論文 参考訳(メタデータ) (2024-09-15T01:09:55Z) - Identifying and Mitigating Social Bias Knowledge in Language Models [52.52955281662332]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - How robust are pre-trained models to distribution shift? [82.08946007821184]
自己教師付き学習(SSL)と自己エンコーダベースモデル(AE)の相互関係が相互関係に与える影響を示す。
本研究では, 線形ヘッドの潜在バイアスから事前学習したモデルの性能を分離するために, アウト・オブ・ディストリビューション(OOD)データに基づいて訓練された線形ヘッドを用いた新しい評価手法を開発した。
論文 参考訳(メタデータ) (2022-06-17T16:18:28Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z) - Fairness by Explicability and Adversarial SHAP Learning [0.0]
本稿では,外部監査役の役割とモデル説明可能性を強調するフェアネスの新たな定義を提案する。
逆代理モデルのSHAP値から構築した正規化を用いてモデルバイアスを緩和するフレームワークを開発する。
合成データセット、UCIアダルト(国勢調査)データセット、実世界の信用評価データセットである。
論文 参考訳(メタデータ) (2020-03-11T14:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。