論文の概要: BiasGym: Fantastic LLM Biases and How to Find (and Remove) Them
- arxiv url: http://arxiv.org/abs/2508.08855v2
- Date: Thu, 14 Aug 2025 17:57:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 13:42:23.64451
- Title: BiasGym: Fantastic LLM Biases and How to Find (and Remove) Them
- Title(参考訳): BiasGym:幻想的なLSMビアーズと、そのテーマを見つける(そして取り除く)方法
- Authors: Sekh Mainul Islam, Nadav Borenstein, Siddhesh Milind Pawar, Haeun Yu, Arnav Arora, Isabelle Augenstein,
- Abstract要約: BiasGymは、大規模言語モデル(LLM)内の概念的関連性を確実に注入し、分析し、緩和するためのフレームワークである。
BiasGymは2つのコンポーネントで構成されている。BiasInjectはトークンベースの微調整を通じてモデルに特定のバイアスを注入する。
提案手法は,機械的解析のための一貫したバイアス抽出を可能にし,下流タスクの性能低下を伴わずに目標デバイアス化をサポートし,トークンベースの微調整時に見つからないバイアスを一般化する。
- 参考スコア(独自算出の注目度): 38.80876158025777
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding biases and stereotypes encoded in the weights of Large Language Models (LLMs) is crucial for developing effective mitigation strategies. Biased behaviour is often subtle and non-trivial to isolate, even when deliberately elicited, making systematic analysis and debiasing particularly challenging. To address this, we introduce BiasGym, a simple, cost-effective, and generalizable framework for reliably injecting, analyzing, and mitigating conceptual associations within LLMs. BiasGym consists of two components: BiasInject, which injects specific biases into the model via token-based fine-tuning while keeping the model frozen, and BiasScope, which leverages these injected signals to identify and steer the components responsible for biased behavior. Our method enables consistent bias elicitation for mechanistic analysis, supports targeted debiasing without degrading performance on downstream tasks, and generalizes to biases unseen during token-based fine-tuning. We demonstrate the effectiveness of BiasGym in reducing real-world stereotypes (e.g., people from Italy being `reckless drivers') and in probing fictional associations (e.g., people from a fictional country having `blue skin'), showing its utility for both safety interventions and interpretability research.
- Abstract(参考訳): 大規模言語モデル(LLM)の重みに符号化されたバイアスやステレオタイプを理解することは、効果的な緩和戦略の開発に不可欠である。
バイアスされた行動は、しばしば微妙で、故意に誘発されたとしても孤立し、体系的な分析や偏見を特に困難にしている。
そこで我々は,LLM内の概念的関連性を確実に注入し,分析し,緩和する,シンプルで費用効率の良い,一般化可能なフレームワークであるBiasGymを紹介した。
BiasGymは2つのコンポーネントで構成されている。BiasInjectはトークンベースの微調整を通じてモデルに特定のバイアスを注入する。
提案手法は,機械的解析のための一貫したバイアス抽出を可能にし,下流タスクの性能低下を伴わずに目標デバイアス化をサポートし,トークンベースの微調整時に見つからないバイアスを一般化する。
本研究では,BiasGymが現実世界のステレオタイプ(例えば,イタリア出身者が「無謀運転者」)を減らし,フィクション協会(例えば,「青肌」を持つ架空の国出身者)の探究に有効であることを実証し,安全介入と解釈可能性研究の両方に有用であることを示す。
関連論文リスト
- Explicit vs. Implicit: Investigating Social Bias in Large Language Models through Self-Reflection [18.625071242029936]
大規模言語モデル(LLM)は、生成されたコンテンツに様々なバイアスとステレオタイプを示すことが示されている。
本稿では,LLMにおける明示的偏見と暗黙的偏見を調査・比較するための体系的枠組みを提案する。
論文 参考訳(メタデータ) (2025-01-04T14:08:52Z) - Towards Resource Efficient and Interpretable Bias Mitigation in Large Language Models [1.787433808079955]
大規模言語モデル (LLM) は、学習データにおいて望ましくないバイアスを持続させる。
本稿では,小さなバイアスとアンチバイアスのエキスパートモデルを利用してバイアスを緩和し,デバイアス信号を得る。
性別、人種、宗教の偏見を緩和する実験は、いくつかの地域および世界的な偏見指標に偏見を減少させる。
論文 参考訳(メタデータ) (2024-12-02T16:56:08Z) - Bias-Conflict Sample Synthesis and Adversarial Removal Debias Strategy
for Temporal Sentence Grounding in Video [67.24316233946381]
TSGV(Temporal Sentence Grounding in Video)は、データセットバイアスの問題に悩まされている。
偏りを伴うサンプル合成と逆行性除去脱バイアス戦略(BSSARD)を提案する。
論文 参考訳(メタデータ) (2024-01-15T09:59:43Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z) - Learning Debiased Models with Dynamic Gradient Alignment and
Bias-conflicting Sample Mining [39.00256193731365]
ディープニューラルネットワークは、堅牢性、一般化、公正性をモデル化するのに有害なデータセットバイアスに悩まされている。
難解な未知のバイアスと戦うための2段階のデバイアス方式を提案する。
論文 参考訳(メタデータ) (2021-11-25T14:50:10Z) - Balancing out Bias: Achieving Fairness Through Training Reweighting [58.201275105195485]
自然言語処理におけるバイアスは、性別や人種などの著者の特徴を学習するモデルから生じる。
既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。
本稿では,インスタンス再重み付けを用いたバイアス対策法を提案する。
論文 参考訳(メタデータ) (2021-09-16T23:40:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。