論文の概要: BiasGym: Fantastic LLM Biases and How to Find (and Remove) Them
- arxiv url: http://arxiv.org/abs/2508.08855v2
- Date: Thu, 14 Aug 2025 17:57:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 13:42:23.64451
- Title: BiasGym: Fantastic LLM Biases and How to Find (and Remove) Them
- Title(参考訳): BiasGym:幻想的なLSMビアーズと、そのテーマを見つける(そして取り除く)方法
- Authors: Sekh Mainul Islam, Nadav Borenstein, Siddhesh Milind Pawar, Haeun Yu, Arnav Arora, Isabelle Augenstein,
- Abstract要約: BiasGymは、大規模言語モデル(LLM)内の概念的関連性を確実に注入し、分析し、緩和するためのフレームワークである。
BiasGymは2つのコンポーネントで構成されている。BiasInjectはトークンベースの微調整を通じてモデルに特定のバイアスを注入する。
提案手法は,機械的解析のための一貫したバイアス抽出を可能にし,下流タスクの性能低下を伴わずに目標デバイアス化をサポートし,トークンベースの微調整時に見つからないバイアスを一般化する。
- 参考スコア(独自算出の注目度): 38.80876158025777
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding biases and stereotypes encoded in the weights of Large Language Models (LLMs) is crucial for developing effective mitigation strategies. Biased behaviour is often subtle and non-trivial to isolate, even when deliberately elicited, making systematic analysis and debiasing particularly challenging. To address this, we introduce BiasGym, a simple, cost-effective, and generalizable framework for reliably injecting, analyzing, and mitigating conceptual associations within LLMs. BiasGym consists of two components: BiasInject, which injects specific biases into the model via token-based fine-tuning while keeping the model frozen, and BiasScope, which leverages these injected signals to identify and steer the components responsible for biased behavior. Our method enables consistent bias elicitation for mechanistic analysis, supports targeted debiasing without degrading performance on downstream tasks, and generalizes to biases unseen during token-based fine-tuning. We demonstrate the effectiveness of BiasGym in reducing real-world stereotypes (e.g., people from Italy being `reckless drivers') and in probing fictional associations (e.g., people from a fictional country having `blue skin'), showing its utility for both safety interventions and interpretability research.
- Abstract(参考訳): 大規模言語モデル(LLM)の重みに符号化されたバイアスやステレオタイプを理解することは、効果的な緩和戦略の開発に不可欠である。
バイアスされた行動は、しばしば微妙で、故意に誘発されたとしても孤立し、体系的な分析や偏見を特に困難にしている。
そこで我々は,LLM内の概念的関連性を確実に注入し,分析し,緩和する,シンプルで費用効率の良い,一般化可能なフレームワークであるBiasGymを紹介した。
BiasGymは2つのコンポーネントで構成されている。BiasInjectはトークンベースの微調整を通じてモデルに特定のバイアスを注入する。
提案手法は,機械的解析のための一貫したバイアス抽出を可能にし,下流タスクの性能低下を伴わずに目標デバイアス化をサポートし,トークンベースの微調整時に見つからないバイアスを一般化する。
本研究では,BiasGymが現実世界のステレオタイプ(例えば,イタリア出身者が「無謀運転者」)を減らし,フィクション協会(例えば,「青肌」を持つ架空の国出身者)の探究に有効であることを実証し,安全介入と解釈可能性研究の両方に有用であることを示す。
関連論文リスト
- Making Bias Non-Predictive: Training Robust LLM Judges via Reinforcement Learning [91.8584139564909]
大規模言語モデル(LLM)は、ますます自動化された審査員として機能するが、認知バイアスの影響を受けやすいままである。
本稿では,重要原則に基づく強化学習フレームワークである疫学独立訓練(EIT)を提案する。
EITはバランスの取れた競合戦略を通じてこれを運用します。
論文 参考訳(メタデータ) (2026-02-02T01:43:48Z) - No Free Lunch in Language Model Bias Mitigation? Targeted Bias Reduction Can Exacerbate Unmitigated LLM Biases [6.184434080778806]
大規模言語モデル(LLM)は、トレーニングデータから社会的バイアスを継承し、有害または不公平なアウトプットにつながる可能性がある。
7つのモデルファミリーから10種類のモデルに適用された4つのバイアス緩和手法について検討し,人種的,宗教的,職業的,性的なバイアスについて検討した。
我々の結果は、標的緩和は意図した次元におけるバイアスを減少させることがあるが、意図しない結果や否定的な結果をもたらすことが多いことを一貫して示している。
論文 参考訳(メタデータ) (2025-11-23T22:21:18Z) - Explicit vs. Implicit: Investigating Social Bias in Large Language Models through Self-Reflection [18.625071242029936]
大規模言語モデル(LLM)は、生成されたコンテンツに様々なバイアスとステレオタイプを示すことが示されている。
本稿では,LLMにおける明示的偏見と暗黙的偏見を調査・比較するための体系的枠組みを提案する。
論文 参考訳(メタデータ) (2025-01-04T14:08:52Z) - Towards Resource Efficient and Interpretable Bias Mitigation in Large Language Models [1.787433808079955]
大規模言語モデル (LLM) は、学習データにおいて望ましくないバイアスを持続させる。
本稿では,小さなバイアスとアンチバイアスのエキスパートモデルを利用してバイアスを緩和し,デバイアス信号を得る。
性別、人種、宗教の偏見を緩和する実験は、いくつかの地域および世界的な偏見指標に偏見を減少させる。
論文 参考訳(メタデータ) (2024-12-02T16:56:08Z) - Identifying and Mitigating Social Bias Knowledge in Language Models [52.52955281662332]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - The African Woman is Rhythmic and Soulful: An Investigation of Implicit Biases in LLM Open-ended Text Generation [3.9945212716333063]
大規模言語モデル(LLM)による決定に影響を与えるため、暗黙のバイアスは重要である。
伝統的に、明示的なバイアステストや埋め込みベースの手法はバイアスを検出するために使用されるが、これらのアプローチはより微妙で暗黙的なバイアスの形式を見落としることができる。
提案手法は, 暗黙の偏見を明らかにするために, 即発的, 意思決定的タスクによる2つの新しい心理学的手法を導入している。
論文 参考訳(メタデータ) (2024-07-01T13:21:33Z) - Bias-Conflict Sample Synthesis and Adversarial Removal Debias Strategy
for Temporal Sentence Grounding in Video [67.24316233946381]
TSGV(Temporal Sentence Grounding in Video)は、データセットバイアスの問題に悩まされている。
偏りを伴うサンプル合成と逆行性除去脱バイアス戦略(BSSARD)を提案する。
論文 参考訳(メタデータ) (2024-01-15T09:59:43Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z) - Learning Debiased Models with Dynamic Gradient Alignment and
Bias-conflicting Sample Mining [39.00256193731365]
ディープニューラルネットワークは、堅牢性、一般化、公正性をモデル化するのに有害なデータセットバイアスに悩まされている。
難解な未知のバイアスと戦うための2段階のデバイアス方式を提案する。
論文 参考訳(メタデータ) (2021-11-25T14:50:10Z) - Balancing out Bias: Achieving Fairness Through Training Reweighting [58.201275105195485]
自然言語処理におけるバイアスは、性別や人種などの著者の特徴を学習するモデルから生じる。
既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。
本稿では,インスタンス再重み付けを用いたバイアス対策法を提案する。
論文 参考訳(メタデータ) (2021-09-16T23:40:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。