論文の概要: A Comprehensive Study of Implicit and Explicit Biases in Large Language Models
- arxiv url: http://arxiv.org/abs/2511.14153v1
- Date: Tue, 18 Nov 2025 05:27:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.954052
- Title: A Comprehensive Study of Implicit and Explicit Biases in Large Language Models
- Title(参考訳): 大規模言語モデルにおける暗黙的・明示的バイアスの包括的研究
- Authors: Fatima Kazi, Alex Young, Yash Inani, Setareh Rafatirad,
- Abstract要約: この研究は、生成的AIが増大する中で、大規模言語モデルにおけるバイアスに対処する必要があることを強調する。
我々は, StereoSet や CrowSPairs などのバイアス特異的ベンチマークを用いて,BERT や GPT 3.5 といった複数の生成モデルにおける様々なバイアスの存在を評価する。
その結果、微調整されたモデルでは性別バイアスに悩まされるが、人種バイアスの特定と回避には優れていた。
- 参考スコア(独自算出の注目度): 1.0555164678638427
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) inherit explicit and implicit biases from their training datasets. Identifying and mitigating biases in LLMs is crucial to ensure fair outputs, as they can perpetuate harmful stereotypes and misinformation. This study highlights the need to address biases in LLMs amid growing generative AI. We studied bias-specific benchmarks such as StereoSet and CrowSPairs to evaluate the existence of various biases in multiple generative models such as BERT and GPT 3.5. We proposed an automated Bias-Identification Framework to recognize various social biases in LLMs such as gender, race, profession, and religion. We adopted a two-pronged approach to detect explicit and implicit biases in text data. Results indicated fine-tuned models struggle with gender biases but excelled at identifying and avoiding racial biases. Our findings illustrated that despite having some success, LLMs often over-relied on keywords. To illuminate the capability of the analyzed LLMs in detecting implicit biases, we employed Bag-of-Words analysis and unveiled indications of implicit stereotyping within the vocabulary. To bolster the model performance, we applied an enhancement strategy involving fine-tuning models using prompting techniques and data augmentation of the bias benchmarks. The fine-tuned models exhibited promising adaptability during cross-dataset testing and significantly enhanced performance on implicit bias benchmarks, with performance gains of up to 20%.
- Abstract(参考訳): 大規模言語モデル(LLM)は、トレーニングデータセットから明示的で暗黙的なバイアスを継承する。
LLMのバイアスの特定と緩和は、有害なステレオタイプや誤報を永続させるため、公正な出力を確保するために不可欠である。
この研究は、ジェネレーティブAIが成長する中で、LLMのバイアスに対処する必要があることを強調する。
我々は, StereoSet や CrowSPairs などのバイアス特異的ベンチマークを用いて,BERT や GPT 3.5 といった複数の生成モデルにおける様々なバイアスの存在を評価する。
我々は、性別、人種、職業、宗教などのLLMにおける様々な社会的バイアスを認識するために、自動バイアス識別フレームワークを提案した。
我々はテキストデータの明示的偏見と暗黙的偏見を検出するために2段階のアプローチを採用した。
その結果、微調整されたモデルでは性別バイアスに悩まされるが、人種バイアスの特定と回避には優れていた。
その結果, LLMはいくつかの成功にもかかわらず, キーワードに頼りすぎていることが明らかとなった。
暗黙のバイアスを検出するために,分析したLLMの能力を照らすために,Bag-of-Words分析を用い,語彙内における暗黙のステレオタイピングの徴候を明らかにした。
モデル性能を高めるために,提案手法を用いた微調整モデルとバイアスベンチマークのデータ拡張手法を適用した。
微調整されたモデルでは、クロスデータセットテスト中に有望な適応性を示し、暗黙のバイアスベンチマークのパフォーマンスを大幅に向上し、パフォーマンスは最大20%向上した。
関連論文リスト
- No LLM is Free From Bias: A Comprehensive Study of Bias Evaluation in Large Language Models [0.9620910657090186]
大規模言語モデル(LLM)は、異なる自然言語理解と生成タスクの性能を高めている。
我々は,中小LLMの集合を用いてベンチマークを統一的に評価する。
バイアス検出タスクをバイアスの異なる側面で行うための5つのプロンプト手法を提案する。
その結果, 選択したLLMは, Phi-3.5Bモデルが最も偏りが少ないため, いずれか一方あるいは他方の偏りに悩まされることが示唆された。
論文 参考訳(メタデータ) (2025-03-15T03:58:14Z) - Explicit vs. Implicit: Investigating Social Bias in Large Language Models through Self-Reflection [18.625071242029936]
大規模言語モデル(LLM)は、生成されたコンテンツに様々なバイアスとステレオタイプを示すことが示されている。
本稿では,LLMにおける明示的偏見と暗黙的偏見を調査・比較するための体系的枠組みを提案する。
論文 参考訳(メタデータ) (2025-01-04T14:08:52Z) - How far can bias go? -- Tracing bias from pretraining data to alignment [54.51310112013655]
本研究では, 事前学習データにおける性別占有バイアスと, LLMにおける性別占有バイアスの相関について検討した。
その結果,事前学習データに存在するバイアスがモデル出力に増幅されることが判明した。
論文 参考訳(メタデータ) (2024-11-28T16:20:25Z) - Investigating Implicit Bias in Large Language Models: A Large-Scale Study of Over 50 LLMs [0.0]
大規模言語モデル(LLM)は幅広いタスクで採用されている。
最近の研究では、LLMは明示的な偏見評価をパスしても暗黙の偏見を抑えることができることが示されている。
この研究は、新しい言語モデルやより大きな言語モデルが自動的にバイアスを減らさないことを強調している。
論文 参考訳(メタデータ) (2024-10-13T03:43:18Z) - Identifying and Mitigating Social Bias Knowledge in Language Models [52.52955281662332]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。