論文の概要: Addressing Stereotypes in Large Language Models: A Critical Examination and Mitigation
- arxiv url: http://arxiv.org/abs/2511.21711v1
- Date: Tue, 18 Nov 2025 05:43:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.352345
- Title: Addressing Stereotypes in Large Language Models: A Critical Examination and Mitigation
- Title(参考訳): 大規模言語モデルにおけるステレオタイプへの対処 : 批判的検証と緩和
- Authors: Fatima Kazi,
- Abstract要約: 自然言語処理(NLP)の発展に伴い,近年,大規模言語モデル (LLM) が普及している。
本研究は, 生成人工知能(AI)の増大に伴い, LLMのバイアスに対処する必要があることを調査し, 強調する。
我々は, StereoSet や CrowSPairs などのバイアス特異的なベンチマークを用いて,BERT や GPT 3.5,ADA など,様々な世代モデルにおける様々なバイアスの存在を評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language models (LLMs), such as ChatGPT, have gained popularity in recent years with the advancement of Natural Language Processing (NLP), with use cases spanning many disciplines and daily lives as well. LLMs inherit explicit and implicit biases from the datasets they were trained on; these biases can include social, ethical, cultural, religious, and other prejudices and stereotypes. It is important to comprehensively examine such shortcomings by identifying the existence and extent of such biases, recognizing the origin, and attempting to mitigate such biased outputs to ensure fair outputs to reduce harmful stereotypes and misinformation. This study inspects and highlights the need to address biases in LLMs amid growing generative Artificial Intelligence (AI). We utilize bias-specific benchmarks such StereoSet and CrowSPairs to evaluate the existence of various biases in many different generative models such as BERT, GPT 3.5, and ADA. To detect both explicit and implicit biases, we adopt a three-pronged approach for thorough and inclusive analysis. Results indicate fine-tuned models struggle with gender biases but excel at identifying and avoiding racial biases. Our findings also illustrated that despite some cases of success, LLMs often over-rely on keywords in prompts and its outputs. This demonstrates the incapability of LLMs to attempt to truly understand the accuracy and authenticity of its outputs. Finally, in an attempt to bolster model performance, we applied an enhancement learning strategy involving fine-tuning, models using different prompting techniques, and data augmentation of the bias benchmarks. We found fine-tuned models to exhibit promising adaptability during cross-dataset testing and significantly enhanced performance on implicit bias benchmarks, with performance gains of up to 20%.
- Abstract(参考訳): ChatGPTのような大規模言語モデル(LLM)は、近年、自然言語処理(NLP)の進歩によって、多くの分野や日常生活にまたがるユースケースで人気を集めている。
これらのバイアスには社会的、倫理的、文化的、宗教的、その他の偏見やステレオタイプが含まれる。
バイアスの存在と範囲を特定し、原点を認識し、有害なステレオタイプや誤情報を減らすための公平なアウトプットを確保するために、バイアスのあるアウトプットを緩和しようとすることで、このような欠点を包括的に検証することが重要である。
本研究は, 生成人工知能(AI)の増大に伴い, LLMのバイアスに対処する必要があることを調査し, 強調する。
我々は, StereoSet や CrowSPairs などのバイアス特異的なベンチマークを用いて,BERT や GPT 3.5,ADA などの様々な生成モデルにおける様々なバイアスの存在を評価する。
明示的偏見と暗黙的偏見の両方を検出するために,包括的・包括的分析に3段階のアプローチを採用する。
結果は、微調整されたモデルは性別バイアスに苦しむが、人種バイアスを特定し、避けることに長けていることを示している。
また,いくつかの成功例にもかかわらず,LLMはプロンプトやアウトプットのキーワードを過度に頼っていることが示唆された。
このことは、LLMが出力の精度と信頼性を真に理解しようとしないことを示す。
最後に、モデル性能を高めるために、微調整、異なるプロンプト技術を用いたモデル、バイアスベンチマークのデータ強化を含む強化学習戦略を適用した。
我々は、データセット間のテスト中に有望な適応性を示す微調整されたモデルを発見し、暗黙のバイアスベンチマークでパフォーマンスを大幅に向上し、パフォーマンスは最大20%向上した。
関連論文リスト
- A Comprehensive Study of Implicit and Explicit Biases in Large Language Models [1.0555164678638427]
この研究は、生成的AIが増大する中で、大規模言語モデルにおけるバイアスに対処する必要があることを強調する。
我々は, StereoSet や CrowSPairs などのバイアス特異的ベンチマークを用いて,BERT や GPT 3.5 といった複数の生成モデルにおける様々なバイアスの存在を評価する。
その結果、微調整されたモデルでは性別バイアスに悩まされるが、人種バイアスの特定と回避には優れていた。
論文 参考訳(メタデータ) (2025-11-18T05:27:17Z) - Breaking the Benchmark: Revealing LLM Bias via Minimal Contextual Augmentation [12.56588481992456]
大規模言語モデルは、その表現と振舞いにステレオタイプ的バイアスを示すことが示されている。
3つのプラグ・アンド・プレイステップを含む,新規で汎用的な拡張フレームワークを提案する。
大規模言語モデルは入力の摂動に影響を受けやすいことが分かり、ステレオタイプに振る舞う可能性が高くなる。
論文 参考訳(メタデータ) (2025-10-27T23:05:12Z) - Detecting and Mitigating Bias in LLMs through Knowledge Graph-Augmented Training [2.8402080392117757]
本研究では,大規模言語モデルにおけるバイアスを軽減する新しい手法として,知識グラフ強化訓練(KGAT)について検討する。
バイアスアセスメントのためのパブリックデータセットには、Gender Shades、Bias in Bios、FairFaceがある。
また、バイアス付き関連を補正するためのターゲット緩和戦略も実施し、バイアス付きアウトプットの大幅な低下とバイアス指標の改善につながった。
論文 参考訳(メタデータ) (2025-04-01T00:27:50Z) - On Fairness of Unified Multimodal Large Language Model for Image Generation [19.122441856516215]
最新のU-MLLMをベンチマークした結果、ほとんどの場合、性別や人種バイアスなど、大きな人口統計バイアスが示されることがわかった。
我々の分析は、偏見は主に言語モデルに由来することを示している。
本稿では、人口分布と合成データとのバランスをとるために、新しいバランスの取れた選好モデルを提案する。
論文 参考訳(メタデータ) (2025-02-05T18:21:03Z) - How far can bias go? -- Tracing bias from pretraining data to alignment [54.51310112013655]
本研究では, 事前学習データにおける性別占有バイアスと, LLMにおける性別占有バイアスの相関について検討した。
その結果,事前学習データに存在するバイアスがモデル出力に増幅されることが判明した。
論文 参考訳(メタデータ) (2024-11-28T16:20:25Z) - Identifying and Mitigating Social Bias Knowledge in Language Models [52.52955281662332]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - The African Woman is Rhythmic and Soulful: An Investigation of Implicit Biases in LLM Open-ended Text Generation [3.9945212716333063]
大規模言語モデル(LLM)による決定に影響を与えるため、暗黙のバイアスは重要である。
伝統的に、明示的なバイアステストや埋め込みベースの手法はバイアスを検出するために使用されるが、これらのアプローチはより微妙で暗黙的なバイアスの形式を見落としることができる。
提案手法は, 暗黙の偏見を明らかにするために, 即発的, 意思決定的タスクによる2つの新しい心理学的手法を導入している。
論文 参考訳(メタデータ) (2024-07-01T13:21:33Z) - VLBiasBench: A Comprehensive Benchmark for Evaluating Bias in Large Vision-Language Model [72.13121434085116]
我々は、LVLM(Large Vision-Language Models)におけるバイアスを評価するベンチマークであるVLBiasBenchを紹介する。
VLBiasBenchは、年齢、障害ステータス、性別、国籍、身体的外観、人種、宗教、職業、社会経済ステータスを含む9つの異なる社会バイアスのカテゴリを含むデータセットと、人種x性別と人種x社会経済ステータスの2つの交叉バイアスのカテゴリを含む。
15のオープンソースモデルと2つの高度なクローズドソースモデルに対して広範な評価を行い、これらのモデルに存在するバイアスに関する新たな洞察を得る。
論文 参考訳(メタデータ) (2024-06-20T10:56:59Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - Causally Testing Gender Bias in LLMs: A Case Study on Occupational Bias [33.99768156365231]
生成言語モデルにおけるバイアス測定のための因果的定式化を導入する。
我々はOccuGenderというベンチマークを提案し、職業性バイアスを調査するためのバイアス測定手法を提案する。
以上の結果から,これらのモデルでは職業性バイアスがかなり大きいことが示唆された。
論文 参考訳(メタデータ) (2022-12-20T22:41:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。