論文の概要: GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models
- arxiv url: http://arxiv.org/abs/2312.06315v1
- Date: Mon, 11 Dec 2023 12:02:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 15:55:16.046265
- Title: GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models
- Title(参考訳): GPTBIAS:大規模言語モデルにおけるバイアス評価のための総合的フレームワーク
- Authors: Jiaxu Zhao, Meng Fang, Shirui Pan, Wenpeng Yin, Mykola Pechenizkiy
- Abstract要約: 大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 83.30078426829627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Warning: This paper contains content that may be offensive or upsetting.
There has been a significant increase in the usage of large language models
(LLMs) in various applications, both in their original form and through
fine-tuned adaptations. As a result, LLMs have gained popularity and are being
widely adopted by a large user community. However, one of the concerns with
LLMs is the potential generation of socially biased content. The existing
evaluation methods have many constraints, and their results exhibit a limited
degree of interpretability. In this work, we propose a bias evaluation
framework named GPTBIAS that leverages the high performance of LLMs (e.g.,
GPT-4 \cite{openai2023gpt4}) to assess bias in models. We also introduce
prompts called Bias Attack Instructions, which are specifically designed for
evaluating model bias. To enhance the credibility and interpretability of bias
evaluation, our framework not only provides a bias score but also offers
detailed information, including bias types, affected demographics, keywords,
reasons behind the biases, and suggestions for improvement. We conduct
extensive experiments to demonstrate the effectiveness and usability of our
bias evaluation framework.
- Abstract(参考訳): 警告: 本論文は攻撃的あるいは不安定なコンテンツを含んでいる。
様々なアプリケーションにおける大規模言語モデル(llm)の使用は、元の形式と微調整された適応によって大きく増加した。
その結果,LSMは普及し,大規模なユーザコミュニティで広く採用されている。
しかし、LSMsに関する懸念の1つは、社会的に偏りのあるコンテンツの潜在的発生である。
既存の評価手法には多くの制約があり、その結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性(例えば,GPT-4 \cite{openai2023gpt4})を利用してモデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
また,モデルバイアスを評価するために特別に設計されたバイアスアタック命令と呼ばれるプロンプトも導入する。
バイアス評価の信頼性と解釈性を高めるために, バイアススコアを提供するだけでなく, バイアスタイプ, 影響を受ける人口統計, キーワード, バイアスの背後にある理由, 改善提案などの詳細な情報を提供する。
偏見評価フレームワークの有効性とユーザビリティを実証するための広範な実験を行った。
関連論文リスト
- Explicit vs. Implicit: Investigating Social Bias in Large Language Models through Self-Reflection [5.800102484016876]
大規模言語モデル(LLM)は、生成されたコンテンツに様々なバイアスとステレオタイプを示すことが示されている。
本稿では, LLMにおける明示的, 暗黙的な偏見を解明するために, 社会心理学理論に基づく体系的枠組みを提案する。
論文 参考訳(メタデータ) (2025-01-04T14:08:52Z) - Towards Resource Efficient and Interpretable Bias Mitigation in Large Language Models [1.787433808079955]
大規模言語モデル (LLM) は、学習データにおいて望ましくないバイアスを持続させる。
本稿では,小さなバイアスとアンチバイアスのエキスパートモデルを利用してバイアスを緩和し,デバイアス信号を得る。
性別、人種、宗教の偏見を緩和する実験は、いくつかの地域および世界的な偏見指標に偏見を減少させる。
論文 参考訳(メタデータ) (2024-12-02T16:56:08Z) - Investigating Implicit Bias in Large Language Models: A Large-Scale Study of Over 50 LLMs [0.0]
大規模言語モデル(LLM)は幅広いタスクで採用されている。
最近の研究では、LLMは明示的な偏見評価をパスしても暗黙の偏見を抑えることができることが示されている。
この研究は、新しい言語モデルやより大きな言語モデルが自動的にバイアスを減らさないことを強調している。
論文 参考訳(メタデータ) (2024-10-13T03:43:18Z) - Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge [84.34545223897578]
多くの領域で優れているにもかかわらず、潜在的な問題は未解決のままであり、その信頼性と実用性の範囲を損なう。
提案手法は, LLM-as-a-Judgeにおける各種類のバイアスを定量化し, 解析する自動バイアス定量化フレームワークである。
当社の作業は、これらの問題に対処するステークホルダの必要性を強調し、LLM-as-a-Judgeアプリケーションで注意を喚起します。
論文 参考訳(メタデータ) (2024-10-03T17:53:30Z) - Unveiling and Mitigating Bias in Large Language Model Recommendations: A Path to Fairness [3.5297361401370044]
本研究では,LLMに基づくレコメンデーションシステムとバイアスの相互作用について検討する。
音楽、歌、書籍のレコメンデーションなど、様々な民族や文化グループに重点を置いている。
我々の発見によると、これらのシステムのバイアスは深く根深いが、迅速なエンジニアリングのような単純な介入さえも、それを大幅に減らすことができる。
論文 参考訳(メタデータ) (2024-09-17T01:37:57Z) - Editable Fairness: Fine-Grained Bias Mitigation in Language Models [52.66450426729818]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - BiasDPO: Mitigating Bias in Language Models through Direct Preference Optimization [0.0]
大規模言語モデル(LLM)は、自然言語処理の進歩において重要な役割を担っているが、バイアスの持続可能性には重大な懸念がある。
本稿では、英語テキストにおけるジェンダー、人種、宗教的偏見を緩和するために、DPO(Direct Preference Optimization)を用いた新しい枠組みを提案する。
バイアスのある完了よりもバイアスの少ない損失関数を開発することで、我々のアプローチは敬意と非差別的な言語を好む。
論文 参考訳(メタデータ) (2024-07-18T22:32:20Z) - CEB: Compositional Evaluation Benchmark for Fairness in Large Language Models [58.57987316300529]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを処理するために、ますます多くデプロイされている。
LLMが示すバイアスを評価するために、研究者は最近、様々なデータセットを提案している。
我々は,様々な社会的グループやタスクにまたがる様々なバイアスをカバーした構成的評価ベンチマークであるCEBを提案する。
論文 参考訳(メタデータ) (2024-07-02T16:31:37Z) - Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective [66.34066553400108]
我々は、ある人口層に対する大きな言語モデルの暗黙の偏見を厳格に評価する。
心理測定の原則にインスパイアされた我々は,3つの攻撃的アプローチ,すなわち,軽視,軽視,指導を提案する。
提案手法は,LLMの内部バイアスを競合ベースラインよりも効果的に引き出すことができる。
論文 参考訳(メタデータ) (2024-06-20T06:42:08Z) - Bias in Language Models: Beyond Trick Tests and Toward RUTEd Evaluation [49.3814117521631]
大規模言語モデル(LLM)におけるバイアスと公平性の標準ベンチマークは、ユーザプロンプトに入力された社会的属性と短い応答の関係を測定する。
実世界の3つの文脈から類似したRUTEd評価法を開発した。
標準偏差指標は、より現実的な偏差指標と有意な相関関係がないことがわかった。
論文 参考訳(メタデータ) (2024-02-20T01:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。