論文の概要: GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models
- arxiv url: http://arxiv.org/abs/2312.06315v1
- Date: Mon, 11 Dec 2023 12:02:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 15:55:16.046265
- Title: GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models
- Title(参考訳): GPTBIAS:大規模言語モデルにおけるバイアス評価のための総合的フレームワーク
- Authors: Jiaxu Zhao, Meng Fang, Shirui Pan, Wenpeng Yin, Mykola Pechenizkiy
- Abstract要約: 大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 83.30078426829627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Warning: This paper contains content that may be offensive or upsetting.
There has been a significant increase in the usage of large language models
(LLMs) in various applications, both in their original form and through
fine-tuned adaptations. As a result, LLMs have gained popularity and are being
widely adopted by a large user community. However, one of the concerns with
LLMs is the potential generation of socially biased content. The existing
evaluation methods have many constraints, and their results exhibit a limited
degree of interpretability. In this work, we propose a bias evaluation
framework named GPTBIAS that leverages the high performance of LLMs (e.g.,
GPT-4 \cite{openai2023gpt4}) to assess bias in models. We also introduce
prompts called Bias Attack Instructions, which are specifically designed for
evaluating model bias. To enhance the credibility and interpretability of bias
evaluation, our framework not only provides a bias score but also offers
detailed information, including bias types, affected demographics, keywords,
reasons behind the biases, and suggestions for improvement. We conduct
extensive experiments to demonstrate the effectiveness and usability of our
bias evaluation framework.
- Abstract(参考訳): 警告: 本論文は攻撃的あるいは不安定なコンテンツを含んでいる。
様々なアプリケーションにおける大規模言語モデル(llm)の使用は、元の形式と微調整された適応によって大きく増加した。
その結果,LSMは普及し,大規模なユーザコミュニティで広く採用されている。
しかし、LSMsに関する懸念の1つは、社会的に偏りのあるコンテンツの潜在的発生である。
既存の評価手法には多くの制約があり、その結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性(例えば,GPT-4 \cite{openai2023gpt4})を利用してモデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
また,モデルバイアスを評価するために特別に設計されたバイアスアタック命令と呼ばれるプロンプトも導入する。
バイアス評価の信頼性と解釈性を高めるために, バイアススコアを提供するだけでなく, バイアスタイプ, 影響を受ける人口統計, キーワード, バイアスの背後にある理由, 改善提案などの詳細な情報を提供する。
偏見評価フレームワークの有効性とユーザビリティを実証するための広範な実験を行った。
関連論文リスト
- Diverging Preferences: When do Annotators Disagree and do Models Know? [92.24651142187989]
我々は,4つのハイレベルクラスにまたがる10のカテゴリにまたがる相違点の分類法を開発した。
意見の相違の大部分は、標準的な報酬モデリングアプローチに反対している。
本研究は,選好の変化を識別し,評価とトレーニングへの影響を緩和する手法を開発する。
論文 参考訳(メタデータ) (2024-10-18T17:32:22Z) - Investigating Implicit Bias in Large Language Models: A Large-Scale Study of Over 50 LLMs [0.0]
大規模言語モデル(LLM)は幅広いタスクで採用されている。
最近の研究では、LLMは明示的な偏見評価をパスしても暗黙の偏見を抑えることができることが示されている。
この研究は、新しい言語モデルやより大きな言語モデルが自動的にバイアスを減らさないことを強調している。
論文 参考訳(メタデータ) (2024-10-13T03:43:18Z) - Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge [84.34545223897578]
多くの領域で優れているにもかかわらず、潜在的な問題は未解決のままであり、その信頼性と実用性の範囲を損なう。
提案手法は, LLM-as-a-Judgeにおける各種類のバイアスを定量化し, 解析する自動バイアス定量化フレームワークである。
当社の作業は、これらの問題に対処するステークホルダの必要性を強調し、LLM-as-a-Judgeアプリケーションで注意を喚起します。
論文 参考訳(メタデータ) (2024-10-03T17:53:30Z) - Promoting Equality in Large Language Models: Identifying and Mitigating the Implicit Bias based on Bayesian Theory [29.201402717025335]
大規模言語モデル(LLM)は、必然的にバイアスのある情報を含む広範なテキストコーパスで訓練される。
我々は、暗黙のバイアス問題を正式に定義し、ベイズ理論に基づくバイアス除去のための革新的な枠組みを開発した。
論文 参考訳(メタデータ) (2024-08-20T07:40:12Z) - Covert Bias: The Severity of Social Views' Unalignment in Language Models Towards Implicit and Explicit Opinion [0.40964539027092917]
過度なバイアスシナリオのエッジケースにおけるバイアスモデルを用いて、ビューに対するバイアスの重症度を評価する。
以上の結果から,暗黙的・明示的な意見の識別において,LLM 性能の相違が明らかとなり,反対意見の明示的な意見に対する偏見の傾向が一般的であった。
非整合モデルの直接的な不注意な反応は、決定性のさらなる洗練の必要性を示唆している。
論文 参考訳(メタデータ) (2024-08-15T15:23:00Z) - Editable Fairness: Fine-Grained Bias Mitigation in Language Models [52.66450426729818]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - BiasDPO: Mitigating Bias in Language Models through Direct Preference Optimization [0.0]
大規模言語モデル(LLM)は、自然言語処理の進歩において重要な役割を担っているが、バイアスの持続可能性には重大な懸念がある。
本稿では、英語テキストにおけるジェンダー、人種、宗教的偏見を緩和するために、DPO(Direct Preference Optimization)を用いた新しい枠組みを提案する。
バイアスのある完了よりもバイアスの少ない損失関数を開発することで、我々のアプローチは敬意と非差別的な言語を好む。
論文 参考訳(メタデータ) (2024-07-18T22:32:20Z) - CEB: Compositional Evaluation Benchmark for Fairness in Large Language Models [58.57987316300529]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを処理するために、ますます多くデプロイされている。
LLMが示すバイアスを評価するために、研究者は最近、様々なデータセットを提案している。
我々は,様々な社会的グループやタスクにまたがる様々なバイアスをカバーした構成的評価ベンチマークであるCEBを提案する。
論文 参考訳(メタデータ) (2024-07-02T16:31:37Z) - Take Care of Your Prompt Bias! Investigating and Mitigating Prompt Bias in Factual Knowledge Extraction [56.17020601803071]
近年の研究では、事前学習言語モデル(PLM)が、事実知識抽出において「急激なバイアス」に悩まされていることが示されている。
本稿では,突発バイアスを徹底的に調査し緩和することにより,既存のベンチマークの信頼性を向上させることを目的とする。
論文 参考訳(メタデータ) (2024-03-15T02:04:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。