論文の概要: GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models
- arxiv url: http://arxiv.org/abs/2312.06315v1
- Date: Mon, 11 Dec 2023 12:02:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 15:55:16.046265
- Title: GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models
- Title(参考訳): GPTBIAS:大規模言語モデルにおけるバイアス評価のための総合的フレームワーク
- Authors: Jiaxu Zhao, Meng Fang, Shirui Pan, Wenpeng Yin, Mykola Pechenizkiy
- Abstract要約: 大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 83.30078426829627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Warning: This paper contains content that may be offensive or upsetting.
There has been a significant increase in the usage of large language models
(LLMs) in various applications, both in their original form and through
fine-tuned adaptations. As a result, LLMs have gained popularity and are being
widely adopted by a large user community. However, one of the concerns with
LLMs is the potential generation of socially biased content. The existing
evaluation methods have many constraints, and their results exhibit a limited
degree of interpretability. In this work, we propose a bias evaluation
framework named GPTBIAS that leverages the high performance of LLMs (e.g.,
GPT-4 \cite{openai2023gpt4}) to assess bias in models. We also introduce
prompts called Bias Attack Instructions, which are specifically designed for
evaluating model bias. To enhance the credibility and interpretability of bias
evaluation, our framework not only provides a bias score but also offers
detailed information, including bias types, affected demographics, keywords,
reasons behind the biases, and suggestions for improvement. We conduct
extensive experiments to demonstrate the effectiveness and usability of our
bias evaluation framework.
- Abstract(参考訳): 警告: 本論文は攻撃的あるいは不安定なコンテンツを含んでいる。
様々なアプリケーションにおける大規模言語モデル(llm)の使用は、元の形式と微調整された適応によって大きく増加した。
その結果,LSMは普及し,大規模なユーザコミュニティで広く採用されている。
しかし、LSMsに関する懸念の1つは、社会的に偏りのあるコンテンツの潜在的発生である。
既存の評価手法には多くの制約があり、その結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性(例えば,GPT-4 \cite{openai2023gpt4})を利用してモデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
また,モデルバイアスを評価するために特別に設計されたバイアスアタック命令と呼ばれるプロンプトも導入する。
バイアス評価の信頼性と解釈性を高めるために, バイアススコアを提供するだけでなく, バイアスタイプ, 影響を受ける人口統計, キーワード, バイアスの背後にある理由, 改善提案などの詳細な情報を提供する。
偏見評価フレームワークの有効性とユーザビリティを実証するための広範な実験を行った。
関連論文リスト
- Likelihood-based Mitigation of Evaluation Bias in Large Language Models [39.77680080235204]
大規模言語モデル(LLM)は、自然言語生成タスクを自動メトリクスとして評価するために広く使われている。
LLMが評価に使用される場合、確率バイアスが存在する可能性がある。
論文 参考訳(メタデータ) (2024-02-25T04:52:02Z) - Bias in Language Models: Beyond Trick Tests and Toward RUTEd Evaluation [55.66090768926881]
本研究では,非テクスチャ化された「トリックテスト」と,現実的利用と有形効果に根ざした評価の対応について検討する。
本稿では,現在文献に適合している3つの非文脈評価と,長文コンテンツ生成に適用された3つの類似のRUTED評価を比較した。
トリックテストとRUTEd評価の対応は見つからなかった。
論文 参考訳(メタデータ) (2024-02-20T01:49:15Z) - ROBBIE: Robust Bias Evaluation of Large Generative Language Models [27.864027322486375]
異なるプロンプトベースのデータセットを使用して、複数のテキストドメインと人口統計軸にわたる社会的バイアスを測定することができる。
我々は,12の人口動態軸と5のジェネレーションLLMの家系の6つの異なるプロンプトベースのバイアスと毒性の指標を比較した。
3つのバイアス/毒性の緩和技術が、我々の一連の測定においていかにうまく機能するかを包括的に研究する。
論文 参考訳(メタデータ) (2023-11-29T23:03:04Z) - Causality and Independence Enhancement for Biased Node Classification [56.38828085943763]
各種グラフニューラルネットワーク(GNN)に適用可能な新しい因果性・独立性向上(CIE)フレームワークを提案する。
提案手法は,ノード表現レベルでの因果的特徴と突発的特徴を推定し,突発的相関の影響を緩和する。
我々のアプローチCIEは、GNNの性能を大幅に向上するだけでなく、最先端の debiased ノード分類法よりも優れています。
論文 参考訳(メタデータ) (2023-10-14T13:56:24Z) - Investigating Subtler Biases in LLMs: Ageism, Beauty, Institutional, and
Nationality Bias in Generative Models [0.0]
本稿では, 年齢や美しさなど, 研究の少ない, 連続的な, 次元に沿ったバイアスについて検討する。
実験心理学において, LLMは, 特定の社会集団に対して, 肯定的あるいは否定的な感情の偏見を広く保持するか否かを問う。
論文 参考訳(メタデータ) (2023-09-16T07:07:04Z) - Soft-prompt Tuning for Large Language Models to Evaluate Bias [0.03141085922386211]
ソフトプロンプトを用いてバイアスを評価することで、人間のバイアス注入を避けるというメリットが得られます。
グループフェアネス(バイアス)を用いて、異なる感度属性のモデルバイアスをチェックし、興味深いバイアスパターンを見つけます。
論文 参考訳(メタデータ) (2023-06-07T19:11:25Z) - Can Prompt Probe Pretrained Language Models? Understanding the Invisible
Risks from a Causal View [37.625078897220305]
プリトレーニング言語モデル(PLM)の能力を評価するために,プロンプトに基づく探索が広く用いられている。
本稿では、因果的観点からの素早い探索を考察し、偏りのある結果と結論を誘導する3つの重要なバイアスを強調し、因果的介入による偏りの回避を提案する。
論文 参考訳(メタデータ) (2022-03-23T08:10:07Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z) - Improving Robustness by Augmenting Training Sentences with
Predicate-Argument Structures [62.562760228942054]
データセットバイアスに対するロバスト性を改善する既存のアプローチは、主にトレーニング目標の変更に焦点を当てている。
本稿では,学習データ中の入力文に対応する述語句構造を付加することを提案する。
特定のバイアスを対象とせずに、文の増大は、複数のバイアスに対してトランスフォーマーモデルの堅牢性を向上することを示す。
論文 参考訳(メタデータ) (2020-10-23T16:22:05Z) - Towards Debiasing NLU Models from Unknown Biases [70.31427277842239]
NLUモデルは、しばしばバイアスを利用して、意図したタスクを適切に学習することなく、データセット固有の高いパフォーマンスを達成する。
本稿では、モデルがバイアスを事前に知ることなく、主にバイアスを利用するのを防ぐ自己バイアスフレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-25T15:49:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。