論文の概要: Evaluating Nuanced Bias in Large Language Model Free Response Answers
- arxiv url: http://arxiv.org/abs/2407.08842v1
- Date: Thu, 11 Jul 2024 19:58:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 01:36:13.469938
- Title: Evaluating Nuanced Bias in Large Language Model Free Response Answers
- Title(参考訳): 大規模言語モデル自由応答回答におけるニュアンスバイアスの評価
- Authors: Jennifer Healey, Laurie Byrum, Md Nadeem Akhtar, Moumita Sinha,
- Abstract要約: 複数の選択テストでは識別できない自由テキストにおける数種類のニュアンスバイアスを同定する。
本稿では, 偏見を検知する半自動パイプラインについて, 解答を非偏見として自動的に分類する手法を提案する。
- 参考スコア(独自算出の注目度): 8.775925011558995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained large language models (LLMs) can now be easily adapted for specific business purposes using custom prompts or fine tuning. These customizations are often iteratively re-engineered to improve some aspect of performance, but after each change businesses want to ensure that there has been no negative impact on the system's behavior around such critical issues as bias. Prior methods of benchmarking bias use techniques such as word masking and multiple choice questions to assess bias at scale, but these do not capture all of the nuanced types of bias that can occur in free response answers, the types of answers typically generated by LLM systems. In this paper, we identify several kinds of nuanced bias in free text that cannot be similarly identified by multiple choice tests. We describe these as: confidence bias, implied bias, inclusion bias and erasure bias. We present a semi-automated pipeline for detecting these types of bias by first eliminating answers that can be automatically classified as unbiased and then co-evaluating name reversed pairs using crowd workers. We believe that the nuanced classifications our method generates can be used to give better feedback to LLMs, especially as LLM reasoning capabilities become more advanced.
- Abstract(参考訳): 事前訓練された大規模言語モデル(LLM)は、カスタムプロンプトや微調整を使用して、特定のビジネス目的に容易に適用できるようになった。
これらのカスタマイズは、パフォーマンスのいくつかの側面を改善するために反復的に再設計されることが多いが、各変更後のビジネスは、バイアスのような重要な問題に関するシステムの振る舞いに否定的な影響がないことを保証したい。
単語マスキング(英語版)や複数の選択質問(英語版)などのバイアスの手法をベンチマークする以前の手法では、大規模にバイアスを評価できたが、これらは自由応答の答えで起こりうるすべてのニュアンスなバイアスを捉えておらず、通常、LLMシステムによって生成される答えのタイプである。
本稿では,複数選択テストでは同様に識別できない自由テキストにおける数種類のニュアンスバイアスを同定する。
信頼バイアス、暗黙のバイアス、包摂バイアス、消去バイアス。
本稿では、まず、偏見のない回答を自動的に分類し、その後、群衆労働者を用いて名前の逆のペアを共同評価することで、これらのバイアスを検出する半自動パイプラインを提案する。
我々の手法が生み出すニュアンスド分類は、特にLSM推論能力が向上するにつれて、LSMにより良いフィードバックを与えるのに利用できると信じている。
関連論文リスト
- Beyond Performance: Quantifying and Mitigating Label Bias in LLMs [8.77694178599322]
モデル予測におけるラベルバイアスを定量化するための様々なアプローチを評価する。
本研究により, 脱バイアス前後のモデルに有意なラベルバイアスが認められた。
数発のプロンプトに適したラベルバイアス校正法を提案する。
論文 参考訳(メタデータ) (2024-05-04T19:53:03Z) - Take Care of Your Prompt Bias! Investigating and Mitigating Prompt Bias in Factual Knowledge Extraction [56.17020601803071]
近年の研究では、事前学習言語モデル(PLM)が、事実知識抽出において「急激なバイアス」に悩まされていることが示されている。
本稿では,突発バイアスを徹底的に調査し緩和することにより,既存のベンチマークの信頼性を向上させることを目的とする。
論文 参考訳(メタデータ) (2024-03-15T02:04:35Z) - Self-Debiasing Large Language Models: Zero-Shot Recognition and
Reduction of Stereotypes [73.12947922129261]
ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。
自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。
この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
論文 参考訳(メタデータ) (2024-02-03T01:40:11Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - Mitigating Bias for Question Answering Models by Tracking Bias Influence [84.66462028537475]
本稿では,複数選択QAモデルのバイアスを軽減するためのBMBIを提案する。
バイアスのある例から学んだ場合、モデルがよりバイアスに傾くように傾くという直感に基づいて、クエリインスタンスのバイアスレベルを測定します。
本手法は,複数のバイアスカテゴリにまたがる複数のQA定式化に適用可能であることを示す。
論文 参考訳(メタデータ) (2023-10-13T00:49:09Z) - Large Language Models Are Not Robust Multiple Choice Selectors [117.72712117510953]
複数選択質問(MCQ)は、大規模言語モデル(LLM)の評価において、一般的なが重要なタスク形式として機能する。
この研究は、現代のLLMが、その固有の「選択バイアス」によるオプション位置変化に対して脆弱であることを示している。
そこで本研究では,オプションIDに対する事前バイアスを全体予測分布から分離するPriDeという,ラベルのない推論時間脱バイアス手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T17:44:56Z) - Mitigating Label Biases for In-context Learning [28.209613730240633]
インコンテキスト学習(ICL)のための様々な設計設定は、タスクの理解を反映することなく、特定の予測に向けてモデルをバイアスすることができる。
本研究は,テキスト分類におけるICLの3種類のラベルバイアスに対して,バニララベルバイアス,コンテキストラベルバイアス,ドメインラベルバイアスの3種類のタイプを定義した。
論文 参考訳(メタデータ) (2023-05-28T15:37:39Z) - ADEPT: A DEbiasing PrompT Framework [49.582497203415855]
ファインタニングは文脈化された単語の埋め込みを曖昧にするための応用手法である。
意味的な意味を持つ個別のプロンプトは、タスクを乱すのに有効であることが示されている。
本稿では, PLM をデバイアス化する方法であるADEPT を提案し, バイアス除去と表現能力の確保の微妙なバランスを維持しながら, 即時チューニングによる PLM のデバイアス化手法を提案する。
論文 参考訳(メタデータ) (2022-11-10T08:41:40Z) - Are Bias Mitigation Techniques for Deep Learning Effective? [24.84797949716142]
改良された評価プロトコル、有能なメトリクス、新しいデータセットを導入する。
我々は、同じネットワークアーキテクチャを用いて、7つの最先端アルゴリズムを評価する。
アルゴリズムは隠れバイアスを悪用し、複数の形式のバイアスにスケールできず、チューニングセットの選択に非常に敏感であることがわかった。
論文 参考訳(メタデータ) (2021-04-01T00:14:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。