論文の概要: FairMonitor: A Dual-framework for Detecting Stereotypes and Biases in Large Language Models
- arxiv url: http://arxiv.org/abs/2405.03098v1
- Date: Mon, 6 May 2024 01:23:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 15:04:42.804263
- Title: FairMonitor: A Dual-framework for Detecting Stereotypes and Biases in Large Language Models
- Title(参考訳): FairMonitor: 大規模言語モデルにおけるステレオタイプとバイアスを検出するためのデュアルフレームワーク
- Authors: Yanhong Bai, Jiabao Zhao, Jinxin Shi, Zhentao Xie, Xingjiao Wu, Liang He,
- Abstract要約: 大規模言語モデル(LLM)におけるステレオタイプとバイアスの包括的評価のためのFairMonitorフレームワークの提案と静的力学検出手法の適用について述べる。
静的なコンポーネントは、直接調査テスト、暗黙の関連テスト、未知の状況テストで構成され、その中には、9つのセンシティブな要因と26の教育シナリオを含む10,262のオープンエンド質問が含まれている。
我々はマルチエージェントシステムを用いて、より複雑で現実的な環境で微妙なバイアスを検出する動的シナリオを信頼する。
- 参考スコア(独自算出の注目度): 9.385390205833893
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting stereotypes and biases in Large Language Models (LLMs) is crucial for enhancing fairness and reducing adverse impacts on individuals or groups when these models are applied. Traditional methods, which rely on embedding spaces or are based on probability metrics, fall short in revealing the nuanced and implicit biases present in various contexts. To address this challenge, we propose the FairMonitor framework and adopt a static-dynamic detection method for a comprehensive evaluation of stereotypes and biases in LLMs. The static component consists of a direct inquiry test, an implicit association test, and an unknown situation test, including 10,262 open-ended questions with 9 sensitive factors and 26 educational scenarios. And it is effective for evaluating both explicit and implicit biases. Moreover, we utilize the multi-agent system to construst the dynamic scenarios for detecting subtle biases in more complex and realistic setting. This component detects the biases based on the interaction behaviors of LLMs across 600 varied educational scenarios. The experimental results show that the cooperation of static and dynamic methods can detect more stereotypes and biased in LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)におけるステレオタイプとバイアスの検出は、公平性を高め、これらのモデルを適用したときの個人やグループに対する有害な影響を低減するために重要である。
埋め込み空間に依存する伝統的な手法や確率測度に基づく手法は、様々な文脈に存在するニュアンスや暗黙のバイアスを明らかにするのに不足している。
この課題に対処するため、我々はFairMonitorフレームワークを提案し、LLMにおけるステレオタイプとバイアスの包括的評価に静的力学検出手法を適用した。
静的なコンポーネントは、直接調査テスト、暗黙の関連テスト、未知の状況テストで構成され、その中には、9つのセンシティブな要因と26の教育シナリオを含む10,262のオープンエンド質問が含まれている。
そして、明示的バイアスと暗黙的バイアスの両方を評価するのに効果的です。
さらに、より複雑で現実的な環境で微妙なバイアスを検出するために、マルチエージェントシステムを用いて動的シナリオを信頼する。
このコンポーネントは600の異なる教育シナリオにわたるLLMの相互作用行動に基づいてバイアスを検出する。
実験結果から, 静的および動的手法の協調により, よりステレオタイプを検出し, LLMに偏りがあることが示唆された。
関連論文リスト
- Diverging Preferences: When do Annotators Disagree and do Models Know? [92.24651142187989]
我々は,4つのハイレベルクラスにまたがる10のカテゴリにまたがる相違点の分類法を開発した。
意見の相違の大部分は、標準的な報酬モデリングアプローチに反対している。
本研究は,選好の変化を識別し,評価とトレーニングへの影響を緩和する手法を開発する。
論文 参考訳(メタデータ) (2024-10-18T17:32:22Z) - Covert Bias: The Severity of Social Views' Unalignment in Language Models Towards Implicit and Explicit Opinion [0.40964539027092917]
過度なバイアスシナリオのエッジケースにおけるバイアスモデルを用いて、ビューに対するバイアスの重症度を評価する。
以上の結果から,暗黙的・明示的な意見の識別において,LLM 性能の相違が明らかとなり,反対意見の明示的な意見に対する偏見の傾向が一般的であった。
非整合モデルの直接的な不注意な反応は、決定性のさらなる洗練の必要性を示唆している。
論文 参考訳(メタデータ) (2024-08-15T15:23:00Z) - CEB: Compositional Evaluation Benchmark for Fairness in Large Language Models [58.57987316300529]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを処理するために、ますます多くデプロイされている。
LLMが示すバイアスを評価するために、研究者は最近、様々なデータセットを提案している。
我々は,様々な社会的グループやタスクにまたがる様々なバイアスをカバーした構成的評価ベンチマークであるCEBを提案する。
論文 参考訳(メタデータ) (2024-07-02T16:31:37Z) - The African Woman is Rhythmic and Soulful: An Investigation of Implicit Biases in LLM Open-ended Text Generation [3.9945212716333063]
大規模言語モデル(LLM)による決定に影響を与えるため、暗黙のバイアスは重要である。
伝統的に、明示的なバイアステストや埋め込みベースの手法はバイアスを検出するために使用されるが、これらのアプローチはより微妙で暗黙的なバイアスの形式を見落としることができる。
提案手法は, 暗黙の偏見を明らかにするために, 即発的, 意思決定的タスクによる2つの新しい心理学的手法を導入している。
論文 参考訳(メタデータ) (2024-07-01T13:21:33Z) - Towards detecting unanticipated bias in Large Language Models [1.4589372436314496]
LLM(Large Language Models)は、従来の機械学習システムと同様の公平性問題を示す。
本研究は、トレーニングデータにおけるバイアスの分析と定量化と、それらのモデルの決定に対する影響に焦点を当てる。
論文 参考訳(メタデータ) (2024-04-03T11:25:20Z) - Uncertainty Quantification for In-Context Learning of Large Language Models [52.891205009620364]
大規模言語モデル(LLM)の画期的な能力として、文脈内学習が登場している。
両タイプの不確かさを定量化するための新しい定式化法とそれに対応する推定法を提案する。
提案手法は、プラグイン・アンド・プレイ方式でコンテキスト内学習の予測を理解するための教師なしの方法を提供する。
論文 参考訳(メタデータ) (2024-02-15T18:46:24Z) - Exploring the Jungle of Bias: Political Bias Attribution in Language Models via Dependency Analysis [86.49858739347412]
大規模言語モデル(LLM)は、これらのモデルにおけるバイアスの頻度とその緩和に関する激しい議論を引き起こしている。
本稿では,意思決定プロセスに寄与する属性の抽出と仲介を行うためのプロンプトベースの手法を提案する。
観察された異なる治療は、少なくとも部分的には、属性の相違とモデルの相違によるものであることが判明した。
論文 参考訳(メタデータ) (2023-11-15T00:02:25Z) - FairMonitor: A Four-Stage Automatic Framework for Detecting Stereotypes
and Biases in Large Language Models [10.57405233305553]
本稿では,Large Language Models(LLMs)の生成したコンテンツのステレオタイプとバイアスを直接評価する4段階フレームワークを提案する。
教育部門を事例研究として,4段階の枠組みに基づくEdu-FairMonitorを構築した。
実験結果から,Edu-FairMonitorで評価された5つのLDMのステレオタイプとバイアスの程度が異なっていた。
論文 参考訳(メタデータ) (2023-08-21T00:25:17Z) - Delving into Identify-Emphasize Paradigm for Combating Unknown Bias [52.76758938921129]
同定精度を高めるため,有効バイアス強調スコアリング法(ECS)を提案する。
また, マイニングされたバイアスアライメントとバイアスコンプリケート試料のコントリビューションのバランスをとるために, 勾配アライメント(GA)を提案する。
様々な環境で複数のデータセットで実験を行い、提案されたソリューションが未知のバイアスの影響を軽減することを実証した。
論文 参考訳(メタデータ) (2023-02-22T14:50:24Z) - Measure Twice, Cut Once: Quantifying Bias and Fairness in Deep Neural
Networks [7.763173131630868]
本稿では,2つのモデルのクラスワイドバイアスを定量的に評価する2つの指標を提案する。
これらの新しいメトリクスのパフォーマンスを評価し、その実践的応用を実証することにより、公平性だけでなくバイアスも測定できることを示す。
論文 参考訳(メタデータ) (2021-10-08T22:35:34Z) - LOGAN: Local Group Bias Detection by Clustering [86.38331353310114]
コーパスレベルでバイアスを評価することは、モデルにバイアスがどのように埋め込まれているかを理解するのに十分ではない、と我々は主張する。
クラスタリングに基づく新しいバイアス検出手法であるLOGANを提案する。
毒性分類および対象分類タスクの実験は、LOGANが局所領域のバイアスを特定することを示している。
論文 参考訳(メタデータ) (2020-10-06T16:42:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。