Fugu-MT 論文翻訳(概要): FairMonitor: A Dual-framework for Detecting Stereotypes and Biases in Large Language Models

論文の概要: FairMonitor: A Dual-framework for Detecting Stereotypes and Biases in Large Language Models

arxiv url: http://arxiv.org/abs/2405.03098v1
Date: Mon, 6 May 2024 01:23:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-07 15:04:42.804263
Title: FairMonitor: A Dual-framework for Detecting Stereotypes and Biases in Large Language Models
Title（参考訳）: FairMonitor: 大規模言語モデルにおけるステレオタイプとバイアスを検出するためのデュアルフレームワーク
Authors: Yanhong Bai, Jiabao Zhao, Jinxin Shi, Zhentao Xie, Xingjiao Wu, Liang He,
Abstract要約: 大規模言語モデル(LLM)におけるステレオタイプとバイアスの包括的評価のためのFairMonitorフレームワークの提案と静的力学検出手法の適用について述べる。静的なコンポーネントは、直接調査テスト、暗黙の関連テスト、未知の状況テストで構成され、その中には、9つのセンシティブな要因と26の教育シナリオを含む10,262のオープンエンド質問が含まれている。我々はマルチエージェントシステムを用いて、より複雑で現実的な環境で微妙なバイアスを検出する動的シナリオを信頼する。
参考スコア（独自算出の注目度）: 9.385390205833893
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Detecting stereotypes and biases in Large Language Models (LLMs) is crucial for enhancing fairness and reducing adverse impacts on individuals or groups when these models are applied. Traditional methods, which rely on embedding spaces or are based on probability metrics, fall short in revealing the nuanced and implicit biases present in various contexts. To address this challenge, we propose the FairMonitor framework and adopt a static-dynamic detection method for a comprehensive evaluation of stereotypes and biases in LLMs. The static component consists of a direct inquiry test, an implicit association test, and an unknown situation test, including 10,262 open-ended questions with 9 sensitive factors and 26 educational scenarios. And it is effective for evaluating both explicit and implicit biases. Moreover, we utilize the multi-agent system to construst the dynamic scenarios for detecting subtle biases in more complex and realistic setting. This component detects the biases based on the interaction behaviors of LLMs across 600 varied educational scenarios. The experimental results show that the cooperation of static and dynamic methods can detect more stereotypes and biased in LLMs.
Abstract（参考訳）: 大規模言語モデル(LLM)におけるステレオタイプとバイアスの検出は、公平性を高め、これらのモデルを適用したときの個人やグループに対する有害な影響を低減するために重要である。埋め込み空間に依存する伝統的な手法や確率測度に基づく手法は、様々な文脈に存在するニュアンスや暗黙のバイアスを明らかにするのに不足している。この課題に対処するため、我々はFairMonitorフレームワークを提案し、LLMにおけるステレオタイプとバイアスの包括的評価に静的力学検出手法を適用した。静的なコンポーネントは、直接調査テスト、暗黙の関連テスト、未知の状況テストで構成され、その中には、9つのセンシティブな要因と26の教育シナリオを含む10,262のオープンエンド質問が含まれている。そして、明示的バイアスと暗黙的バイアスの両方を評価するのに効果的です。さらに、より複雑で現実的な環境で微妙なバイアスを検出するために、マルチエージェントシステムを用いて動的シナリオを信頼する。このコンポーネントは600の異なる教育シナリオにわたるLLMの相互作用行動に基づいてバイアスを検出する。実験結果から, 静的および動的手法の協調により, よりステレオタイプを検出し, LLMに偏りがあることが示唆された。

関連論文リスト

Revisiting LLM Value Probing Strategies: Are They Robust and Expressive? [81.49470136653665]
広範に利用されている3つの探索戦略における値表現の頑健さと表現性を評価する。人口統計学的文脈は自由テキスト生成にはほとんど影響を与えず、モデルの値は値に基づく行動の好みと弱い相関しか示さない。
論文参考訳（メタデータ） (2025-07-17T18:56:41Z)
Relative Bias: A Comparative Framework for Quantifying Bias in LLMs [29.112649816695203]
相対バイアス(Relative Bias)は、LLMの振る舞いが特定のターゲットドメイン内の他のLLMとどのようにずれているかを評価するために設計された手法である。本稿では,(1)埋め込み空間上の文表現を通して相対的バイアスパターンをキャプチャする埋め込み変換解析と,(2)言語モデルを用いて出力を相対的に評価するLLM-as-a-Judgeという2つの相補的手法を紹介する。検証のための統計的テストに続くバイアスとアライメントのシナリオに関するいくつかのケーススタディに我々のフレームワークを適用し、この2つのスコアリング手法の間に強い整合性を見出した。
論文参考訳（メタデータ） (2025-05-22T01:59:54Z)
Metamorphic Testing for Fairness Evaluation in Large Language Models: Identifying Intersectional Bias in LLaMA and GPT [2.380039717474099]
大規模言語モデル(LLM)は自然言語処理において大きな進歩を遂げてきたが、公平性に関連する問題に対して脆弱なままである。本稿では,LLMにおける公平なバグを系統的に同定するメタモルフィックテスト手法を提案する。
論文参考訳（メタデータ） (2025-04-04T21:04:14Z)
Actions Speak Louder than Words: Agent Decisions Reveal Implicit Biases in Language Models [10.565316815513235]
大規模言語モデル(LLM)は、人間の振る舞いをシミュレートする際にも暗黙の偏見を示すことがある。ほぼすべてのシミュレーションにおいて,最先端のLDMは社会デマトグラフィーの相違が顕著であることを示す。実験結果と実世界の格差を比較すると、我々が発見したバイアスは方向整列されているが、顕著に増幅されていることがわかった。
論文参考訳（メタデータ） (2025-01-29T05:21:31Z)
Explicit vs. Implicit: Investigating Social Bias in Large Language Models through Self-Reflection [5.800102484016876]
大規模言語モデル(LLM)は、生成されたコンテンツに様々なバイアスとステレオタイプを示すことが示されている。本稿では, LLMにおける明示的, 暗黙的な偏見を解明するために, 社会心理学理論に基づく体系的枠組みを提案する。
論文参考訳（メタデータ） (2025-01-04T14:08:52Z)
How far can bias go? -- Tracing bias from pretraining data to alignment [54.51310112013655]
本研究では, 事前学習データにおける性別占有バイアスと, LLMにおける性別占有バイアスの相関について検討した。その結果,事前学習データに存在するバイアスがモデル出力に増幅されることが判明した。
論文参考訳（メタデータ） (2024-11-28T16:20:25Z)
Diverging Preferences: When do Annotators Disagree and do Models Know? [92.24651142187989]
我々は,4つのハイレベルクラスにまたがる10のカテゴリにまたがる相違点の分類法を開発した。意見の相違の大部分は、標準的な報酬モデリングアプローチに反対している。本研究は,選好の変化を識別し,評価とトレーニングへの影響を緩和する手法を開発する。
論文参考訳（メタデータ） (2024-10-18T17:32:22Z)
Covert Bias: The Severity of Social Views' Unalignment in Language Models Towards Implicit and Explicit Opinion [0.40964539027092917]
過度なバイアスシナリオのエッジケースにおけるバイアスモデルを用いて、ビューに対するバイアスの重症度を評価する。以上の結果から,暗黙的・明示的な意見の識別において,LLM 性能の相違が明らかとなり,反対意見の明示的な意見に対する偏見の傾向が一般的であった。非整合モデルの直接的な不注意な反応は、決定性のさらなる洗練の必要性を示唆している。
論文参考訳（メタデータ） (2024-08-15T15:23:00Z)
CEB: Compositional Evaluation Benchmark for Fairness in Large Language Models [58.57987316300529]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを処理するために、ますます多くデプロイされている。 LLMが示すバイアスを評価するために、研究者は最近、様々なデータセットを提案している。我々は,様々な社会的グループやタスクにまたがる様々なバイアスをカバーした構成的評価ベンチマークであるCEBを提案する。
論文参考訳（メタデータ） (2024-07-02T16:31:37Z)
The African Woman is Rhythmic and Soulful: An Investigation of Implicit Biases in LLM Open-ended Text Generation [3.9945212716333063]
大規模言語モデル(LLM)による決定に影響を与えるため、暗黙のバイアスは重要である。伝統的に、明示的なバイアステストや埋め込みベースの手法はバイアスを検出するために使用されるが、これらのアプローチはより微妙で暗黙的なバイアスの形式を見落としることができる。提案手法は, 暗黙の偏見を明らかにするために, 即発的, 意思決定的タスクによる2つの新しい心理学的手法を導入している。
論文参考訳（メタデータ） (2024-07-01T13:21:33Z)
Towards detecting unanticipated bias in Large Language Models [1.4589372436314496]
LLM(Large Language Models)は、従来の機械学習システムと同様の公平性問題を示す。本研究は、トレーニングデータにおけるバイアスの分析と定量化と、それらのモデルの決定に対する影響に焦点を当てる。
論文参考訳（メタデータ） (2024-04-03T11:25:20Z)
Uncertainty Quantification for In-Context Learning of Large Language Models [52.891205009620364]
大規模言語モデル(LLM)の画期的な能力として、文脈内学習が登場している。両タイプの不確かさを定量化するための新しい定式化法とそれに対応する推定法を提案する。提案手法は、プラグイン・アンド・プレイ方式でコンテキスト内学習の予測を理解するための教師なしの方法を提供する。
論文参考訳（メタデータ） (2024-02-15T18:46:24Z)
Exploring the Jungle of Bias: Political Bias Attribution in Language Models via Dependency Analysis [86.49858739347412]
大規模言語モデル(LLM)は、これらのモデルにおけるバイアスの頻度とその緩和に関する激しい議論を引き起こしている。本稿では,意思決定プロセスに寄与する属性の抽出と仲介を行うためのプロンプトベースの手法を提案する。観察された異なる治療は、少なくとも部分的には、属性の相違とモデルの相違によるものであることが判明した。
論文参考訳（メタデータ） (2023-11-15T00:02:25Z)
FairMonitor: A Four-Stage Automatic Framework for Detecting Stereotypes and Biases in Large Language Models [10.57405233305553]
本稿では,Large Language Models(LLMs)の生成したコンテンツのステレオタイプとバイアスを直接評価する4段階フレームワークを提案する。教育部門を事例研究として,4段階の枠組みに基づくEdu-FairMonitorを構築した。実験結果から,Edu-FairMonitorで評価された5つのLDMのステレオタイプとバイアスの程度が異なっていた。
論文参考訳（メタデータ） (2023-08-21T00:25:17Z)
Delving into Identify-Emphasize Paradigm for Combating Unknown Bias [52.76758938921129]
同定精度を高めるため,有効バイアス強調スコアリング法(ECS)を提案する。また, マイニングされたバイアスアライメントとバイアスコンプリケート試料のコントリビューションのバランスをとるために, 勾配アライメント(GA)を提案する。様々な環境で複数のデータセットで実験を行い、提案されたソリューションが未知のバイアスの影響を軽減することを実証した。
論文参考訳（メタデータ） (2023-02-22T14:50:24Z)
Measure Twice, Cut Once: Quantifying Bias and Fairness in Deep Neural Networks [7.763173131630868]
本稿では,2つのモデルのクラスワイドバイアスを定量的に評価する2つの指標を提案する。これらの新しいメトリクスのパフォーマンスを評価し、その実践的応用を実証することにより、公平性だけでなくバイアスも測定できることを示す。
論文参考訳（メタデータ） (2021-10-08T22:35:34Z)
LOGAN: Local Group Bias Detection by Clustering [86.38331353310114]
コーパスレベルでバイアスを評価することは、モデルにバイアスがどのように埋め込まれているかを理解するのに十分ではない、と我々は主張する。クラスタリングに基づく新しいバイアス検出手法であるLOGANを提案する。毒性分類および対象分類タスクの実験は、LOGANが局所領域のバイアスを特定することを示している。
論文参考訳（メタデータ） (2020-10-06T16:42:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。