Fugu-MT 論文翻訳(概要): Reevaluating Bias Detection in Language Models: The Role of Implicit Norm

論文の概要: Reevaluating Bias Detection in Language Models: The Role of Implicit Norm

arxiv url: http://arxiv.org/abs/2404.03471v1
Date: Thu, 4 Apr 2024 14:24:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-05 14:41:45.466613
Title: Reevaluating Bias Detection in Language Models: The Role of Implicit Norm
Title（参考訳）: 言語モデルにおけるバイアス検出の再評価:暗黙的ノルムの役割
Authors: Farnaz Kohankhaki, Jacob-Junqi Tian, David Emerson, Laleh Seyyed-Kalantari, Faiza Khan Khattak,
Abstract要約: 大規模言語モデル(LLM)は、過度な差別から暗黙的なステレオタイプに至るまで、様々な形態で現れるバイアスを運ぶことができる。偏見の1つの側面は、LLMのパフォーマンス格差であり、しばしば人種的少数派のような未成年集団に害を与える。バイアスを定量化するための一般的なアプローチは、テンプレートベースのバイアスプローブを使用することである。
参考スコア（独自算出の注目度）: 0.03495246564946556
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs), trained on vast datasets, can carry biases that manifest in various forms, from overt discrimination to implicit stereotypes. One facet of bias is performance disparities in LLMs, often harming underprivileged groups, such as racial minorities. A common approach to quantifying bias is to use template-based bias probes, which explicitly state group membership (e.g. White) and evaluate if the outcome of a task, sentiment analysis for instance, is invariant to the change of group membership (e.g. change White race to Black). This approach is widely used in bias quantification. However, in this work, we find evidence of an unexpectedly overlooked consequence of using template-based probes for LLM bias quantification. We find that in doing so, text examples associated with White ethnicities appear to be classified as exhibiting negative sentiment at elevated rates. We hypothesize that the scenario arises artificially through a mismatch between the pre-training text of LLMs and the templates used to measure bias through reporting bias, unstated norms that imply group membership without explicit statement. Our finding highlights the potential misleading impact of varying group membership through explicit mention in bias quantification
Abstract（参考訳）: 膨大なデータセットに基づいてトレーニングされた大規模言語モデル(LLM)は、過度な差別から暗黙的なステレオタイプに至るまで、さまざまな形式で現れるバイアスを運ぶことができる。偏見の1つの側面は、LLMのパフォーマンス格差であり、しばしば人種的少数派のような未成年集団に害を与える。バイアスを定量化するための一般的なアプローチは、テンプレートベースのバイアスプローブを使用することであり、これは明示的にグループメンバーシップ(例えばホワイト)をステートし、タスクの結果、例えば感情分析(英語版)がグループメンバーシップの変更(例えばホワイトレースをブラックに変更)に不変であるかどうかを評価する。このアプローチはバイアス定量化に広く用いられている。しかし,本研究では,LCMの偏差定量化にテンプレートベースのプローブを用いることで,予期せぬ見過ごされた結果の証拠を見出した。その結果、白人の民族に関連するテキストの例は、高い率で否定的な感情を示すものとして分類されていることが判明した。我々は, LLMの事前学習テキストと, 明示的な言明を伴わずにグループメンバシップを示唆する未定の規範である報告バイアスによってバイアスを測定するテンプレートとのミスマッチによって, シナリオが人工的に発生すると仮定する。我々の発見は、偏見定量化における明示的な言及を通して、様々なグループメンバーシップの潜在的な誤解を招く影響を浮き彫りにする。

関連論文リスト

Cross-Language Bias Examination in Large Language Models [37.21579885190632]
本研究では,大規模言語モデルにおけるバイアス評価のための,革新的な多言語バイアス評価フレームワークを提案する。プロンプトと単語リストを5つの対象言語に翻訳することにより、言語間で異なる種類のバイアスを比較する。例えば、アラビア語とスペイン語はステレオタイプバイアスのレベルが常に高く、中国語と英語はバイアスのレベルが低い。
論文参考訳（メタデータ） (2025-12-17T23:22:03Z)
Surface Fairness, Deep Bias: A Comparative Study of Bias in Language Models [49.41113560646115]
大規模言語モデル(LLM)におけるバイアスの様々なプロキシ尺度について検討する。 MMLU (Multi-subject benchmark) を用いた人格評価モデルでは, スコアの無作為かつ大半がランダムな差が生じることがわかった。 LLMアシスタントメモリとパーソナライゼーションの最近の傾向により、これらの問題は異なる角度から開かれている。
論文参考訳（メタデータ） (2025-06-12T08:47:40Z)
On the Origins of Sampling Bias: Implications on Fairness Measurement and Mitigation [0.0]
いくつかのバイアス源が存在し、機械学習によるバイアスは異なるグループによって等しく生まれると仮定される。特にサンプリングバイアスは、サンプリング手順によるバイアスを記述するために文献で矛盾的に使用される。サンプルサイズバイアス (SSB) とアンダーレ表現バイアス (URB) の明確に定義された変種を導入する。
論文参考訳（メタデータ） (2025-03-23T06:23:07Z)
Explicit vs. Implicit: Investigating Social Bias in Large Language Models through Self-Reflection [5.800102484016876]
大規模言語モデル(LLM)は、生成されたコンテンツに様々なバイアスとステレオタイプを示すことが示されている。本稿では, LLMにおける明示的, 暗黙的な偏見を解明するために, 社会心理学理論に基づく体系的枠組みを提案する。
論文参考訳（メタデータ） (2025-01-04T14:08:52Z)
How far can bias go? -- Tracing bias from pretraining data to alignment [54.51310112013655]
本研究では, 事前学習データにおける性別占有バイアスと, LLMにおける性別占有バイアスの相関について検討した。その結果,事前学習データに存在するバイアスがモデル出力に増幅されることが判明した。
論文参考訳（メタデータ） (2024-11-28T16:20:25Z)
A Novel Interpretability Metric for Explaining Bias in Language Models: Applications on Multilingual Models from Southeast Asia [0.3376269351435396]
事前学習言語モデル(PLM)におけるバイアス行動に対するトークンレベルの寄与を測定するための新しい指標を提案する。東南アジアのPLMにおいて性差別と同性愛バイアスの存在が確認された。解釈可能性と意味分析は、PLMバイアスが犯罪、親密な関係、助けに関する言葉によって強く引き起こされることを示している。
論文参考訳（メタデータ） (2024-10-20T18:31:05Z)
Promoting Equality in Large Language Models: Identifying and Mitigating the Implicit Bias based on Bayesian Theory [29.201402717025335]
大規模言語モデル(LLM)は、必然的にバイアスのある情報を含む広範なテキストコーパスで訓練される。我々は、暗黙のバイアス問題を正式に定義し、ベイズ理論に基づくバイアス除去のための革新的な枠組みを開発した。
論文参考訳（メタデータ） (2024-08-20T07:40:12Z)
Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文参考訳（メタデータ） (2024-08-14T16:55:06Z)
White Men Lead, Black Women Help? Benchmarking Language Agency Social Biases in LLMs [58.27353205269664]
社会的偏見は言語機関に現れることがある。本稿では,言語庁バイアス評価ベンチマークを紹介する。我々は,最近の3つのLarge Language Model(LLM)生成コンテンツにおいて,言語エージェンシーの社会的バイアスを明らかにした。
論文参考訳（メタデータ） (2024-04-16T12:27:54Z)
Bias in Language Models: Beyond Trick Tests and Toward RUTEd Evaluation [49.3814117521631]
大規模言語モデル(LLM)におけるバイアスと公平性の標準ベンチマークは、ユーザプロンプトに入力された社会的属性と短い応答の関係を測定する。実世界の3つの文脈から類似したRUTEd評価法を開発した。標準偏差指標は、より現実的な偏差指標と有意な相関関係がないことがわかった。
論文参考訳（メタデータ） (2024-02-20T01:49:15Z)
GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文参考訳（メタデータ） (2023-12-11T12:02:14Z)
Aligning with Whom? Large Language Models Have Gender and Racial Biases in Subjective NLP Tasks [15.015148115215315]
我々は4つのポピュラーな大言語モデル(LLM)の実験を行い、集団差と潜在的なバイアスを理解する能力について、丁寧さと不快さの予測について検討する。どちらのタスクでも、モデル予測は白人と女性の参加者のラベルに近いことが分かりました。より具体的には、"ブラック"と"アジア"個人の観点から反応するよう促された場合、モデルは、対応するグループからのスコアだけでなく、全体的なスコアを予測する際のパフォーマンスを低下させる。
論文参考訳（メタデータ） (2023-11-16T10:02:24Z)
Shedding light on underrepresentation and Sampling Bias in machine learning [0.0]
差別を分散、偏見、ノイズに分解する方法を示す。我々は、未表現グループのサンプルを多く集めることで、識別に対処できるという、広く受け入れられている緩和アプローチに挑戦する。
論文参考訳（メタデータ） (2023-06-08T09:34:20Z)
Balancing out Bias: Achieving Fairness Through Training Reweighting [58.201275105195485]
自然言語処理におけるバイアスは、性別や人種などの著者の特徴を学習するモデルから生じる。既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。本稿では,インスタンス再重み付けを用いたバイアス対策法を提案する。
論文参考訳（メタデータ） (2021-09-16T23:40:28Z)
LOGAN: Local Group Bias Detection by Clustering [86.38331353310114]
コーパスレベルでバイアスを評価することは、モデルにバイアスがどのように埋め込まれているかを理解するのに十分ではない、と我々は主張する。クラスタリングに基づく新しいバイアス検出手法であるLOGANを提案する。毒性分類および対象分類タスクの実験は、LOGANが局所領域のバイアスを特定することを示している。
論文参考訳（メタデータ） (2020-10-06T16:42:51Z)
UnQovering Stereotyping Biases via Underspecified Questions [68.81749777034409]
未特定質問からバイアスを探索・定量化するためのフレームワークUNQOVERを提案する。モデルスコアの素直な使用は,2種類の推論誤差による誤ったバイアス推定につながる可能性があることを示す。我々はこの指標を用いて、性別、国籍、民族、宗教の4つの重要なステレオタイプの分析を行う。
論文参考訳（メタデータ） (2020-10-06T01:49:52Z)
Detecting Emergent Intersectional Biases: Contextualized Word Embeddings Contain a Distribution of Human-like Biases [10.713568409205077]
最先端のニューラルネットワークモデルは、単語が現れるコンテキストに依存する動的単語埋め込みを生成する。本稿では、ニューラルネットワークモデルにおける全体的なバイアスの大きさを要約できる、コンテキスト適応型埋め込みアソシエーションテスト(CEAT)を紹介する。静的な単語埋め込みから交差点バイアスと緊急交差点バイアスを自動的に識別する2つの方法,IBD (Intersectional Bias Detection) とEmergent Intersectional Bias Detection (EIBD) を開発した。
論文参考訳（メタデータ） (2020-06-06T19:49:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。