Fugu-MT 論文翻訳(概要): Evaluating and Mitigating Social Bias for Large Language Models in Open-ended Settings

論文の概要: Evaluating and Mitigating Social Bias for Large Language Models in Open-ended Settings

arxiv url: http://arxiv.org/abs/2412.06134v2
Date: Sun, 19 Jan 2025 23:21:59 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-22 15:04:32.742176
Title: Evaluating and Mitigating Social Bias for Large Language Models in Open-ended Settings
Title（参考訳）: 大規模言語モデルに対するオープンエンド設定による社会的バイアスの評価と緩和
Authors: Zhao Liu, Tian Xie, Xueru Zhang,
Abstract要約: 既存のBBQデータセットを,補間質問型と短解質問型を組み込むことで拡張する。我々の発見によると、LSMは年齢や社会経済的地位など、特定の保護された属性に対してより偏りのある反応を生み出す。偏見をゼロショット、少数ショット、チェーン・オブ・シントを組み合わせることで、偏見のレベルを約0。
参考スコア（独自算出の注目度）: 13.686732204665738
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Current social bias benchmarks for Large Language Models (LLMs) primarily rely on pre-defined question formats like multiple-choice, limiting their ability to reflect the complexity and open-ended nature of real-world interactions. To address this gap, we extend an existing BBQ dataset introduced by incorporating fill-in-the-blank and short-answer question types, designed to evaluate biases in an open-ended setting. Our finding reveals that LLMs tend to produce responses that are more biased against certain protected attributes, like age and socio-economic status. On the other hand, these biased outputs produced by LLMs can serve as valuable contexts and chains of thought for debiasing. Our debiasing approach combined zero-shot, few-shot, and chain-of-thought could significantly reduce the level of bias to almost 0. We open-source our evaluation and debiasing code hoping to encourage further measurements and mitigation of bias and stereotype in LLMs.
Abstract（参考訳）: 現在のLLM(Large Language Models)の社会的バイアスベンチマークは、主にマルチチョイスのような事前定義された質問フォーマットに依存しており、現実世界の相互作用の複雑さとオープンな性質を反映する能力を制限する。このギャップに対処するために、我々は既存のBBQデータセットを拡張し、オープンエンド環境でバイアスを評価するように設計された補間質問型と短解質問型を組み込んだ。我々の発見によると、LSMは年齢や社会経済的地位など、特定の保護された属性に対してより偏りのある反応を産み出す傾向にある。一方、LLMが生み出すこれらの偏りのあるアウトプットは、デバイアスのための貴重なコンテキストや思考の連鎖として機能する。偏見をゼロショット、少数ショット、チェーン・オブ・シントを組み合わせることで、偏見のレベルを約0。 LLMにおけるバイアスとステレオタイプの測定と緩和を促進すべく、評価とデバイアスのコードをオープンソースで公開しています。

関連論文リスト

Discovering Bias Associations through Open-Ended LLM Generations [1.7373859011890633]
言語モデル(LLM)に埋め込まれた社会的バイアスは、重大な懸念を引き起こす。本稿では,Bias Association Discovery Framework(BADF)について紹介する。本研究は, オープンエンド世代におけるバイアスの理解を促進するとともに, LLMにおけるバイアス関連を識別・解析するためのスケーラブルなツールを提供する。
論文参考訳（メタデータ） (2025-08-02T15:31:55Z)
Implicit Bias in LLMs: A Survey [2.07180164747172]
本稿では,大規模言語モデルにおける暗黙バイアスに関する既存の文献を包括的にレビューする。まず、心理学における暗黙の偏見に関連する重要な概念、理論、方法を紹介する。検出方法は,単語関連,タスク指向テキスト生成,意思決定の3つの主要なアプローチに分類する。
論文参考訳（メタデータ） (2025-03-04T16:49:37Z)
Beneath the Surface: How Large Language Models Reflect Hidden Bias [7.026605828163043]
HBB(Hidden Bias Benchmark)は、現実のシナリオにおいて、バイアスの概念が自然主義的、微妙にフレーム化されたコンテキストの中に隠されていることの隠れバイアスを評価するために設計された、新しいデータセットである。我々は6つの最先端のLarge Language Modelを分析し、モデルが過度なバイアスに反応してバイアスを減らす一方で、ニュアンスドセッティングにおけるバイアスの強化を続けていることを明らかにした。
論文参考訳（メタデータ） (2025-02-27T04:25:54Z)
Does Reasoning Introduce Bias? A Study of Social Bias Evaluation and Mitigation in LLM Reasoning [17.86131226260848]
大規模言語モデル(LLM)における社会的偏見の最初の体系的評価について述べる。偏りのある推論ステップが誤った予測とどのように相関しているかを定量化し、しばしばステレオタイプ表現につながる。本稿では,モデル予測の変化を追跡することでバイアスを検出する軽量緩和法であるBias Proxy (ADBP)を提案する。
論文参考訳（メタデータ） (2025-02-21T10:16:07Z)
Towards Resource Efficient and Interpretable Bias Mitigation in Large Language Models [1.787433808079955]
大規模言語モデル (LLM) は、学習データにおいて望ましくないバイアスを持続させる。本稿では,小さなバイアスとアンチバイアスのエキスパートモデルを利用してバイアスを緩和し,デバイアス信号を得る。性別、人種、宗教の偏見を緩和する実験は、いくつかの地域および世界的な偏見指標に偏見を減少させる。
論文参考訳（メタデータ） (2024-12-02T16:56:08Z)
Investigating Implicit Bias in Large Language Models: A Large-Scale Study of Over 50 LLMs [0.0]
大規模言語モデル(LLM)は幅広いタスクで採用されている。最近の研究では、LLMは明示的な偏見評価をパスしても暗黙の偏見を抑えることができることが示されている。この研究は、新しい言語モデルやより大きな言語モデルが自動的にバイアスを減らさないことを強調している。
論文参考訳（メタデータ） (2024-10-13T03:43:18Z)
A Multi-LLM Debiasing Framework [85.17156744155915]
大規模言語モデル(LLM)は、社会に多大な利益をもたらす可能性がある強力なツールであるが、社会的不平等を持続するバイアスを示す。近年,マルチLLM手法への関心が高まっており,推論の質向上に有効であることが示されている。 LLMのバイアス低減を目的としたマルチLLMデバイアスフレームワークを提案する。
論文参考訳（メタデータ） (2024-09-20T20:24:50Z)
Promoting Equality in Large Language Models: Identifying and Mitigating the Implicit Bias based on Bayesian Theory [29.201402717025335]
大規模言語モデル(LLM)は、必然的にバイアスのある情報を含む広範なテキストコーパスで訓練される。我々は、暗黙のバイアス問題を正式に定義し、ベイズ理論に基づくバイアス除去のための革新的な枠組みを開発した。
論文参考訳（メタデータ） (2024-08-20T07:40:12Z)
Editable Fairness: Fine-Grained Bias Mitigation in Language Models [52.66450426729818]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。 FASTは最先端のベースラインを超え、デバイアス性能が優れている。これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文参考訳（メタデータ） (2024-08-07T17:14:58Z)
VLBiasBench: A Comprehensive Benchmark for Evaluating Bias in Large Vision-Language Model [72.13121434085116]
VLBiasBenchは、LVLM(Large Vision-Language Models)におけるバイアスの評価を目的としたベンチマークである。我々は、年齢、障害状態、性別、国籍、身体的外観、人種、宗教、職業、社会的経済状態、および2つの交叉バイアスカテゴリー(人種x性、人種x社会経済状態)を含む9つの異なる社会バイアスカテゴリーを含むデータセットを構築した。 15のオープンソースモデルと1つの高度なクローズドソースモデルに対して広範な評価を行い、これらのモデルから明らかになったバイアスに関する新たな洞察を提供する。
論文参考訳（メタデータ） (2024-06-20T10:56:59Z)
Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective [66.34066553400108]
我々は、ある人口層に対する大きな言語モデルの暗黙の偏見を厳格に評価する。心理測定の原則にインスパイアされた我々は,3つの攻撃的アプローチ,すなわち,軽視,軽視,指導を提案する。提案手法は,LLMの内部バイアスを競合ベースラインよりも効果的に引き出すことができる。
論文参考訳（メタデータ） (2024-06-20T06:42:08Z)
Self-Debiasing Large Language Models: Zero-Shot Recognition and Reduction of Stereotypes [73.12947922129261]
ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
論文参考訳（メタデータ） (2024-02-03T01:40:11Z)
GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文参考訳（メタデータ） (2023-12-11T12:02:14Z)
Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文参考訳（メタデータ） (2023-09-02T00:32:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。