論文の概要: ROBBIE: Robust Bias Evaluation of Large Generative Language Models
- arxiv url: http://arxiv.org/abs/2311.18140v1
- Date: Wed, 29 Nov 2023 23:03:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 18:41:56.105089
- Title: ROBBIE: Robust Bias Evaluation of Large Generative Language Models
- Title(参考訳): ROBBIE:大規模生成言語モデルのロバストバイアス評価
- Authors: David Esiobu, Xiaoqing Tan, Saghar Hosseini, Megan Ung, Yuchen Zhang,
Jude Fernandes, Jane Dwivedi-Yu, Eleonora Presani, Adina Williams, Eric
Michael Smith
- Abstract要約: 異なるプロンプトベースのデータセットを使用して、複数のテキストドメインと人口統計軸にわたる社会的バイアスを測定することができる。
我々は,12の人口動態軸と5のジェネレーションLLMの家系の6つの異なるプロンプトベースのバイアスと毒性の指標を比較した。
3つのバイアス/毒性の緩和技術が、我々の一連の測定においていかにうまく機能するかを包括的に研究する。
- 参考スコア(独自算出の注目度): 27.864027322486375
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: As generative large language models (LLMs) grow more performant and
prevalent, we must develop comprehensive enough tools to measure and improve
their fairness. Different prompt-based datasets can be used to measure social
bias across multiple text domains and demographic axes, meaning that testing
LLMs on more datasets can potentially help us characterize their biases more
fully, and better ensure equal and equitable treatment of marginalized
demographic groups. In this work, our focus is two-fold:
(1) Benchmarking: a comparison of 6 different prompt-based bias and toxicity
metrics across 12 demographic axes and 5 families of generative LLMs. Out of
those 6 metrics, AdvPromptSet and HolisticBiasR are novel datasets proposed in
the paper. The comparison of those benchmarks gives us insights about the bias
and toxicity of the compared models. Therefore, we explore the frequency of
demographic terms in common LLM pre-training corpora and how this may relate to
model biases.
(2) Mitigation: we conduct a comprehensive study of how well 3 bias/toxicity
mitigation techniques perform across our suite of measurements. ROBBIE aims to
provide insights for practitioners while deploying a model, emphasizing the
need to not only measure potential harms, but also understand how they arise by
characterizing the data, mitigate harms once found, and balance any trade-offs.
We open-source our analysis code in hopes of encouraging broader measurements
of bias in future LLMs.
- Abstract(参考訳): 生成型大規模言語モデル(llm)がより高性能で普及するにつれ、私たちはその公平性を測定し改善するための包括的なツールを開発する必要があります。
異なるプロンプトベースのデータセットは、複数のテキストドメインと人口統計学的軸にわたる社会的バイアスを測定するために使用することができる。
本研究の焦点は次の2つである:(1)ベンチマーク:12の人口動態軸と5つの生成LDMの家系にわたる6つの異なるプロンプトベースのバイアスと毒性の比較。
これら6つのメトリクスのうち、AdvPromptSetとHollisticBiasRは、論文で提案された新しいデータセットである。
これらのベンチマークを比較することで、比較モデルのバイアスと毒性に関する洞察が得られる。
そこで我々は, LLM事前学習コーパスにおける人口統計学用語の頻度とモデルバイアスとの関連性を検討する。
2)緩和:我々は,3つのバイアス/毒性緩和技術が測定群全体でどのように機能するかを包括的に検討する。
ROBBIEは、潜在的な害を計測するだけでなく、データを特徴付け、一度見つけた害を軽減し、トレードオフのバランスをとることでそれらがどのように起こるかを理解する必要があることを強調して、モデルをデプロイしながら実践者に洞察を提供することを目指している。
我々は、将来のLCMにおけるバイアスのより広範な測定を促進するために、分析コードをオープンソース化する。
関連論文リスト
- Bias Similarity Across Large Language Models [32.0365189539138]
機械学習モデルのバイアスは慢性的な問題である。
オープンソースとクローズドな10のLarge Language Modelを包括的に見ていきます。
モデル間のバイアスがどのように現れるかを理解するために、機能的類似度を測定します。
論文 参考訳(メタデータ) (2024-10-15T19:21:14Z) - Towards Implicit Bias Detection and Mitigation in Multi-Agent LLM Interactions [25.809599403713506]
大規模言語モデル(LLM)は、社会をシミュレートし、多様な社会的タスクを実行するために、多くの研究で採用されている。
LLMは、人為的なデータに曝されるため、社会的偏見に影響を受けやすい。
本研究では,多エージェントLDM相互作用における性バイアスの存在について検討し,これらのバイアスを軽減するための2つの方法を提案する。
論文 参考訳(メタデータ) (2024-10-03T15:28:05Z) - A Multi-LLM Debiasing Framework [85.17156744155915]
大規模言語モデル(LLM)は、社会に多大な利益をもたらす可能性がある強力なツールであるが、社会的不平等を持続するバイアスを示す。
近年,マルチLLM手法への関心が高まっており,推論の質向上に有効であることが示されている。
LLMのバイアス低減を目的としたマルチLLMデバイアスフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-20T20:24:50Z) - Editable Fairness: Fine-Grained Bias Mitigation in Language Models [52.66450426729818]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - VLBiasBench: A Comprehensive Benchmark for Evaluating Bias in Large Vision-Language Model [72.13121434085116]
VLBiasBenchは、LVLM(Large Vision-Language Models)におけるバイアスの評価を目的としたベンチマークである。
我々は、年齢、障害状態、性別、国籍、身体的外観、人種、宗教、職業、社会的経済状態、および2つの交叉バイアスカテゴリー(人種x性、人種x社会経済状態)を含む9つの異なる社会バイアスカテゴリーを含むデータセットを構築した。
15のオープンソースモデルと1つの高度なクローズドソースモデルに対して広範な評価を行い、これらのモデルから明らかになったバイアスに関する新たな洞察を提供する。
論文 参考訳(メタデータ) (2024-06-20T10:56:59Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - Investigating Subtler Biases in LLMs: Ageism, Beauty, Institutional, and Nationality Bias in Generative Models [0.0]
本稿では, 年齢や美しさなど, 研究の少ない, 連続的な, 次元に沿ったバイアスについて検討する。
実験心理学において, LLMは, 特定の社会集団に対して, 肯定的, 否定的感情の偏見を広く抱いているか, あるいは「美しいものは良い」バイアスと類似しているかを問う。
論文 参考訳(メタデータ) (2023-09-16T07:07:04Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - Metrics for Dataset Demographic Bias: A Case Study on Facial Expression Recognition [4.336779198334903]
人口統計バイアスの最も顕著な種類は、データセットにおける人口統計群の表現における統計的不均衡である。
我々はこれらの指標を分類するための分類法を開発し、適切な指標を選択するための実践的なガイドを提供する。
この論文は、データセットバイアスを緩和し、AIモデルの公正性と正確性を改善するために、AIと関連する分野の研究者に貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-28T11:04:18Z) - D-BIAS: A Causality-Based Human-in-the-Loop System for Tackling
Algorithmic Bias [57.87117733071416]
D-BIASは、人間のループ内AIアプローチを具現化し、社会的バイアスを監査し軽減する視覚対話型ツールである。
ユーザは、因果ネットワークにおける不公平な因果関係を識別することにより、グループに対する偏見の存在を検出することができる。
それぞれのインタラクション、例えばバイアスのある因果縁の弱体化/削除は、新しい(偏りのある)データセットをシミュレートするために、新しい方法を用いている。
論文 参考訳(メタデータ) (2022-08-10T03:41:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。