論文の概要: ROBBIE: Robust Bias Evaluation of Large Generative Language Models
- arxiv url: http://arxiv.org/abs/2311.18140v1
- Date: Wed, 29 Nov 2023 23:03:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 18:41:56.105089
- Title: ROBBIE: Robust Bias Evaluation of Large Generative Language Models
- Title(参考訳): ROBBIE:大規模生成言語モデルのロバストバイアス評価
- Authors: David Esiobu, Xiaoqing Tan, Saghar Hosseini, Megan Ung, Yuchen Zhang,
Jude Fernandes, Jane Dwivedi-Yu, Eleonora Presani, Adina Williams, Eric
Michael Smith
- Abstract要約: 異なるプロンプトベースのデータセットを使用して、複数のテキストドメインと人口統計軸にわたる社会的バイアスを測定することができる。
我々は,12の人口動態軸と5のジェネレーションLLMの家系の6つの異なるプロンプトベースのバイアスと毒性の指標を比較した。
3つのバイアス/毒性の緩和技術が、我々の一連の測定においていかにうまく機能するかを包括的に研究する。
- 参考スコア(独自算出の注目度): 27.864027322486375
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: As generative large language models (LLMs) grow more performant and
prevalent, we must develop comprehensive enough tools to measure and improve
their fairness. Different prompt-based datasets can be used to measure social
bias across multiple text domains and demographic axes, meaning that testing
LLMs on more datasets can potentially help us characterize their biases more
fully, and better ensure equal and equitable treatment of marginalized
demographic groups. In this work, our focus is two-fold:
(1) Benchmarking: a comparison of 6 different prompt-based bias and toxicity
metrics across 12 demographic axes and 5 families of generative LLMs. Out of
those 6 metrics, AdvPromptSet and HolisticBiasR are novel datasets proposed in
the paper. The comparison of those benchmarks gives us insights about the bias
and toxicity of the compared models. Therefore, we explore the frequency of
demographic terms in common LLM pre-training corpora and how this may relate to
model biases.
(2) Mitigation: we conduct a comprehensive study of how well 3 bias/toxicity
mitigation techniques perform across our suite of measurements. ROBBIE aims to
provide insights for practitioners while deploying a model, emphasizing the
need to not only measure potential harms, but also understand how they arise by
characterizing the data, mitigate harms once found, and balance any trade-offs.
We open-source our analysis code in hopes of encouraging broader measurements
of bias in future LLMs.
- Abstract(参考訳): 生成型大規模言語モデル(llm)がより高性能で普及するにつれ、私たちはその公平性を測定し改善するための包括的なツールを開発する必要があります。
異なるプロンプトベースのデータセットは、複数のテキストドメインと人口統計学的軸にわたる社会的バイアスを測定するために使用することができる。
本研究の焦点は次の2つである:(1)ベンチマーク:12の人口動態軸と5つの生成LDMの家系にわたる6つの異なるプロンプトベースのバイアスと毒性の比較。
これら6つのメトリクスのうち、AdvPromptSetとHollisticBiasRは、論文で提案された新しいデータセットである。
これらのベンチマークを比較することで、比較モデルのバイアスと毒性に関する洞察が得られる。
そこで我々は, LLM事前学習コーパスにおける人口統計学用語の頻度とモデルバイアスとの関連性を検討する。
2)緩和:我々は,3つのバイアス/毒性緩和技術が測定群全体でどのように機能するかを包括的に検討する。
ROBBIEは、潜在的な害を計測するだけでなく、データを特徴付け、一度見つけた害を軽減し、トレードオフのバランスをとることでそれらがどのように起こるかを理解する必要があることを強調して、モデルをデプロイしながら実践者に洞察を提供することを目指している。
我々は、将来のLCMにおけるバイアスのより広範な測定を促進するために、分析コードをオープンソース化する。
関連論文リスト
- ChatGPT Based Data Augmentation for Improved Parameter-Efficient
Debiasing of LLMs [69.27030571729392]
大型言語モデル(LLM)は有害な社会的バイアスを示す。
そこで本研究では,ChatGPTを用いて合成学習データを生成する手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T01:28:48Z) - Perils of Self-Feedback: Self-Bias Amplifies in Large Language Models [79.5116305401044]
セルフフィードバックは、特定のタスクにおいて大きな言語モデル(LLM)を改善し、他のタスクを悪化させる。
近年の研究では、自己フィードバックは特定のタスクにおいて大きな言語モデル(LLM)を改善する一方で、他のタスクを悪化させることが示されている。
本稿は、LSMの自己バイアス(自称世代を好む傾向)を正式に定義する。
論文 参考訳(メタデータ) (2024-02-18T03:10:39Z) - Large Language Model (LLM) Bias Index -- LLMBI [0.0]
LLMBI(Large Language Model Bias Index)は、大規模言語モデル(LLM)に固有のバイアスを定量化し、対処するための先駆的なアプローチである。
年齢,性別,人種的偏見に限らず,多次元の偏見を取り入れた複合スコアリングシステムを用いたLLMBIの定式化を行った。
OpenAIのAPIからの応答を用いた実証分析では,バイアス検出の代表的な方法として,高度な感情分析を採用している。
論文 参考訳(メタデータ) (2023-12-22T15:38:13Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - Investigating Subtler Biases in LLMs: Ageism, Beauty, Institutional, and
Nationality Bias in Generative Models [0.0]
本稿では, 年齢や美しさなど, 研究の少ない, 連続的な, 次元に沿ったバイアスについて検討する。
実験心理学において, LLMは, 特定の社会集団に対して, 肯定的あるいは否定的な感情の偏見を広く保持するか否かを問う。
論文 参考訳(メタデータ) (2023-09-16T07:07:04Z) - Bias and Fairness in Large Language Models: A Survey [76.65471160523444]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - Non-Invasive Fairness in Learning through the Lens of Data Drift [88.37640805363317]
データや学習アルゴリズムを変更することなく、機械学習モデルの公平性を向上する方法を示す。
異なる集団間の傾向のばらつきと、学習モデルと少数民族間の連続的な傾向は、データドリフトと類似している。
このドリフトを解決するための2つの戦略(モデル分割とリウィーディング)を探索し、基礎となるデータに対するモデル全体の適合性を改善することを目的としている。
論文 参考訳(メタデータ) (2023-03-30T17:30:42Z) - Metrics for Dataset Demographic Bias: A Case Study on Facial Expression
Recognition [1.5340540198612824]
人口統計バイアスの最も顕著な種類は、データセットにおける人口統計群の表現における統計的不均衡である。
我々はこれらの指標を分類するための分類法を開発し、適切な指標を選択するための実践的なガイドを提供する。
この論文は、データセットバイアスを緩和し、AIモデルの公正性と正確性を改善するために、AIと関連する分野の研究者に貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-28T11:04:18Z) - D-BIAS: A Causality-Based Human-in-the-Loop System for Tackling
Algorithmic Bias [57.87117733071416]
D-BIASは、人間のループ内AIアプローチを具現化し、社会的バイアスを監査し軽減する視覚対話型ツールである。
ユーザは、因果ネットワークにおける不公平な因果関係を識別することにより、グループに対する偏見の存在を検出することができる。
それぞれのインタラクション、例えばバイアスのある因果縁の弱体化/削除は、新しい(偏りのある)データセットをシミュレートするために、新しい方法を用いている。
論文 参考訳(メタデータ) (2022-08-10T03:41:48Z) - "I'm sorry to hear that": Finding New Biases in Language Models with a
Holistic Descriptor Dataset [12.000335510088648]
新しい包括的バイアス測定データセットであるHollisticBiasを紹介します。
HolisticBiasは、これらの用語の生きた経験を持つ専門家やコミュニティメンバーを含む参加的なプロセスで組み立てられた。
我々は,HolisticBiasが,言語モデルからトークンの確率において,検出不能なバイアスを測定するのに有効であることを実証した。
論文 参考訳(メタデータ) (2022-05-18T20:37:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。