論文の概要: SAGED: A Holistic Bias-Benchmarking Pipeline for Language Models with Customisable Fairness Calibration
- arxiv url: http://arxiv.org/abs/2409.11149v3
- Date: Sat, 16 Nov 2024 00:28:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:29:45.905124
- Title: SAGED: A Holistic Bias-Benchmarking Pipeline for Language Models with Customisable Fairness Calibration
- Title(参考訳): SAGED: カスタマイズ可能なフェアネス校正を備えた言語モデルのための全体論的なバイアスベンチマークパイプライン
- Authors: Xin Guan, Nathaniel Demchak, Saloni Gupta, Ze Wang, Ediz Ertekin Jr., Adriano Koshiyama, Emre Kazim, Zekun Wu,
- Abstract要約: SAGED(-Bias)はこれらの問題に対処する最初の総合的なベンチマークパイプラインである。
私たちは、Gemma2、Llama3.1、Mistral、Qwen2など、人気のある8bレベルのモデルでG20諸国でSAGEDを使用しています。
感情分析により、MistralとQwen2はGemma2やLlama3.1よりも最大差とバイアス濃度が低いが、すべてのモデルがロシアや(Qwen2を除く)中国に偏っていることが判明した。
- 参考スコア(独自算出の注目度): 12.148667791480579
- License:
- Abstract: The development of unbiased large language models is widely recognized as crucial, yet existing benchmarks fall short in detecting biases due to limited scope, contamination, and lack of a fairness baseline. SAGED(-Bias) is the first holistic benchmarking pipeline to address these problems. The pipeline encompasses five core stages: scraping materials, assembling benchmarks, generating responses, extracting numeric features, and diagnosing with disparity metrics. SAGED includes metrics for max disparity, such as impact ratio, and bias concentration, such as Max Z-scores. Noticing that assessment tool bias and contextual bias in prompts can distort evaluation, SAGED implements counterfactual branching and baseline calibration for mitigation. For demonstration, we use SAGED on G20 Countries with popular 8b-level models including Gemma2, Llama3.1, Mistral, and Qwen2. With sentiment analysis, we find that while Mistral and Qwen2 show lower max disparity and higher bias concentration than Gemma2 and Llama3.1, all models are notably biased against countries like Russia and (except for Qwen2) China. With further experiments to have models role-playing U.S. (vice-/former-) presidents, we see bias amplifies and shifts in heterogeneous directions. Moreover, we see Qwen2 and Mistral not engage in role-playing, while Llama3.1 and Gemma2 role-play Trump notably more intensively than Biden and Harris, indicating role-playing performance bias in these models.
- Abstract(参考訳): バイアスのない大規模言語モデルの開発は極めて重要であると広く認識されているが、既存のベンチマークはスコープの制限、汚染、公平性基準の欠如によるバイアスの検出に不足している。
SAGED(-Bias)はこれらの問題に対処する最初の総合的なベンチマークパイプラインである。
パイプラインは、スクレイピング材料、ベンチマークの組み立て、レスポンスの生成、数値的な特徴の抽出、異質なメトリクスの診断の5つのコアステージを含んでいる。
SAGEDには、インパクト比やマックスZスコアなどのバイアス集中といった最大差のメトリクスが含まれている。
SAGEDは、プロンプトにおける評価ツールのバイアスと文脈バイアスが評価を歪ませる可能性があることに気付き、修正のためのデファクトブランチとベースラインキャリブレーションを実装している。
デモでは、Gemma2、Llama3.1、Mistral、Qwen2など、人気のある8bレベルのモデルでG20諸国でSAGEDを使用します。
感情分析により、MistralとQwen2はGemma2やLlama3.1よりも最大差とバイアス濃度が低いが、すべてのモデルがロシアや(Qwen2を除く)中国に偏っていることが判明した。
ロールプレイングの米国大統領をモデルとするさらなる実験により、偏見は不均一な方向に増幅しシフトする。
さらに、Qwen2 と Mistral はロールプレイングには関与せず、Llama3.1 と Gemma2 のロールプレイング・トランプはビデンやハリスよりも特に集中しており、これらのモデルにおけるロールプレイングのパフォーマンスバイアスを示している。
関連論文リスト
- Investigating Implicit Bias in Large Language Models: A Large-Scale Study of Over 50 LLMs [0.0]
大規模言語モデル(LLM)は幅広いタスクで採用されている。
最近の研究では、LLMは明示的な偏見評価をパスしても暗黙の偏見を抑えることができることが示されている。
この研究は、新しい言語モデルやより大きな言語モデルが自動的にバイアスを減らさないことを強調している。
論文 参考訳(メタデータ) (2024-10-13T03:43:18Z) - VLBiasBench: A Comprehensive Benchmark for Evaluating Bias in Large Vision-Language Model [72.13121434085116]
我々は、LVLM(Large Vision-Language Models)におけるバイアスを評価するベンチマークであるVLBiasBenchを紹介する。
VLBiasBenchは、年齢、障害ステータス、性別、国籍、身体的外観、人種、宗教、職業、社会経済ステータスを含む9つの異なる社会バイアスのカテゴリを含むデータセットと、人種x性別と人種x社会経済ステータスの2つの交叉バイアスのカテゴリを含む。
15のオープンソースモデルと2つの高度なクローズドソースモデルに対して広範な評価を行い、これらのモデルに存在するバイアスに関する新たな洞察を得る。
論文 参考訳(メタデータ) (2024-06-20T10:56:59Z) - Bias in Language Models: Beyond Trick Tests and Toward RUTEd Evaluation [49.3814117521631]
大規模言語モデル(LLM)におけるバイアスと公平性の標準ベンチマークは、ユーザプロンプトに入力された社会的属性と短い応答の関係を測定する。
実世界の3つの文脈から類似したRUTEd評価法を開発した。
標準偏差指標は、より現実的な偏差指標と有意な相関関係がないことがわかった。
論文 参考訳(メタデータ) (2024-02-20T01:49:15Z) - Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - An investigation of structures responsible for gender bias in BERT and
DistilBERT [5.339044919864443]
大規模トランスフォーマーベースの事前学習言語モデル(PLM)は、自然言語処理(NLP)の状況を変えた。
重要な問題は、PLMと蒸留した両者による予測の公平性である。
その結果, (I) 偏見を生じさせる特定の層を特定することはできない; (II) 全ての注意頭は偏見を均一に符号化する; ただし, 感度特性のバランスが低いクラスでは, 偏見を均一に表現する。
論文 参考訳(メタデータ) (2024-01-12T10:42:20Z) - Quantifying Bias in Text-to-Image Generative Models [49.60774626839712]
テキスト・トゥ・イメージ(T2I)モデルにおけるバイアスは不公平な社会的表現を伝播させ、アイデアを積極的にマーケティングしたり、議論の的となっている議題を推進したりするのに用いられる。
既存のT2Iモデルバイアス評価手法は、社会的バイアスのみに焦点を当てる。
本稿では,T2I生成モデルにおける一般バイアスの定量化手法を提案する。
論文 参考訳(メタデータ) (2023-12-20T14:26:54Z) - ROBBIE: Robust Bias Evaluation of Large Generative Language Models [27.864027322486375]
異なるプロンプトベースのデータセットを使用して、複数のテキストドメインと人口統計軸にわたる社会的バイアスを測定することができる。
我々は,12の人口動態軸と5のジェネレーションLLMの家系の6つの異なるプロンプトベースのバイアスと毒性の指標を比較した。
3つのバイアス/毒性の緩和技術が、我々の一連の測定においていかにうまく機能するかを包括的に研究する。
論文 参考訳(メタデータ) (2023-11-29T23:03:04Z) - Keeping Up with the Language Models: Systematic Benchmark Extension for Bias Auditing [33.25539075550122]
我々は, LM生成語彙変動, 逆フィルタリング, 人間の検証を組み合わせることで, 既存のNLIのバイアスベンチマークを拡張した。
BBNLI-nextは最先端のNLIモデルの精度を95.3%から57.5%に下げることを示した。
バイアスとモデル脆性の両方を考慮したバイアス対策を提案する。
論文 参考訳(メタデータ) (2023-05-22T01:02:45Z) - Few-shot Instruction Prompts for Pretrained Language Models to Detect
Social Biases [55.45617404586874]
我々は、事前訓練された言語モデル(LM)を誘導する数ショットの命令ベース手法を提案する。
大規模なLMは、微調整モデルとよく似た精度で、異なる種類の細粒度バイアスを検出できることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:19:52Z) - UnQovering Stereotyping Biases via Underspecified Questions [68.81749777034409]
未特定質問からバイアスを探索・定量化するためのフレームワークUNQOVERを提案する。
モデルスコアの素直な使用は,2種類の推論誤差による誤ったバイアス推定につながる可能性があることを示す。
我々はこの指標を用いて、性別、国籍、民族、宗教の4つの重要なステレオタイプの分析を行う。
論文 参考訳(メタデータ) (2020-10-06T01:49:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。