論文の概要: Assessing Bias in Metric Models for LLM Open-Ended Generation Bias Benchmarks
- arxiv url: http://arxiv.org/abs/2410.11059v1
- Date: Mon, 14 Oct 2024 20:08:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:04:13.579731
- Title: Assessing Bias in Metric Models for LLM Open-Ended Generation Bias Benchmarks
- Title(参考訳): LLM Open-Ended Generation Biasベンチマークにおけるメトリクスモデルのバイアス評価
- Authors: Nathaniel Demchak, Xin Guan, Zekun Wu, Ziyi Xu, Adriano Koshiyama, Emre Kazim,
- Abstract要約: 本研究では,BOLDやSAGEDといったオープンソースのベンチマークにおいて,そのようなバイアスについて検討する。
結果は、より堅牢なバイアスメトリックモデルを要求する、人口統計記述子の不平等な扱いを明らかにしている。
- 参考スコア(独自算出の注目度): 3.973239756262797
- License:
- Abstract: Open-generation bias benchmarks evaluate social biases in Large Language Models (LLMs) by analyzing their outputs. However, the classifiers used in analysis often have inherent biases, leading to unfair conclusions. This study examines such biases in open-generation benchmarks like BOLD and SAGED. Using the MGSD dataset, we conduct two experiments. The first uses counterfactuals to measure prediction variations across demographic groups by altering stereotype-related prefixes. The second applies explainability tools (SHAP) to validate that the observed biases stem from these counterfactuals. Results reveal unequal treatment of demographic descriptors, calling for more robust bias metric models.
- Abstract(参考訳): オープンジェネレーションバイアスベンチマークは、アウトプットを分析して、大規模言語モデル(LLM)における社会的バイアスを評価する。
しかし、分析で使われる分類器は、しばしば固有のバイアスを持ち、不公平な結論に至る。
本研究では,BOLDやSAGEDといったオープンソースのベンチマークにおいて,そのようなバイアスについて検討する。
MGSDデータセットを用いて2つの実験を行った。
1つ目は、ステレオタイプに関連する接頭辞を変更することで、人口集団間での予測変動を測定するために、カウンターファクトアルを使用する。
第二に、観察されたバイアスがこれらの反事実に由来することを検証するための説明可能性ツール(SHAP)を適用する。
結果は、より堅牢なバイアスメトリックモデルを要求する、人口統計記述子の不平等な扱いを明らかにしている。
関連論文リスト
- VLBiasBench: A Comprehensive Benchmark for Evaluating Bias in Large Vision-Language Model [72.13121434085116]
VLBiasBenchは、LVLM(Large Vision-Language Models)におけるバイアスの評価を目的としたベンチマークである。
我々は、年齢、障害状態、性別、国籍、身体的外観、人種、宗教、職業、社会的経済状態、および2つの交叉バイアスカテゴリー(人種x性、人種x社会経済状態)を含む9つの異なる社会バイアスカテゴリーを含むデータセットを構築した。
15のオープンソースモデルと1つの高度なクローズドソースモデルに対して広範な評価を行い、これらのモデルから明らかになったバイアスに関する新たな洞察を提供する。
論文 参考訳(メタデータ) (2024-06-20T10:56:59Z) - Subtle Biases Need Subtler Measures: Dual Metrics for Evaluating Representative and Affinity Bias in Large Language Models [10.73340009530019]
本研究は,Large Language Models (LLMs) における2つのバイアス,代表バイアスと親和性バイアスに対処する。
我々は,これらのバイアスを測定するために,代表バイアススコア(RBS)と親和性バイアススコア(ABS)の2つの新しい指標を導入する。
我々の分析では、白人、ストレート、男性と関連する身元を選好する著名なLSMにおいて、顕著な偏見が明らかとなった。
親和性バイアスによる各モデルにおける特徴的評価パターンの解明
論文 参考訳(メタデータ) (2024-05-23T13:35:34Z) - Beyond Performance: Quantifying and Mitigating Label Bias in LLMs [8.77694178599322]
モデル予測におけるラベルバイアスを定量化するための様々なアプローチを評価する。
本研究により, 脱バイアス前後のモデルに有意なラベルバイアスが認められた。
数発のプロンプトに適したラベルバイアス校正法を提案する。
論文 参考訳(メタデータ) (2024-05-04T19:53:03Z) - ROBBIE: Robust Bias Evaluation of Large Generative Language Models [27.864027322486375]
異なるプロンプトベースのデータセットを使用して、複数のテキストドメインと人口統計軸にわたる社会的バイアスを測定することができる。
我々は,12の人口動態軸と5のジェネレーションLLMの家系の6つの異なるプロンプトベースのバイアスと毒性の指標を比較した。
3つのバイアス/毒性の緩和技術が、我々の一連の測定においていかにうまく機能するかを包括的に研究する。
論文 参考訳(メタデータ) (2023-11-29T23:03:04Z) - IBADR: an Iterative Bias-Aware Dataset Refinement Framework for
Debiasing NLU models [52.03761198830643]
IBADR(Iterative Bias-Aware dataset Refinement framework)を提案する。
まず、プール内のサンプルのバイアス度を定量化するために浅いモデルを訓練する。
次に、各サンプルにバイアス度を表すバイアス指標をペアにして、これらの拡張サンプルを使用してサンプルジェネレータを訓練する。
このようにして、このジェネレータは、バイアスインジケータとサンプルの対応関係を効果的に学習することができる。
論文 参考訳(メタデータ) (2023-11-01T04:50:38Z) - Testing Occupational Gender Bias in Language Models: Towards Robust Measurement and Zero-Shot Debiasing [98.07536837448293]
大規模言語モデル(LLM)は、様々な人口層に対して有害で人間らしいバイアスを示すことが示されている。
生成言語モデルにおけるバイアスを頑健に測定するためのdesiderataのリストを紹介する。
次に、このベンチマークを使用して、Llama、Mistral、およびそれらの命令チューニングバージョンを含む、最先端のオープンソースLLMをテストします。
論文 参考訳(メタデータ) (2022-12-20T22:41:24Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z) - Balancing out Bias: Achieving Fairness Through Training Reweighting [58.201275105195485]
自然言語処理におけるバイアスは、性別や人種などの著者の特徴を学習するモデルから生じる。
既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。
本稿では,インスタンス再重み付けを用いたバイアス対策法を提案する。
論文 参考訳(メタデータ) (2021-09-16T23:40:28Z) - LOGAN: Local Group Bias Detection by Clustering [86.38331353310114]
コーパスレベルでバイアスを評価することは、モデルにバイアスがどのように埋め込まれているかを理解するのに十分ではない、と我々は主張する。
クラスタリングに基づく新しいバイアス検出手法であるLOGANを提案する。
毒性分類および対象分類タスクの実験は、LOGANが局所領域のバイアスを特定することを示している。
論文 参考訳(メタデータ) (2020-10-06T16:42:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。