Fugu-MT 論文翻訳(概要): CALM : A Multi-task Benchmark for Comprehensive Assessment of Language Model Bias

論文の概要: CALM : A Multi-task Benchmark for Comprehensive Assessment of Language Model Bias

arxiv url: http://arxiv.org/abs/2308.12539v1
Date: Thu, 24 Aug 2023 03:53:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-25 15:26:05.640969
Title: CALM : A Multi-task Benchmark for Comprehensive Assessment of Language Model Bias
Title（参考訳）: CALM : 言語モデルバイアスの総合評価のためのマルチタスクベンチマーク
Authors: Vipul Gupta, Pranav Narayanan Venkit, Hugo Lauren\c{c}on, Shomir Wilson, Rebecca J. Passonneau
Abstract要約: 言語モデルバイアスの包括的評価(CALM)は、言語モデル(LM)におけるバイアスの定量化のためのベンチマークデータセットである。ウィキペディアやニュース記事など、さまざまなドメインにまたがる16の既存のデータセットを統合して、224のテンプレートをフィルタリングし、78,400のデータセットを構築します。我々のデータセットは従来のデータセットよりも多様で信頼性が高いため、モデルのバイアスを確実に評価するために必要な言語的変動の幅をより正確に把握できることを示す。
参考スコア（独自算出の注目度）: 8.031232439623627
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As language models (LMs) become increasingly powerful, it is important to quantify and compare them for sociodemographic bias with potential for harm. Prior bias measurement datasets are sensitive to perturbations in their manually designed templates, therefore unreliable. To achieve reliability, we introduce the Comprehensive Assessment of Language Model bias (CALM), a benchmark dataset to quantify bias in LMs across three tasks. We integrate 16 existing datasets across different domains, such as Wikipedia and news articles, to filter 224 templates from which we construct a dataset of 78,400 examples. We compare the diversity of CALM with prior datasets on metrics such as average semantic similarity, and variation in template length, and test the sensitivity to small perturbations. We show that our dataset is more diverse and reliable than previous datasets, thus better capture the breadth of linguistic variation required to reliably evaluate model bias. We evaluate 20 large language models including six prominent families of LMs such as Llama-2. In two LM series, OPT and Bloom, we found that larger parameter models are more biased than lower parameter models. We found the T0 series of models to be the least biased. Furthermore, we noticed a tradeoff between gender and racial bias with increasing model size in some model series. The code is available at https://github.com/vipulgupta1011/CALM.
Abstract（参考訳）: 言語モデル(LM)がますます強力になるにつれて、社会的な偏見と害の可能性を定量化し比較することが重要である。事前バイアス測定データセットは、手動で設計されたテンプレートの摂動に敏感であり、信頼できない。信頼性を実現するために,3つのタスクにまたがるlmsのバイアスを定量化するベンチマークデータセットである言語モデルバイアス(calm)の包括的評価を紹介する。ウィキペディアやニュース記事など、さまざまなドメインにまたがる16の既存のデータセットを統合して、224のテンプレートをフィルタリングし、78,400のデータセットを構築します。平均意味的類似度やテンプレート長の変動といった指標に基づいて,CALMの多様性を事前データセットと比較し,小さな摂動に対する感度を検証した。我々のデータセットは従来のデータセットよりも多様で信頼性が高いため、モデルのバイアスを確実に評価するために必要な言語的変動の幅をよりよく捉えている。 Llama-2のような6つの著名なLM群を含む20の大規模言語モデルを評価する。オプトとブルームという2つのlm級数において、より大きいパラメータモデルはより低いパラメータモデルよりもバイアスが高いことが判明した。 t0シリーズのモデルが最もバイアスが少ないことが分かりました。さらに,モデルシリーズのモデルサイズの増加に伴い,性別と人種バイアスのトレードオフがみられた。コードはhttps://github.com/vipulgupta1011/calmで入手できる。

関連論文リスト

When Scale Meets Diversity: Evaluating Language Models on Fine-Grained Multilingual Claim Verification [14.187153195380668]
大規模言語モデルは、多くのNLPタスクにまたがる顕著な能力を持つが、ニュアンス付き分類スキームを用いた多言語クレーム検証の有効性は、まだ検討されていない。 X-Factデータセットでは、7つの異なる精度カテゴリを持つ25言語にまたがる5つの最先端言語モデルを評価する。驚くべきことに、XLM-R は全試験 LLM よりかなり優れており、57.7% のマクロF1 を 16.9% の最高の LLM 性能と比較すると達成している。
論文参考訳（メタデータ） (2025-07-28T10:49:04Z)
Surface Fairness, Deep Bias: A Comparative Study of Bias in Language Models [49.41113560646115]
大規模言語モデル(LLM)におけるバイアスの様々なプロキシ尺度について検討する。 MMLU (Multi-subject benchmark) を用いた人格評価モデルでは, スコアの無作為かつ大半がランダムな差が生じることがわかった。 LLMアシスタントメモリとパーソナライゼーションの最近の傾向により、これらの問題は異なる角度から開かれている。
論文参考訳（メタデータ） (2025-06-12T08:47:40Z)
ExpliCa: Evaluating Explicit Causal Reasoning in Large Language Models [75.05436691700572]
明示的な因果推論において,LLM(Large Language Models)を評価するための新しいデータセットであるExpliCaを紹介する。 ExpliCa上で7つの商用およびオープンソース LLM をテストしました。驚くべきことに、モデルは因果関係と時間的関係を関連付ける傾向にあり、そのパフォーマンスはイベントの言語的順序にも強く影響される。
論文参考訳（メタデータ） (2025-02-21T14:23:14Z)
With a Grain of SALT: Are LLMs Fair Across Social Dimensions? [3.979019316355144]
本稿では,オープンソースLarge Language Models (LLM) における様々な性別,宗教,人種間のバイアスの分析を行う。一般討論,定位討論,キャリアアドバイザ,ストーリー生成,問題解決,カバーレタライティング,CV生成という,7つのバイアストリガを用いたバイアス検出データセットを生成する手法を提案する。我々は, GPT-4o-mini を用いて各グループに関連付けられた LLM 生成テキストを匿名化し, GPT-4o-as-a-Judge を用いて相互比較を行う。
論文参考訳（メタデータ） (2024-10-16T12:22:47Z)
STOP! Benchmarking Large Language Models with Sensitivity Testing on Offensive Progressions [6.19084217044276]
大規模言語モデル(LLM)における明示的バイアスと暗黙的バイアスの緩和は、自然言語処理の分野において重要な焦点となっている。我々は,2700のユニークな文を含む450の攻撃的進行を含む,攻撃的進行に関する感性テストデータセットを紹介した。以上の結果から,最も優れたモデルでさえバイアスを不整合に検出し,成功率は19.3%から69.8%であった。
論文参考訳（メタデータ） (2024-09-20T18:34:38Z)
Do Multilingual Large Language Models Mitigate Stereotype Bias? [9.31741279000585]
この研究は、英語、ドイツ語、フランス語、イタリア語、スペイン語で同じ大きさの6つのLLMを体系的に訓練する。単言語モデルと比較して,多言語モデルの方がバイアスの低いだけでなく,予測精度も優れていることが観察された。
論文参考訳（メタデータ） (2024-07-08T08:46:50Z)
Paraphrase and Aggregate with Large Language Models for Minimizing Intent Classification Errors [19.601600598570215]
大規模言語モデル(LLM)は,大規模な多クラス分類タスクにおいて高い性能を達成できるが,いまだに分類誤りを発生させ,さらに悪化させ,語彙外なクラスラベルを生成する。本稿では、LLMが入力クエリ(並列クエリ)の複数のパラフレーズを生成するParaphrase and AGgregate (PAG)-LLMアプローチを提案する。 PAG-LLM は LLM が不確実なハードケースでは特に有効であり, 致命的誤分類と幻覚的ラベル生成誤差を低減させる。
論文参考訳（メタデータ） (2024-06-24T22:30:26Z)
VLBiasBench: A Comprehensive Benchmark for Evaluating Bias in Large Vision-Language Model [72.13121434085116]
VLBiasBenchは、LVLM(Large Vision-Language Models)におけるバイアスの評価を目的としたベンチマークである。我々は、年齢、障害状態、性別、国籍、身体的外観、人種、宗教、職業、社会的経済状態、および2つの交叉バイアスカテゴリー(人種x性、人種x社会経済状態)を含む9つの異なる社会バイアスカテゴリーを含むデータセットを構築した。 15のオープンソースモデルと1つの高度なクローズドソースモデルに対して広範な評価を行い、これらのモデルから明らかになったバイアスに関する新たな洞察を提供する。
論文参考訳（メタデータ） (2024-06-20T10:56:59Z)
The Impact of Unstated Norms in Bias Analysis of Language Models [0.03495246564946556]
事実バイアス評価はバイアスの定量化に広く用いられている手法である。テンプレートベースのプローブは非現実的なバイアス測定につながる可能性がある。
論文参考訳（メタデータ） (2024-04-04T14:24:06Z)
Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文参考訳（メタデータ） (2024-03-26T12:47:39Z)
Taxonomy-based CheckList for Large Language Model Evaluation [0.0]
我々は、自然言語の介入に人間の知識を導入し、事前訓練された言語モデル(LM)の振る舞いを研究する。 CheckListの振る舞いテストに触発されて,LMの非倫理的行動の探索と定量化を目的としたチェックリストスタイルのタスクを提案する。
論文参考訳（メタデータ） (2023-12-15T12:58:07Z)
CBBQ: A Chinese Bias Benchmark Dataset Curated with Human-AI Collaboration for Large Language Models [52.25049362267279]
本稿では,人的専門家と生成言語モデルによって共同で構築された100万以上の質問からなる中国語バイアスベンチマークデータセットを提案する。データセットのテストインスタンスは、手作業による厳格な品質管理を備えた3K以上の高品質テンプレートから自動的に抽出される。大規模な実験により、データセットがモデルバイアスを検出することの有効性が実証された。
論文参考訳（メタデータ） (2023-06-28T14:14:44Z)
Holistic Evaluation of Language Models [183.94891340168175]
言語モデル(LM)は、ほとんどすべての主要言語技術の基盤となっているが、その能力、制限、リスクはよく理解されていない。本稿では,言語モデルの透明性を向上させるために,言語モデルの完全性評価(HELM)を提案する。
論文参考訳（メタデータ） (2022-11-16T18:51:34Z)
Few-shot Instruction Prompts for Pretrained Language Models to Detect Social Biases [55.45617404586874]
我々は、事前訓練された言語モデル(LM)を誘導する数ショットの命令ベース手法を提案する。大規模なLMは、微調整モデルとよく似た精度で、異なる種類の細粒度バイアスを検出できることを示す。
論文参考訳（メタデータ） (2021-12-15T04:19:52Z)
LOGAN: Local Group Bias Detection by Clustering [86.38331353310114]
コーパスレベルでバイアスを評価することは、モデルにバイアスがどのように埋め込まれているかを理解するのに十分ではない、と我々は主張する。クラスタリングに基づく新しいバイアス検出手法であるLOGANを提案する。毒性分類および対象分類タスクの実験は、LOGANが局所領域のバイアスを特定することを示している。
論文参考訳（メタデータ） (2020-10-06T16:42:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。