論文の概要: CBBQ: A Chinese Bias Benchmark Dataset Curated with Human-AI
Collaboration for Large Language Models
- arxiv url: http://arxiv.org/abs/2306.16244v1
- Date: Wed, 28 Jun 2023 14:14:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-29 13:55:29.432765
- Title: CBBQ: A Chinese Bias Benchmark Dataset Curated with Human-AI
Collaboration for Large Language Models
- Title(参考訳): CBBQ: 大規模言語モデルのための人間-AIコラボレーションによる中国のバイアスベンチマークデータセット
- Authors: Yufei Huang and Deyi Xiong
- Abstract要約: 本稿では,人的専門家と生成言語モデルによって共同で構築された100万以上の質問からなる中国語バイアスベンチマークデータセットを提案する。
データセットのテストインスタンスは、手作業による厳格な品質管理を備えた3K以上の高品質テンプレートから自動的に抽出される。
大規模な実験により、データセットがモデルバイアスを検出することの有効性が実証された。
- 参考スコア(独自算出の注目度): 52.25049362267279
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Holistically measuring societal biases of large language models is crucial
for detecting and reducing ethical risks in highly capable AI models. In this
work, we present a Chinese Bias Benchmark dataset that consists of over 100K
questions jointly constructed by human experts and generative language models,
covering stereotypes and societal biases in 14 social dimensions related to
Chinese culture and values. The curation process contains 4 essential steps:
bias identification via extensive literature review, ambiguous context
generation, AI-assisted disambiguous context generation, snd manual review \&
recomposition. The testing instances in the dataset are automatically derived
from 3K+ high-quality templates manually authored with stringent quality
control. The dataset exhibits wide coverage and high diversity. Extensive
experiments demonstrate the effectiveness of the dataset in detecting model
bias, with all 10 publicly available Chinese large language models exhibiting
strong bias in certain categories. Additionally, we observe from our
experiments that fine-tuned models could, to a certain extent, heed
instructions and avoid generating outputs that are morally harmful in some
types, in the way of "moral self-correction". Our dataset and results are
publicly available at
\href{https://github.com/YFHuangxxxx/CBBQ}{https://github.com/YFHuangxxxx/CBBQ},
offering debiasing research opportunities to a widened community.
- Abstract(参考訳): 大規模言語モデルの社会的バイアスを理論的に測定することは、高度に有能なAIモデルの倫理的リスクの検出と低減に不可欠である。
本研究では,人間の専門家と生成言語モデルが共同で構築した10万以上の質問からなり,中国文化と価値観に関連する14の社会的次元におけるステレオタイプと社会バイアスをカバーする,中国バイアスベンチマークデータセットを提案する。
キュレーションプロセスには、広範な文献レビューによるバイアス識別、曖昧なコンテキスト生成、AIによるあいまいなコンテキスト生成、snd manual Review \& recompositionの4つの重要なステップが含まれている。
データセットのテストインスタンスは、3K以上の高品質なテンプレートから自動的に抽出される。
データセットは広範囲のカバレッジと高い多様性を示す。
広範な実験により、データセットがモデルバイアスの検出に有効であることが示され、公に入手可能な10の中国語大言語モデルはすべて、特定のカテゴリにおいて強いバイアスを示している。
さらに,我々は実験から,微調整されたモデルがある程度の注意を払って,あるタイプにおいて道徳的に有害なアウトプットを生成するのを避けることができることを観察した。
私たちのデータセットと結果は \href{https://github.com/yfhuangxxxx/cbbq}{https://github.com/yfhuangxxxx/cbbq} で公開されています。
関連論文リスト
- GUS-Net: Social Bias Classification in Text with Generalizations, Unfairness, and Stereotypes [2.2162879952427343]
本稿では,バイアス検出の革新的なアプローチであるGAS-Netを紹介する。
GUS-Netは、(G)エナラライゼーション、(U)nfairness、(S)tereotypesの3つの重要な種類のバイアスに焦点を当てている。
本手法は,事前学習したモデルの文脈エンコーディングを組み込むことにより,従来のバイアス検出手法を強化する。
論文 参考訳(メタデータ) (2024-10-10T21:51:22Z) - VLBiasBench: A Comprehensive Benchmark for Evaluating Bias in Large Vision-Language Model [72.13121434085116]
VLBiasBenchは、LVLM(Large Vision-Language Models)におけるバイアスの評価を目的としたベンチマークである。
我々は、年齢、障害状態、性別、国籍、身体的外観、人種、宗教、職業、社会的経済状態、および2つの交叉バイアスカテゴリー(人種x性、人種x社会経済状態)を含む9つの異なる社会バイアスカテゴリーを含むデータセットを構築した。
15のオープンソースモデルと1つの高度なクローズドソースモデルに対して広範な評価を行い、これらのモデルから明らかになったバイアスに関する新たな洞察を提供する。
論文 参考訳(メタデータ) (2024-06-20T10:56:59Z) - GECOBench: A Gender-Controlled Text Dataset and Benchmark for Quantifying Biases in Explanations [1.0000511213628438]
性別制御されたテキストデータセットであるGECOを作成し、それ以外は男性と女性に同じ文が現れる。
これにより、ジェンダー分類タスクの「世界説明」が根本から生まれる。
また,一般的なXAI手法をベンチマークする厳密な定量的評価フレームワークであるGECOBenchも提供する。
論文 参考訳(メタデータ) (2024-06-17T13:44:37Z) - Towards Auditing Large Language Models: Improving Text-based Stereotype
Detection [5.3634450268516565]
i) ジェンダー、人種、職業、宗教のステレオタイプテキストの52,751件を含むマルチグラインステレオタイプデータセットを紹介する。
そこで本研究では,新しいデータセットでトレーニングしたモデルについて,厳密に検証する実験を行った。
実験によると、マルチクラスの設定でモデルをトレーニングすることは、すべてのバイナリの1つよりも優れている。
論文 参考訳(メタデータ) (2023-11-23T17:47:14Z) - Scaling Laws Do Not Scale [54.72120385955072]
最近の研究によると、データセットのサイズが大きくなると、そのデータセットでトレーニングされたモデルのパフォーマンスが向上する。
このスケーリング法則の関係は、モデルのアウトプットの質を異なる集団がどのように認識するかと一致しないパフォーマンスを測定するために使われる指標に依存する、と我々は主張する。
異なるコミュニティは、互いに緊張関係にある価値を持ち、モデル評価に使用されるメトリクスについて、困難で、潜在的に不可能な選択をもたらす可能性がある。
論文 参考訳(メタデータ) (2023-07-05T15:32:21Z) - Exposing Bias in Online Communities through Large-Scale Language Models [3.04585143845864]
この研究は、言語モデルにおけるバイアスの欠陥を使用して、6つの異なるオンラインコミュニティのバイアスを調査します。
得られたモデルのバイアスは、異なる人口層を持つモデルに促し、これらの世代における感情と毒性の値を比較することで評価される。
この作業は、トレーニングデータからバイアスがどの程度容易に吸収されるかを確認するだけでなく、さまざまなデータセットやコミュニティのバイアスを特定し比較するためのスケーラブルな方法も提示する。
論文 参考訳(メタデータ) (2023-06-04T08:09:26Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Challenges in Measuring Bias via Open-Ended Language Generation [1.5552869983952944]
我々は、プロンプトセット、メトリクス、自動ツール、サンプリング戦略の特定の選択がバイアス結果にどのように影響するかを分析する。
オープンな言語生成におけるバイアスを報告するためのレコメンデーションを提供する。
論文 参考訳(メタデータ) (2022-05-23T19:57:15Z) - Automatically Identifying Semantic Bias in Crowdsourced Natural Language
Inference Datasets [78.6856732729301]
NLIデータセットに仮説を組み込んだ学習空間に"バイアスクラスタ"を見つけるために,モデル駆動で教師なしの手法を導入する。
データセットの仮説分布のセマンティックバイアスを改善するために、介入と追加のラベリングを行うことができる。
論文 参考訳(メタデータ) (2021-12-16T22:49:01Z) - Few-shot Instruction Prompts for Pretrained Language Models to Detect
Social Biases [55.45617404586874]
我々は、事前訓練された言語モデル(LM)を誘導する数ショットの命令ベース手法を提案する。
大規模なLMは、微調整モデルとよく似た精度で、異なる種類の細粒度バイアスを検出できることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:19:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。