論文の概要: KoBBQ: Korean Bias Benchmark for Question Answering
- arxiv url: http://arxiv.org/abs/2307.16778v1
- Date: Mon, 31 Jul 2023 15:44:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 13:39:51.020543
- Title: KoBBQ: Korean Bias Benchmark for Question Answering
- Title(参考訳): kobbq:韓国の質問に対するバイアスベンチマーク
- Authors: Jiho Jin, Jiseon Kim, Nayeon Lee, Haneul Yoo, Alice Oh, Hwaran Lee
- Abstract要約: BBQ(Bias Benchmark for Question Answering)データセットは、下流タスクで言語モデル(LM)が示す社会的バイアスの評価を可能にする。
我々は、英語のBBQデータセットを文化的適応的な方法で活用することで、非英語のバイアスベンチマークデータセットを構築する方法を考案した。
韓国における質問応答(QA)課題におけるバイアス評価のためのKoBBQデータセットを提案する。
- 参考スコア(独自算出の注目度): 12.065125109320181
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The BBQ (Bias Benchmark for Question Answering) dataset enables the
evaluation of the social biases that language models (LMs) exhibit in
downstream tasks. However, it is challenging to adapt BBQ to languages other
than English as social biases are culturally dependent. In this paper, we
devise a process to construct a non-English bias benchmark dataset by
leveraging the English BBQ dataset in a culturally adaptive way and present the
KoBBQ dataset for evaluating biases in Question Answering (QA) tasks in Korean.
We identify samples from BBQ into three classes: Simply-Translated (can be used
directly after cultural translation), Target-Modified (requires localization in
target groups), and Sample-Removed (does not fit Korean culture). We further
enhance the cultural relevance to Korean culture by adding four new categories
of bias specific to Korean culture and newly creating samples based on Korean
literature. KoBBQ consists of 246 templates and 4,740 samples across 12
categories of social bias. Using KoBBQ, we measure the accuracy and bias scores
of several state-of-the-art multilingual LMs. We demonstrate the differences in
the bias of LMs in Korean and English, clarifying the need for hand-crafted
data considering cultural differences.
- Abstract(参考訳): BBQ(Bias Benchmark for Question Answering)データセットは、下流タスクで言語モデル(LM)が示す社会的バイアスの評価を可能にする。
しかし、社会的バイアスが文化的に依存しているため、BBQを英語以外の言語に適応させることは困難である。
本稿では,韓国語における質問回答(QA)タスクにおけるバイアスを評価するために,英語BBQデータセットを文化的適応的な方法で活用し,非英語バイアスベンチマークデータセットを構築する方法を考案する。
bbqから採取したサンプルを, 単純翻訳(文化翻訳後に直接使用できる), ターゲット修飾(ターゲットグループでのローカライズが必要), サンプル除去(韓国文化に適合しない)の3類に分類した。
さらに,韓国文化に特有のバイアスのカテゴリーを4つ追加し,韓国文学に基づくサンプルを新たに作成することで,韓国文化の文化的関連性をさらに高める。
KoBBQは、12のカテゴリーで246のテンプレートと4,740のサンプルで構成されている。
KoBBQを用いて,複数の最先端多言語LMの精度とバイアススコアを測定した。
韓国語と英語におけるlmsのバイアスの違いを実証し,文化差を考慮した手作りデータの必要性を明らかにする。
関連論文リスト
- VLBiasBench: A Comprehensive Benchmark for Evaluating Bias in Large Vision-Language Model [72.13121434085116]
VLBiasBenchは、LVLM(Large Vision-Language Models)におけるバイアスの評価を目的としたベンチマークである。
我々は、年齢、障害状態、性別、国籍、身体的外観、人種、宗教、職業、社会的経済状態、および2つの交叉バイアスカテゴリー(人種x性、人種x社会経済状態)を含む9つの異なる社会バイアスカテゴリーを含むデータセットを構築した。
15のオープンソースモデルと1つの高度なクローズドソースモデルに対して広範な評価を行い、これらのモデルから明らかになったバイアスに関する新たな洞察を提供する。
論文 参考訳(メタデータ) (2024-06-20T10:56:59Z) - MBBQ: A Dataset for Cross-Lingual Comparison of Stereotypes in Generative LLMs [6.781972039785424]
生成的大規模言語モデル(LLM)は有害なバイアスやステレオタイプを示すことが示されている。
MBBQは、オランダ語、スペイン語、トルコ語でよく見られるステレオタイプを測定するデータセットである。
その結果、文化的な変化を抑えながら、英語以外の言語では、英語よりも偏見に悩まされていることが確認された。
論文 参考訳(メタデータ) (2024-06-11T13:23:14Z) - Analyzing Social Biases in Japanese Large Language Models [24.351580958043595]
本稿では,英語バイアスベンチマークBBQに基づいて,質問回答のための日本語バイアスベンチマークデータセット(JBBQ)を構築した。
日本語大言語モデル(LLM)における社会的バイアスの分析
社会的バイアスに関する警告と、モデルアウトプットにおけるバイアスの影響を減らそうとするChain-of-Thought。
論文 参考訳(メタデータ) (2024-06-04T07:31:06Z) - CLIcK: A Benchmark Dataset of Cultural and Linguistic Intelligence in Korean [18.526285276022907]
韓国における1,995対のQAペアからなる文化・言語知能のベンチマークについて紹介する。
CLIcKは、公式の韓国の試験と教科書からデータを入手し、質問を言語と文化の2つの主要なカテゴリで11のカテゴリに分けている。
CLIcKを用いて、13の言語モデルを用いて、パフォーマンスを評価する。評価では、カテゴリ間でのパフォーマンスに関する洞察と、その理解に影響を与えるさまざまな要因を明らかにする。
論文 参考訳(メタデータ) (2024-03-11T03:54:33Z) - Mitigating Bias for Question Answering Models by Tracking Bias Influence [84.66462028537475]
本稿では,複数選択QAモデルのバイアスを軽減するためのBMBIを提案する。
バイアスのある例から学んだ場合、モデルがよりバイアスに傾くように傾くという直感に基づいて、クエリインスタンスのバイアスレベルを測定します。
本手法は,複数のバイアスカテゴリにまたがる複数のQA定式化に適用可能であることを示す。
論文 参考訳(メタデータ) (2023-10-13T00:49:09Z) - CBBQ: A Chinese Bias Benchmark Dataset Curated with Human-AI
Collaboration for Large Language Models [52.25049362267279]
本稿では,人的専門家と生成言語モデルによって共同で構築された100万以上の質問からなる中国語バイアスベンチマークデータセットを提案する。
データセットのテストインスタンスは、手作業による厳格な品質管理を備えた3K以上の高品質テンプレートから自動的に抽出される。
大規模な実験により、データセットがモデルバイアスを検出することの有効性が実証された。
論文 参考訳(メタデータ) (2023-06-28T14:14:44Z) - The Tail Wagging the Dog: Dataset Construction Biases of Social Bias
Benchmarks [75.58692290694452]
社会的偏見と、データセット構築時に選択された選択から生じる非社会的偏見を比較し、人間の目では識別できないかもしれない。
これらの浅い修正は、様々なモデルにまたがるバイアスの程度に驚くべき影響を及ぼす。
論文 参考訳(メタデータ) (2022-10-18T17:58:39Z) - Few-shot Instruction Prompts for Pretrained Language Models to Detect
Social Biases [55.45617404586874]
我々は、事前訓練された言語モデル(LM)を誘導する数ショットの命令ベース手法を提案する。
大規模なLMは、微調整モデルとよく似た精度で、異なる種類の細粒度バイアスを検出できることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:19:52Z) - BBQ: A Hand-Built Bias Benchmark for Question Answering [25.108222728383236]
NLPモデルは、世界に存在する社会的バイアスを学習することは十分に文書化されているが、これらのバイアスが、質問応答(QA)のような適用されたタスクに対して、実際のモデルアウトプットにどのように現れるかを示す研究はほとんど行われていない。
筆者らによって構築された質問セットからなるデータセットであるBias Benchmark for QA (BBQ)を導入し、米国英語の文脈に関連する9つの異なる社会的次元に沿って、保護されたクラスに属する人々に対するテキストテストされた社会的偏見を強調した。
文脈が曖昧であるとき、モデルはステレオタイプに強く依存していることが分かり、つまり、モデルの出力は、この設定において有害なバイアスを一貫して再現する。
論文 参考訳(メタデータ) (2021-10-15T16:43:46Z) - UnQovering Stereotyping Biases via Underspecified Questions [68.81749777034409]
未特定質問からバイアスを探索・定量化するためのフレームワークUNQOVERを提案する。
モデルスコアの素直な使用は,2種類の推論誤差による誤ったバイアス推定につながる可能性があることを示す。
我々はこの指標を用いて、性別、国籍、民族、宗教の4つの重要なステレオタイプの分析を行う。
論文 参考訳(メタデータ) (2020-10-06T01:49:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。