論文の概要: KoBBQ: Korean Bias Benchmark for Question Answering
- arxiv url: http://arxiv.org/abs/2307.16778v1
- Date: Mon, 31 Jul 2023 15:44:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 13:39:51.020543
- Title: KoBBQ: Korean Bias Benchmark for Question Answering
- Title(参考訳): kobbq:韓国の質問に対するバイアスベンチマーク
- Authors: Jiho Jin, Jiseon Kim, Nayeon Lee, Haneul Yoo, Alice Oh, Hwaran Lee
- Abstract要約: BBQ(Bias Benchmark for Question Answering)データセットは、下流タスクで言語モデル(LM)が示す社会的バイアスの評価を可能にする。
我々は、英語のBBQデータセットを文化的適応的な方法で活用することで、非英語のバイアスベンチマークデータセットを構築する方法を考案した。
韓国における質問応答(QA)課題におけるバイアス評価のためのKoBBQデータセットを提案する。
- 参考スコア(独自算出の注目度): 12.065125109320181
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The BBQ (Bias Benchmark for Question Answering) dataset enables the
evaluation of the social biases that language models (LMs) exhibit in
downstream tasks. However, it is challenging to adapt BBQ to languages other
than English as social biases are culturally dependent. In this paper, we
devise a process to construct a non-English bias benchmark dataset by
leveraging the English BBQ dataset in a culturally adaptive way and present the
KoBBQ dataset for evaluating biases in Question Answering (QA) tasks in Korean.
We identify samples from BBQ into three classes: Simply-Translated (can be used
directly after cultural translation), Target-Modified (requires localization in
target groups), and Sample-Removed (does not fit Korean culture). We further
enhance the cultural relevance to Korean culture by adding four new categories
of bias specific to Korean culture and newly creating samples based on Korean
literature. KoBBQ consists of 246 templates and 4,740 samples across 12
categories of social bias. Using KoBBQ, we measure the accuracy and bias scores
of several state-of-the-art multilingual LMs. We demonstrate the differences in
the bias of LMs in Korean and English, clarifying the need for hand-crafted
data considering cultural differences.
- Abstract(参考訳): BBQ(Bias Benchmark for Question Answering)データセットは、下流タスクで言語モデル(LM)が示す社会的バイアスの評価を可能にする。
しかし、社会的バイアスが文化的に依存しているため、BBQを英語以外の言語に適応させることは困難である。
本稿では,韓国語における質問回答(QA)タスクにおけるバイアスを評価するために,英語BBQデータセットを文化的適応的な方法で活用し,非英語バイアスベンチマークデータセットを構築する方法を考案する。
bbqから採取したサンプルを, 単純翻訳(文化翻訳後に直接使用できる), ターゲット修飾(ターゲットグループでのローカライズが必要), サンプル除去(韓国文化に適合しない)の3類に分類した。
さらに,韓国文化に特有のバイアスのカテゴリーを4つ追加し,韓国文学に基づくサンプルを新たに作成することで,韓国文化の文化的関連性をさらに高める。
KoBBQは、12のカテゴリーで246のテンプレートと4,740のサンプルで構成されている。
KoBBQを用いて,複数の最先端多言語LMの精度とバイアススコアを測定した。
韓国語と英語におけるlmsのバイアスの違いを実証し,文化差を考慮した手作りデータの必要性を明らかにする。
関連論文リスト
- IndiBias: A Benchmark Dataset to Measure Social Biases in Language Models for Indian Context [32.48196952339581]
インドにおける社会的バイアスを評価するためのベンチマークデータセットであるIndiBiasを紹介する。
バイアスの次元には、性別、宗教、キャスト、年齢、地域、身体的外観、職業が含まれる。
我々のデータセットには800の文対と300の偏差測定が含まれている。
論文 参考訳(メタデータ) (2024-03-29T12:32:06Z) - Detecting Bias in Large Language Models: Fine-tuned KcBERT [0.0]
我々は、このような害を社会的な偏見として定義し、韓国のコメントに微調整されたモデルで、民族、性別、人種的偏見を評価する。
我々の貢献は、言語に依存した特徴により、韓国語モデルに社会的バイアスが存在することを示すことである。
論文 参考訳(メタデータ) (2024-03-16T02:27:19Z) - CLIcK: A Benchmark Dataset of Cultural and Linguistic Intelligence in Korean [18.526285276022907]
韓国における1,995対のQAペアからなる文化・言語知能のベンチマークについて紹介する。
CLIcKは、公式の韓国の試験と教科書からデータを入手し、質問を言語と文化の2つの主要なカテゴリで11のカテゴリに分けている。
CLIcKを用いて、13の言語モデルを用いて、パフォーマンスを評価する。評価では、カテゴリ間でのパフォーマンスに関する洞察と、その理解に影響を与えるさまざまな要因を明らかにする。
論文 参考訳(メタデータ) (2024-03-11T03:54:33Z) - Social Bias Probing: Fairness Benchmarking for Language Models [48.5644008956526]
本稿では,社会的バイアスに対する言語モデル探索のための独自のフレームワークを提案する。
我々は,言語モデルの一般関連を分析するための探索データセットを収集し,社会的カテゴリ,アイデンティティ,ステレオタイプなどの軸に沿って収集する。
論文 参考訳(メタデータ) (2023-11-15T16:35:59Z) - Mitigating Bias for Question Answering Models by Tracking Bias Influence [87.84850806865059]
本稿では,複数選択QAモデルのバイアスを軽減するためのBMBIを提案する。
バイアスのある例から学んだ場合、モデルがよりバイアスに傾くように傾くという直感に基づいて、クエリインスタンスのバイアスレベルを測定します。
本手法は,複数のバイアスカテゴリにまたがる複数のQA定式化に適用可能であることを示す。
論文 参考訳(メタデータ) (2023-10-13T00:49:09Z) - CBBQ: A Chinese Bias Benchmark Dataset Curated with Human-AI
Collaboration for Large Language Models [52.25049362267279]
本稿では,人的専門家と生成言語モデルによって共同で構築された100万以上の質問からなる中国語バイアスベンチマークデータセットを提案する。
データセットのテストインスタンスは、手作業による厳格な品質管理を備えた3K以上の高品質テンプレートから自動的に抽出される。
大規模な実験により、データセットがモデルバイアスを検出することの有効性が実証された。
論文 参考訳(メタデータ) (2023-06-28T14:14:44Z) - The Tail Wagging the Dog: Dataset Construction Biases of Social Bias
Benchmarks [75.58692290694452]
社会的偏見と、データセット構築時に選択された選択から生じる非社会的偏見を比較し、人間の目では識別できないかもしれない。
これらの浅い修正は、様々なモデルにまたがるバイアスの程度に驚くべき影響を及ぼす。
論文 参考訳(メタデータ) (2022-10-18T17:58:39Z) - Few-shot Instruction Prompts for Pretrained Language Models to Detect
Social Biases [55.45617404586874]
我々は、事前訓練された言語モデル(LM)を誘導する数ショットの命令ベース手法を提案する。
大規模なLMは、微調整モデルとよく似た精度で、異なる種類の細粒度バイアスを検出できることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:19:52Z) - BBQ: A Hand-Built Bias Benchmark for Question Answering [25.108222728383236]
NLPモデルは、世界に存在する社会的バイアスを学習することは十分に文書化されているが、これらのバイアスが、質問応答(QA)のような適用されたタスクに対して、実際のモデルアウトプットにどのように現れるかを示す研究はほとんど行われていない。
筆者らによって構築された質問セットからなるデータセットであるBias Benchmark for QA (BBQ)を導入し、米国英語の文脈に関連する9つの異なる社会的次元に沿って、保護されたクラスに属する人々に対するテキストテストされた社会的偏見を強調した。
文脈が曖昧であるとき、モデルはステレオタイプに強く依存していることが分かり、つまり、モデルの出力は、この設定において有害なバイアスを一貫して再現する。
論文 参考訳(メタデータ) (2021-10-15T16:43:46Z) - UnQovering Stereotyping Biases via Underspecified Questions [68.81749777034409]
未特定質問からバイアスを探索・定量化するためのフレームワークUNQOVERを提案する。
モデルスコアの素直な使用は,2種類の推論誤差による誤ったバイアス推定につながる可能性があることを示す。
我々はこの指標を用いて、性別、国籍、民族、宗教の4つの重要なステレオタイプの分析を行う。
論文 参考訳(メタデータ) (2020-10-06T01:49:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。