Fugu-MT 論文翻訳(概要): KoBBQ: Korean Bias Benchmark for Question Answering

論文の概要: KoBBQ: Korean Bias Benchmark for Question Answering

arxiv url: http://arxiv.org/abs/2307.16778v1
Date: Mon, 31 Jul 2023 15:44:15 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-01 13:39:51.020543
Title: KoBBQ: Korean Bias Benchmark for Question Answering
Title（参考訳）: kobbq:韓国の質問に対するバイアスベンチマーク
Authors: Jiho Jin, Jiseon Kim, Nayeon Lee, Haneul Yoo, Alice Oh, Hwaran Lee
Abstract要約: BBQ(Bias Benchmark for Question Answering)データセットは、下流タスクで言語モデル(LM)が示す社会的バイアスの評価を可能にする。我々は、英語のBBQデータセットを文化的適応的な方法で活用することで、非英語のバイアスベンチマークデータセットを構築する方法を考案した。韓国における質問応答(QA)課題におけるバイアス評価のためのKoBBQデータセットを提案する。
参考スコア（独自算出の注目度）: 12.065125109320181
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: The BBQ (Bias Benchmark for Question Answering) dataset enables the evaluation of the social biases that language models (LMs) exhibit in downstream tasks. However, it is challenging to adapt BBQ to languages other than English as social biases are culturally dependent. In this paper, we devise a process to construct a non-English bias benchmark dataset by leveraging the English BBQ dataset in a culturally adaptive way and present the KoBBQ dataset for evaluating biases in Question Answering (QA) tasks in Korean. We identify samples from BBQ into three classes: Simply-Translated (can be used directly after cultural translation), Target-Modified (requires localization in target groups), and Sample-Removed (does not fit Korean culture). We further enhance the cultural relevance to Korean culture by adding four new categories of bias specific to Korean culture and newly creating samples based on Korean literature. KoBBQ consists of 246 templates and 4,740 samples across 12 categories of social bias. Using KoBBQ, we measure the accuracy and bias scores of several state-of-the-art multilingual LMs. We demonstrate the differences in the bias of LMs in Korean and English, clarifying the need for hand-crafted data considering cultural differences.
Abstract（参考訳）: BBQ(Bias Benchmark for Question Answering)データセットは、下流タスクで言語モデル(LM)が示す社会的バイアスの評価を可能にする。しかし、社会的バイアスが文化的に依存しているため、BBQを英語以外の言語に適応させることは困難である。本稿では,韓国語における質問回答(QA)タスクにおけるバイアスを評価するために,英語BBQデータセットを文化的適応的な方法で活用し,非英語バイアスベンチマークデータセットを構築する方法を考案する。 bbqから採取したサンプルを, 単純翻訳(文化翻訳後に直接使用できる), ターゲット修飾(ターゲットグループでのローカライズが必要), サンプル除去(韓国文化に適合しない)の3類に分類した。さらに,韓国文化に特有のバイアスのカテゴリーを4つ追加し,韓国文学に基づくサンプルを新たに作成することで,韓国文化の文化的関連性をさらに高める。 KoBBQは、12のカテゴリーで246のテンプレートと4,740のサンプルで構成されている。 KoBBQを用いて,複数の最先端多言語LMの精度とバイアススコアを測定した。韓国語と英語におけるlmsのバイアスの違いを実証し,文化差を考慮した手作りデータの必要性を明らかにする。

関連論文リスト

HeQ: a Large and Diverse Hebrew Reading Comprehension Benchmark [54.73504952691398]
我々は,抽出質問としてヘブライ語機械読解データセットの提供に着手した。ヘブライ語の形態学的に豊かな性質はこの努力に挑戦している。我々は,新しいガイドラインのセット,制御されたクラウドソーシングプロトコル,評価基準の改訂を考案した。
論文参考訳（メタデータ） (2025-08-03T15:53:01Z)
EsBBQ and CaBBQ: The Spanish and Catalan Bias Benchmarks for Question Answering [1.6630304911300329]
本稿では,スペイン語とスペイン語の質問回答ベンチマーク(EsBBQ, CaBBQ)を紹介する。オリジナルのBBQに基づいて、これらの2つの並列データセットは、多重選択QA設定を使用して、10のカテゴリにわたる社会的バイアスを評価するように設計されている。本稿では,モデルファミリ,サイズ,変種を考慮した大規模言語モデルの評価結果について報告する。
論文参考訳（メタデータ） (2025-07-15T11:37:30Z)
Social Bias Benchmark for Generation: A Comparison of Generation and QA-Based Evaluations [15.045809510740218]
本稿では,Bias Benchmark for Generation (BBG) を提案する。 10大言語モデル(LLM)における中性世代と偏り世代の発生確率を計測する。また,長大なストーリー生成評価結果と複数選択BBQ評価結果を比較し,両手法が矛盾する結果をもたらすことを示す。
論文参考訳（メタデータ） (2025-03-10T07:06:47Z)
VLBiasBench: A Comprehensive Benchmark for Evaluating Bias in Large Vision-Language Model [72.13121434085116]
VLBiasBenchは、LVLM(Large Vision-Language Models)におけるバイアスの評価を目的としたベンチマークである。我々は、年齢、障害状態、性別、国籍、身体的外観、人種、宗教、職業、社会的経済状態、および2つの交叉バイアスカテゴリー(人種x性、人種x社会経済状態)を含む9つの異なる社会バイアスカテゴリーを含むデータセットを構築した。 15のオープンソースモデルと1つの高度なクローズドソースモデルに対して広範な評価を行い、これらのモデルから明らかになったバイアスに関する新たな洞察を提供する。
論文参考訳（メタデータ） (2024-06-20T10:56:59Z)
MBBQ: A Dataset for Cross-Lingual Comparison of Stereotypes in Generative LLMs [6.781972039785424]
生成的大規模言語モデル(LLM)は有害なバイアスやステレオタイプを示すことが示されている。 MBBQは、オランダ語、スペイン語、トルコ語でよく見られるステレオタイプを測定するデータセットである。その結果、文化的な変化を抑えながら、英語以外の言語では、英語よりも偏見に悩まされていることが確認された。
論文参考訳（メタデータ） (2024-06-11T13:23:14Z)
Analyzing Social Biases in Japanese Large Language Models [24.351580958043595]
本稿では,英語バイアスベンチマークBBQに基づいて,質問回答のための日本語バイアスベンチマークデータセット(JBBQ)を構築した。日本語大言語モデル(LLM)における社会的バイアスの分析社会的バイアスに関する警告と、モデルアウトプットにおけるバイアスの影響を減らそうとするChain-of-Thought。
論文参考訳（メタデータ） (2024-06-04T07:31:06Z)
CLIcK: A Benchmark Dataset of Cultural and Linguistic Intelligence in Korean [18.526285276022907]
韓国における1,995対のQAペアからなる文化・言語知能のベンチマークについて紹介する。 CLIcKは、公式の韓国の試験と教科書からデータを入手し、質問を言語と文化の2つの主要なカテゴリで11のカテゴリに分けている。 CLIcKを用いて、13の言語モデルを用いて、パフォーマンスを評価する。評価では、カテゴリ間でのパフォーマンスに関する洞察と、その理解に影響を与えるさまざまな要因を明らかにする。
論文参考訳（メタデータ） (2024-03-11T03:54:33Z)
Bias in Language Models: Beyond Trick Tests and Toward RUTEd Evaluation [49.3814117521631]
大規模言語モデル(LLM)におけるバイアスと公平性の標準ベンチマークは、ユーザプロンプトに入力された社会的属性と短い応答の関係を測定する。実世界の3つの文脈から類似したRUTEd評価法を開発した。標準偏差指標は、より現実的な偏差指標と有意な相関関係がないことがわかった。
論文参考訳（メタデータ） (2024-02-20T01:49:15Z)
Mitigating Bias for Question Answering Models by Tracking Bias Influence [84.66462028537475]
本稿では,複数選択QAモデルのバイアスを軽減するためのBMBIを提案する。バイアスのある例から学んだ場合、モデルがよりバイアスに傾くように傾くという直感に基づいて、クエリインスタンスのバイアスレベルを測定します。本手法は,複数のバイアスカテゴリにまたがる複数のQA定式化に適用可能であることを示す。
論文参考訳（メタデータ） (2023-10-13T00:49:09Z)
CBBQ: A Chinese Bias Benchmark Dataset Curated with Human-AI Collaboration for Large Language Models [52.25049362267279]
本稿では,人的専門家と生成言語モデルによって共同で構築された100万以上の質問からなる中国語バイアスベンチマークデータセットを提案する。データセットのテストインスタンスは、手作業による厳格な品質管理を備えた3K以上の高品質テンプレートから自動的に抽出される。大規模な実験により、データセットがモデルバイアスを検出することの有効性が実証された。
論文参考訳（メタデータ） (2023-06-28T14:14:44Z)
The Tail Wagging the Dog: Dataset Construction Biases of Social Bias Benchmarks [75.58692290694452]
社会的偏見と、データセット構築時に選択された選択から生じる非社会的偏見を比較し、人間の目では識別できないかもしれない。これらの浅い修正は、様々なモデルにまたがるバイアスの程度に驚くべき影響を及ぼす。
論文参考訳（メタデータ） (2022-10-18T17:58:39Z)
Few-shot Instruction Prompts for Pretrained Language Models to Detect Social Biases [55.45617404586874]
我々は、事前訓練された言語モデル(LM)を誘導する数ショットの命令ベース手法を提案する。大規模なLMは、微調整モデルとよく似た精度で、異なる種類の細粒度バイアスを検出できることを示す。
論文参考訳（メタデータ） (2021-12-15T04:19:52Z)
BBQ: A Hand-Built Bias Benchmark for Question Answering [25.108222728383236]
NLPモデルは、世界に存在する社会的バイアスを学習することは十分に文書化されているが、これらのバイアスが、質問応答(QA)のような適用されたタスクに対して、実際のモデルアウトプットにどのように現れるかを示す研究はほとんど行われていない。筆者らによって構築された質問セットからなるデータセットであるBias Benchmark for QA (BBQ)を導入し、米国英語の文脈に関連する9つの異なる社会的次元に沿って、保護されたクラスに属する人々に対するテキストテストされた社会的偏見を強調した。文脈が曖昧であるとき、モデルはステレオタイプに強く依存していることが分かり、つまり、モデルの出力は、この設定において有害なバイアスを一貫して再現する。
論文参考訳（メタデータ） (2021-10-15T16:43:46Z)
UnQovering Stereotyping Biases via Underspecified Questions [68.81749777034409]
未特定質問からバイアスを探索・定量化するためのフレームワークUNQOVERを提案する。モデルスコアの素直な使用は,2種類の推論誤差による誤ったバイアス推定につながる可能性があることを示す。我々はこの指標を用いて、性別、国籍、民族、宗教の4つの重要なステレオタイプの分析を行う。
論文参考訳（メタデータ） (2020-10-06T01:49:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。