論文の概要: EsBBQ and CaBBQ: The Spanish and Catalan Bias Benchmarks for Question Answering
- arxiv url: http://arxiv.org/abs/2507.11216v1
- Date: Tue, 15 Jul 2025 11:37:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:03.092997
- Title: EsBBQ and CaBBQ: The Spanish and Catalan Bias Benchmarks for Question Answering
- Title(参考訳): EsBBQとCaBBQ: スペインとカタルーニャのバイアスベンチマーク
- Authors: Valle Ruiz-Fernández, Mario Mina, Júlia Falcão, Luis Vasquez-Reina, Anna Sallés, Aitor Gonzalez-Agirre, Olatz Perez-de-Viñaspre,
- Abstract要約: 本稿では,スペイン語とスペイン語の質問回答ベンチマーク(EsBBQ, CaBBQ)を紹介する。
オリジナルのBBQに基づいて、これらの2つの並列データセットは、多重選択QA設定を使用して、10のカテゴリにわたる社会的バイアスを評価するように設計されている。
本稿では,モデルファミリ,サイズ,変種を考慮した大規模言語モデルの評価結果について報告する。
- 参考スコア(独自算出の注目度): 1.6630304911300329
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Previous literature has largely shown that Large Language Models (LLMs) perpetuate social biases learnt from their pre-training data. Given the notable lack of resources for social bias evaluation in languages other than English, and for social contexts outside of the United States, this paper introduces the Spanish and the Catalan Bias Benchmarks for Question Answering (EsBBQ and CaBBQ). Based on the original BBQ, these two parallel datasets are designed to assess social bias across 10 categories using a multiple-choice QA setting, now adapted to the Spanish and Catalan languages and to the social context of Spain. We report evaluation results on different LLMs, factoring in model family, size and variant. Our results show that models tend to fail to choose the correct answer in ambiguous scenarios, and that high QA accuracy often correlates with greater reliance on social biases.
- Abstract(参考訳): これまでの文献では、Large Language Models (LLMs) は、学習前のデータから学習した社会的偏見を永久に表している。
英語以外の言語やアメリカ国外の社会的文脈における社会的バイアス評価のリソースが不足していることを踏まえ,本稿ではスペイン語とカタルーニャ・バイアス・ベンチマーク(EsBBQ, CaBBQ)を紹介する。
当初のBBQに基づいて、これらの2つの並列データセットは、スペイン語とカタルーニャ語とスペインの社会的文脈に適応した多重選択QA設定を使用して、10のカテゴリにわたる社会的バイアスを評価するように設計されている。
モデルファミリ,サイズ,バリエーションの因子であるLLMの評価結果について報告する。
以上の結果から, モデルが不明瞭なシナリオにおいて正しい答えを選択するのに失敗する傾向があり, 高いQA精度は, 社会的バイアスに大きく依存する傾向にあることが示唆された。
関連論文リスト
- CaLMQA: Exploring culturally specific long-form question answering across 23 languages [58.18984409715615]
CaLMQAは、文化的に異なる23言語にわたる51.7Kの質問のデータセットである。
我々は,LLM生成長文回答の事実性,関連性,表面品質を評価する。
論文 参考訳(メタデータ) (2024-06-25T17:45:26Z) - Datasets for Multilingual Answer Sentence Selection [59.28492975191415]
ヨーロッパ5言語(フランス語、ドイツ語、イタリア語、ポルトガル語、スペイン語)でAS2のための新しい高品質データセットを導入する。
その結果、我々のデータセットは、堅牢で強力な多言語AS2モデルを作成する上で重要なものであることが示唆された。
論文 参考訳(メタデータ) (2024-06-14T16:50:29Z) - MBBQ: A Dataset for Cross-Lingual Comparison of Stereotypes in Generative LLMs [6.781972039785424]
生成的大規模言語モデル(LLM)は有害なバイアスやステレオタイプを示すことが示されている。
MBBQは、オランダ語、スペイン語、トルコ語でよく見られるステレオタイプを測定するデータセットである。
その結果、文化的な変化を抑えながら、英語以外の言語では、英語よりも偏見に悩まされていることが確認された。
論文 参考訳(メタデータ) (2024-06-11T13:23:14Z) - JBBQ: Japanese Bias Benchmark for Analyzing Social Biases in Large Language Models [24.351580958043595]
本稿では,英語バイアスベンチマークBBQに基づいて,質問回答のための日本語バイアスベンチマークデータセット(JBBQ)を構築した。
JBBQの精度が向上した現在の日本語LLMでは,そのバイアススコアが増大していることが示されている。
社会的バイアスと思考の連鎖について警告を発し、モデル出力におけるバイアスの効果を減少させる。
論文 参考訳(メタデータ) (2024-06-04T07:31:06Z) - On The Truthfulness of 'Surprisingly Likely' Responses of Large Language Models [5.252280724532548]
多くの場合、大きな言語モデルの驚くほどのレスポンスは、標準ベースラインよりも正確であることを示す。
例えば、TruthfulQAで最大24ポイントの総合的な改善を観察する。
また、驚くほどの確率が低いか、より正確でない場合を含む、さらなる分析結果も提供します。
論文 参考訳(メタデータ) (2023-11-13T19:21:25Z) - KoBBQ: Korean Bias Benchmark for Question Answering [28.091808407408823]
Bias Benchmark for Question Answering (BBQ)は、言語モデル(LM)の社会的バイアスを評価するように設計されている。
韓国のバイアスベンチマークデータセットであるKoBBQを紹介する。
本稿では,データセットの文化的適応を考慮に入れた一般的な枠組みを提案する。
論文 参考訳(メタデータ) (2023-07-31T15:44:15Z) - Evaluating and Modeling Attribution for Cross-Lingual Question Answering [80.4807682093432]
この研究は、言語間質問応答の属性を初めて研究したものである。
我々は、5つの言語でデータを収集し、最先端の言語間QAシステムの属性レベルを評価する。
回答のかなりの部分は、検索されたどのパスにも帰属しないことがわかった。
論文 参考訳(メタデータ) (2023-05-23T17:57:46Z) - PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - Generative Language Models for Paragraph-Level Question Generation [79.31199020420827]
強力な生成モデルが質問生成(QG)の最近の進歩につながっている
標準化された資源が存在しないため,QG研究の進歩を測定することは困難である。
我々はQGのベンチマークであるQG-Benchを導入し、既存のQGデータセットを標準QG設定に変換することで、既存の質問応答データセットを統一する。
論文 参考訳(メタデータ) (2022-10-08T10:24:39Z) - BBQ: A Hand-Built Bias Benchmark for Question Answering [25.108222728383236]
NLPモデルは、世界に存在する社会的バイアスを学習することは十分に文書化されているが、これらのバイアスが、質問応答(QA)のような適用されたタスクに対して、実際のモデルアウトプットにどのように現れるかを示す研究はほとんど行われていない。
筆者らによって構築された質問セットからなるデータセットであるBias Benchmark for QA (BBQ)を導入し、米国英語の文脈に関連する9つの異なる社会的次元に沿って、保護されたクラスに属する人々に対するテキストテストされた社会的偏見を強調した。
文脈が曖昧であるとき、モデルはステレオタイプに強く依存していることが分かり、つまり、モデルの出力は、この設定において有害なバイアスを一貫して再現する。
論文 参考訳(メタデータ) (2021-10-15T16:43:46Z) - Cross-Lingual GenQA: A Language-Agnostic Generative Question Answering
Approach for Open-Domain Question Answering [76.99585451345702]
オープン検索生成質問回答(GenQA)は、高品質で自然な回答を英語で提供することが証明されている。
我々は多言語環境に対するGenQAアプローチの最初の一般化について述べる。
論文 参考訳(メタデータ) (2021-10-14T04:36:29Z) - Counterfactual VQA: A Cause-Effect Look at Language Bias [117.84189187160005]
VQAモデルは、ショートカットとして言語バイアスに依存し、視覚と言語の両方からマルチモーダルな知識を十分に学ばない傾向にある。
本稿では,質問に対する直接的な因果的影響として,言語バイアスを捉えることのできる,新たな反事実推論フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-08T01:49:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。