論文の概要: JUBAKU: An Adversarial Benchmark for Exposing Culturally Grounded Stereotypes in Japanese LLMs
- arxiv url: http://arxiv.org/abs/2603.20581v2
- Date: Wed, 25 Mar 2026 04:42:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 14:25:25.89063
- Title: JUBAKU: An Adversarial Benchmark for Exposing Culturally Grounded Stereotypes in Japanese LLMs
- Title(参考訳): JUBAKU:日本のLLMにおける文化的接地ステレオタイプ抽出のための逆ベンチマーク
- Authors: Taihei Shiotani, Masahiro Kaneko, Ayana Niwa, Yuki Maruyama, Daisuke Oba, Masanari Ohi, Naoaki Okazaki,
- Abstract要約: 本稿では,日本文化の文脈に合わせて,日本語のcUlture adversarial BiAs benchmarK(JUBAKU)について紹介する。
既存のベンチマークとは異なり、JUBAKUは日本語のアノテータが手作りした対話シナリオを特徴としている。
全てのモデルは明らかにJUBAKUに偏りを示し、確率ベースラインの50%以下で平均精度は23%であった。
- 参考スコア(独自算出の注目度): 26.36958334417298
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Social biases reflected in language are inherently shaped by cultural norms, which vary significantly across regions and lead to diverse manifestations of stereotypes. Existing evaluations of social bias in large language models (LLMs) for non-English contexts, however, often rely on translations of English benchmarks. Such benchmarks fail to reflect local cultural norms, including those found in Japanese. For instance, Western benchmarks may overlook Japan-specific stereotypes related to hierarchical relationships, regional dialects, or traditional gender roles. To address this limitation, we introduce Japanese cUlture adversarial BiAs benchmarK Under handcrafted creation (JUBAKU), a benchmark tailored to Japanese cultural contexts. JUBAKU uses adversarial construction to expose latent biases across ten distinct cultural categories. Unlike existing benchmarks, JUBAKU features dialogue scenarios hand-crafted by native Japanese annotators, specifically designed to trigger and reveal latent social biases in Japanese LLMs. We evaluated nine Japanese LLMs on JUBAKU and three others adapted from English benchmarks. All models clearly exhibited biases on JUBAKU, performing below the random baseline of 50% with an average accuracy of 23% (ranging from 13% to 33%), despite higher accuracy on the other benchmarks. Human annotators achieved 91% accuracy in identifying unbiased responses, confirming JUBAKU's reliability and its adversarial nature to LLMs.
- Abstract(参考訳): 言語に反映される社会的偏見は本質的に文化的規範によって形作られており、地域によって大きく異なる。
しかし、英語以外の文脈における大きな言語モデル(LLM)における社会的バイアスの既存の評価は、しばしば英語のベンチマークの翻訳に依存している。
このようなベンチマークは、日本語を含む地域文化の規範を反映していない。
例えば、西洋のベンチマークは、階層関係、地域方言、伝統的なジェンダーの役割に関連する日本固有のステレオタイプを見落としているかもしれない。
この制限に対処するために,日本文化の文脈に合わせた手工芸品作成のためのベンチマークである日本語 cUlture adversarial BiAs benchmarK(JUBAKU)を紹介する。
JUBAKUは10の文化カテゴリーにまたがる潜伏バイアスを明らかにするために敵対的な構成を使用している。
既存のベンチマークとは異なり、JUBAKUは日本語のアノテータが手作りした対話シナリオを特徴としている。
JUBAKU の日本語 LLM を9種類評価し,他の3種を英語のベンチマークから検討した。
すべてのモデルは明らかにJUBAKUに偏りを示し、他のベンチマークでは高い精度にもかかわらず、50%以下で平均23%(13%から33%)の精度で実行された。
JUBAKU の信頼性と LLM に対する逆性を確認し、不偏応答を91%の精度で同定した。
関連論文リスト
- MMA-ASIA: A Multilingual and Multimodal Alignment Framework for Culturally-Grounded Evaluation [91.22008265721952]
MMA-ASIAは、アジア8か国と10か国を対象とする人為的、多言語的、マルチモーダルなベンチマークに重点を置いている。
これは、テキスト、画像(視覚的質問応答)、音声の3つのモードにまたがる入力レベルで整列された最初のデータセットである。
i) 国間の文化的認識格差、(ii) 言語間の整合性、(iii) 言語間の整合性、(iv) 文化知識の一般化、(v) 基礎的妥当性を評価する5次元評価プロトコルを提案する。
論文 参考訳(メタデータ) (2025-10-07T14:12:12Z) - SESGO: Spanish Evaluation of Stereotypical Generative Outputs [1.1549572298362782]
本稿では,多言語大言語モデル(LLM)におけるバイアス評価における限界ギャップについて論じる。
現在の評価は、主に米国英語中心であり、他の言語や文化の文脈で潜在的に危害が及ばないままである。
教科学習における社会的偏見を検出するための,新しい文化的な枠組みを提案する。
論文 参考訳(メタデータ) (2025-09-03T14:04:51Z) - PakBBQ: A Culturally Adapted Bias Benchmark for QA [3.4455728937232597]
PakBBQは、文化的かつ地域的に適応した、質問回答データセットのオリジナルのバイアスベンチマークの拡張である。
PakBBQは、英語とウルドゥー語の両方の8つのカテゴリーにまたがる214以上のテンプレートと17180のQAペアで構成されており、年齢、障害、外観、性別、社会経済的地位、宗教、地域関係、言語形式を含む8つのバイアス次元をカバーしている。
論文 参考訳(メタデータ) (2025-08-13T20:42:44Z) - BharatBBQ: A Multilingual Bias Benchmark for Question Answering in the Indian Context [36.56689822791777]
Bias Benchmark for Question Answering (BBQ)のような既存のベンチマークは主に西洋の文脈に焦点を当てている。
BharatBBQは、ヒンディー語、英語、マラティー語、ベンガル語、タミル語、テルグ語、オディア語、アッサム語のバイアスを評価するために設計された、文化的に適応したベンチマークである。
我々のデータセットは1つの言語で49,108のサンプルを含み、翻訳と検証によって拡張され、8つの言語で392,864のサンプルとなる。
論文 参考訳(メタデータ) (2025-08-09T20:24:24Z) - Measuring South Asian Biases in Large Language Models [1.5903891569492878]
本研究は,Large Language Models (LLMs) の多言語および交叉解析を行うことにより,ギャップに対処する。
我々は、性別、宗教、婚姻状況、子供の数など、未発見の交差点を捉えた文化的根拠に基づく偏見辞書を構築した。
Indo-Aryan言語とDravidian言語における文化的偏見を減らすための2つの自己バイアス戦略を評価する。
論文 参考訳(メタデータ) (2025-05-24T02:18:17Z) - JMMMU: A Japanese Massive Multi-discipline Multimodal Understanding Benchmark for Culture-aware Evaluation [63.83457341009046]
JMMMU(JMMMU、日本語MMMU)は、日本の文化状況に基づいて、専門家レベルのタスクでLMMを評価するために設計された、日本初の大規模ベンチマークである。
CAサブセットを用いて、日本語で評価すると、多くのLMMのパフォーマンス低下が観察される。
両サブセットを組み合わせることで,一部のLMMはCAサブセットでは良好に機能するが,CSサブセットでは機能しないことが明らかとなり,文化的理解の深みに欠ける日本語の理解が浅かった。
論文 参考訳(メタデータ) (2024-10-22T17:59:56Z) - GenderCARE: A Comprehensive Framework for Assessing and Reducing Gender Bias in Large Language Models [73.23743278545321]
大規模言語モデル(LLM)は、自然言語生成において顕著な能力を示してきたが、社会的バイアスを増大させることも観察されている。
GenderCAREは、革新的な基準、バイアス評価、リダクションテクニック、評価メトリクスを含む包括的なフレームワークである。
論文 参考訳(メタデータ) (2024-08-22T15:35:46Z) - Bias in Language Models: Beyond Trick Tests and Toward RUTEd Evaluation [49.3814117521631]
大規模言語モデル(LLM)におけるバイアスと公平性の標準ベンチマークは、プロンプトによって記述されたユーザー属性とインプットの関係を測定する。
本研究では, 子どもの就寝時間, ユーザ・ペルソナ, 英語学習演習の3つの文脈から, RUTEdの類似性を評価する。
標準偏差指標は、より現実的な偏差指標と有意な相関関係がないことがわかった。
論文 参考訳(メタデータ) (2024-02-20T01:49:15Z) - KoBBQ: Korean Bias Benchmark for Question Answering [28.091808407408823]
Bias Benchmark for Question Answering (BBQ)は、言語モデル(LM)の社会的バイアスを評価するように設計されている。
韓国のバイアスベンチマークデータセットであるKoBBQを紹介する。
本稿では,データセットの文化的適応を考慮に入れた一般的な枠組みを提案する。
論文 参考訳(メタデータ) (2023-07-31T15:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。