Fugu-MT 論文翻訳(概要): A Japanese Benchmark for Evaluating Social Bias in Reasoning Based on Attribution Theory

論文の概要: A Japanese Benchmark for Evaluating Social Bias in Reasoning Based on Attribution Theory

arxiv url: http://arxiv.org/abs/2604.00568v1
Date: Wed, 01 Apr 2026 07:21:49 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-02 16:44:31.888098
Title: A Japanese Benchmark for Evaluating Social Bias in Reasoning Based on Attribution Theory
Title（参考訳）: 帰属理論に基づく推論における社会的バイアス評価のための日本語ベンチマーク
Authors: Taihei Shiotani, Masahiro Kaneko, Naoaki Okazaki,
Abstract要約: 既存の日本のベンチマークは、英語データの翻訳に大きく依存している。 JUBAKU-v2' という新たなデータセットを構築した。
参考スコア（独自算出の注目度）: 29.89750389358254
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In enhancing the fairness of Large Language Models (LLMs), evaluating social biases rooted in the cultural contexts of specific linguistic regions is essential. However, most existing Japanese benchmarks heavily rely on translating English data, which does not necessarily provide an evaluation suitable for Japanese culture. Furthermore, they only evaluate bias in the conclusion, failing to capture biases lurking in the reasoning. In this study, based on attribution theory in social psychology, we constructed a new dataset, ``JUBAKU-v2,'' which evaluates the bias in attributing behaviors to in-groups and out-groups within reasoning while fixing the conclusion. This dataset consists of 216 examples reflecting cultural biases specific to Japan. Experimental results verified that it can detect performance differences across models more sensitively than existing benchmarks.
Abstract（参考訳）: 大規模言語モデル(LLM)の公平性を高めるためには、特定の言語領域の文化的文脈に根ざした社会的偏見を評価することが不可欠である。しかし、既存の日本のベンチマークのほとんどは、必ずしも日本文化に適した評価を与えていない英語データの翻訳に大きく依存している。さらに、彼らは結論のバイアスのみを評価し、推論に潜むバイアスを捉えなかった。本研究では, 社会心理学における帰属論に基づき, 結論を定めながら, 帰属行動の帰属行動と帰属行動のバイアスを評価する新たなデータセット「JUBAKU-v2」を構築した。本データセットは,日本固有の文化バイアスを反映した216例からなる。実験の結果、既存のベンチマークよりも敏感にモデル間の性能差を検出できることが確認された。

関連論文リスト

JUBAKU: An Adversarial Benchmark for Exposing Culturally Grounded Stereotypes in Japanese LLMs [26.36958334417298]
本稿では,日本文化の文脈に合わせて,日本語のcUlture adversarial BiAs benchmarK(JUBAKU)について紹介する。既存のベンチマークとは異なり、JUBAKUは日本語のアノテータが手作りした対話シナリオを特徴としている。全てのモデルは明らかにJUBAKUに偏りを示し、確率ベースラインの50%以下で平均精度は23%であった。
論文参考訳（メタデータ） (2026-03-21T00:38:14Z)
JBBQ: Japanese Bias Benchmark for Analyzing Social Biases in Large Language Models [24.351580958043595]
本稿では,英語バイアスベンチマークBBQに基づいて,質問回答のための日本語バイアスベンチマークデータセット(JBBQ)を構築した。 JBBQの精度が向上した現在の日本語LLMでは,そのバイアススコアが増大していることが示されている。社会的バイアスと思考の連鎖について警告を発し、モデル出力におけるバイアスの効果を減少させる。
論文参考訳（メタデータ） (2024-06-04T07:31:06Z)
Bias in Language Models: Beyond Trick Tests and Toward RUTEd Evaluation [49.3814117521631]
大規模言語モデル(LLM)におけるバイアスと公平性の標準ベンチマークは、プロンプトによって記述されたユーザー属性とインプットの関係を測定する。本研究では, 子どもの就寝時間, ユーザ・ペルソナ, 英語学習演習の3つの文脈から, RUTEdの類似性を評価する。標準偏差指標は、より現実的な偏差指標と有意な相関関係がないことがわかった。
論文参考訳（メタデータ） (2024-02-20T01:49:15Z)
Semantic Properties of cosine based bias scores for word embeddings [48.0753688775574]
本稿では,バイアスの定量化に有効なバイアススコアの要件を提案する。これらの要件について,コサインに基づくスコアを文献から分析する。これらの結果は、バイアススコアの制限がアプリケーションケースに影響を及ぼすことを示す実験で裏付けられている。
論文参考訳（メタデータ） (2024-01-27T20:31:10Z)
GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文参考訳（メタデータ） (2023-12-11T12:02:14Z)
The Tail Wagging the Dog: Dataset Construction Biases of Social Bias Benchmarks [75.58692290694452]
社会的偏見と、データセット構築時に選択された選択から生じる非社会的偏見を比較し、人間の目では識別できないかもしれない。これらの浅い修正は、様々なモデルにまたがるバイアスの程度に驚くべき影響を及ぼす。
論文参考訳（メタデータ） (2022-10-18T17:58:39Z)
Social Biases in Automatic Evaluation Metrics for NLG [53.76118154594404]
本稿では,単語埋め込みアソシエーションテスト(WEAT)と文埋め込みアソシエーションテスト(SEAT)に基づく評価手法を提案する。我々は、画像キャプションやテキスト要約タスクにおける性別バイアスの影響を調査するために、性別対応メタ評価データセットを構築した。
論文参考訳（メタデータ） (2022-10-17T08:55:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。