論文の概要: Surfacing Subtle Stereotypes: A Multilingual, Debate-Oriented Evaluation of Modern LLMs
- arxiv url: http://arxiv.org/abs/2511.01187v1
- Date: Mon, 03 Nov 2025 03:25:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.100729
- Title: Surfacing Subtle Stereotypes: A Multilingual, Debate-Oriented Evaluation of Modern LLMs
- Title(参考訳): サーフェス・サブトル・ステレオタイプ:現代LLMの多言語・議論指向評価
- Authors: Muhammed Saeed, Muhammad Abdul-mageed, Shady Shehata,
- Abstract要約: DebateBias-8Kは、多言語で議論的な新しいベンチマークで、現実的な生成環境での物語バイアスがどのように現れるかを明らかにする。
私たちのデータセットには、女性の権利、社会経済開発、テロリズム、宗教の4つの重要なドメインにまたがる8,400の構造化された議論のプロンプトが含まれています。
その結果、安全アライメントにもかかわらず、全てのモデルがエンレントステレオタイプを再現していることが判明した。
- 参考スコア(独自算出の注目度): 32.12545369011503
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are widely deployed for open-ended communication, yet most bias evaluations still rely on English, classification-style tasks. We introduce DebateBias-8K, a new multilingual, debate-style benchmark designed to reveal how narrative bias appears in realistic generative settings. Our dataset includes 8,400 structured debate prompts spanning four sensitive domains: women's rights, socioeconomic development, terrorism, and religion, across seven languages ranging from high-resource (English, Chinese) to low-resource (Swahili, Nigerian Pidgin). Using four flagship models (GPT-4o, Claude 3, DeepSeek, and LLaMA 3), we generate and automatically classify over 100,000 responses. Results show that all models reproduce entrenched stereotypes despite safety alignment: Arabs are overwhelmingly linked to terrorism and religion (>=95%), Africans to socioeconomic "backwardness" (up to <=77%), and Western groups are consistently framed as modern or progressive. Biases grow sharply in lower-resource languages, revealing that alignment trained primarily in English does not generalize globally. Our findings highlight a persistent divide in multilingual fairness: current alignment methods reduce explicit toxicity but fail to prevent biased outputs in open-ended contexts. We release our DebateBias-8K benchmark and analysis framework to support the next generation of multilingual bias evaluation and safer, culturally inclusive model alignment.
- Abstract(参考訳): 大規模言語モデル(LLM)は、オープンエンド通信のために広くデプロイされているが、ほとんどのバイアス評価は英語の分類スタイルのタスクに依存している。
DebateBias-8Kは、現実的な生成環境での物語バイアスがどのように現れるかを明らかにするために設計された、多言語で議論的な新しいベンチマークである。
我々のデータセットには、女性の権利、社会経済開発、テロリズム、宗教という4つの機密性の高いドメインにまたがる8,400の構造化された議論のプロンプトが含まれています。
4つのフラッグシップモデル(GPT-4o、Claude 3、DeepSeek、LLaMA3)を使用して、10万以上の応答を生成し、自動的に分類する。
アラブ人はテロリズムと宗教に圧倒的に結びついており(>=95%)、アフリカ人は社会経済的な「バックワードネス」(==77%)に結びついており、西洋のグループは一貫して現代的あるいは進歩的だと見なされている。
低リソース言語ではバイアスが急激に増加し、主に英語で訓練されたアライメントが世界中で一般化されないことが明らかになった。
現在のアライメント手法は明らかな毒性を低下させるが、オープンエンドコンテキストにおけるバイアス出力の防止には失敗する。
DebateBias-8Kベンチマークと分析フレームワークをリリースし、次世代の多言語バイアス評価と、より安全で文化的に包括的なモデルアライメントをサポートする。
関連論文リスト
- I Am Aligned, But With Whom? MENA Values Benchmark for Evaluating Cultural Alignment and Multilingual Bias in LLMs [5.060243371992739]
大規模言語モデル(LLM)の文化的アライメントと多言語バイアスを評価するための新しいベンチマークであるMENAValuesを紹介する。
大規模で権威ある人的調査から、我々は16カ国の人口レベルの応答分布を持つMENAの社会文化的景観を捉えた構造化データセットをキュレートした。
分析の結果,同じ質問が言語に基づいて大きく異なる反応をもたらす「クロス・Lingual Value Shifts」,その理由の説明を促す「Reasoning-induced Degradation」,モデルがセンシティブな質問を拒否する「Logit Leakage」,内部確率が強く隠蔽される「Logit Leakage」の3つの重要な現象が明らかになった。
論文 参考訳(メタデータ) (2025-10-15T05:10:57Z) - SESGO: Spanish Evaluation of Stereotypical Generative Outputs [1.1549572298362782]
本稿では,多言語大言語モデル(LLM)におけるバイアス評価における限界ギャップについて論じる。
現在の評価は、主に米国英語中心であり、他の言語や文化の文脈で潜在的に危害が及ばないままである。
教科学習における社会的偏見を検出するための,新しい文化的な枠組みを提案する。
論文 参考訳(メタデータ) (2025-09-03T14:04:51Z) - PakBBQ: A Culturally Adapted Bias Benchmark for QA [3.4455728937232597]
PakBBQは、文化的かつ地域的に適応した、質問回答データセットのオリジナルのバイアスベンチマークの拡張である。
PakBBQは、英語とウルドゥー語の両方の8つのカテゴリーにまたがる214以上のテンプレートと17180のQAペアで構成されており、年齢、障害、外観、性別、社会経済的地位、宗教、地域関係、言語形式を含む8つのバイアス次元をカバーしている。
論文 参考訳(メタデータ) (2025-08-13T20:42:44Z) - White Men Lead, Black Women Help? Benchmarking and Mitigating Language Agency Social Biases in LLMs [58.27353205269664]
社会的バイアスは、Large Language Model(LLM)生成コンテンツにおいて言語エージェンシーに現れる。
LLMのバイアスを包括的に評価するLanguage Agency Bias Evaluationベンチマークを導入する。
LABEを用いて,近年の3つのLLM(ChatGPT,Llama3,Mistral)における言語エージェントの社会的バイアスを明らかにした。
論文 参考訳(メタデータ) (2024-04-16T12:27:54Z) - SeeGULL Multilingual: a Dataset of Geo-Culturally Situated Stereotypes [18.991295993710224]
SeeGULLは、20の言語にまたがって、23のリージョンにわたる人間のアノテーションを備えた、グローバルにスケールした、ソーシャルステレオタイプの多言語データセットである。
論文 参考訳(メタデータ) (2024-03-08T22:09:58Z) - CBBQ: A Chinese Bias Benchmark Dataset Curated with Human-AI
Collaboration for Large Language Models [52.25049362267279]
本稿では,人的専門家と生成言語モデルによって共同で構築された100万以上の質問からなる中国語バイアスベンチマークデータセットを提案する。
データセットのテストインスタンスは、手作業による厳格な品質管理を備えた3K以上の高品質テンプレートから自動的に抽出される。
大規模な実験により、データセットがモデルバイアスを検出することの有効性が実証された。
論文 参考訳(メタデータ) (2023-06-28T14:14:44Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。