論文の概要: StereoTales: A Multilingual Framework for Open-Ended Stereotype Discovery in LLMs
- arxiv url: http://arxiv.org/abs/2605.10442v2
- Date: Tue, 12 May 2026 10:07:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 15:25:41.418681
- Title: StereoTales: A Multilingual Framework for Open-Ended Stereotype Discovery in LLMs
- Title(参考訳): StereoTales: LLMにおけるオープンエンディングステレオタイプ発見のための多言語フレームワーク
- Authors: Pierre Le Jeune, Étienne Duchesne, Weixuan Xiao, Stefano Palminteri, Bazire Houssin, Benoît Malézieux, Matteo Dora,
- Abstract要約: StereoTalesは、オープンエンドLLM生成における社会的バイアスの出現を研究するための多言語データセットと評価パイプラインである。
このデータセットは10の言語と79の社会デコグラフィー属性を含み、23の最近のLCMによって生成された650万以上のストーリーで構成されている。
これらの結果から,1500以上の過剰発現関連因子の同定に統計検査を適用し,ヒトのパネルと同一のLDMを用いて有害性を評価する。
- 参考スコア(独自算出の注目度): 2.5649028885424374
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multilingual studies of social bias in open-ended LLM generation remain limited: most existing benchmarks are English-centric, template-based, or restricted to recognizing pre-specified stereotypes. We introduce StereoTales, a multilingual dataset and evaluation pipeline for systematically studying the emergence of social bias in open-ended LLM generation. The dataset covers 10 languages and 79 socio-demographic attributes, and comprises over 650k stories generated by 23 recent LLMs, each annotated with the socio-demographic profile of the protagonist across 19 dimensions. From these, we apply statistical tests to identify more than 1{,}500 over-represented associations, which we then rate for harmfulness through both a panel of humans (N = 247) and the same LLMs. We report three main findings. \textbf{(i)} Every model we evaluate emits consequential harmful stereotypes in open-ended generation, regardless of size or capabilities, and these associations are largely shared across providers rather than isolated misbehaviors. \textbf{(ii)} Prompt language strongly shapes which stereotypes appear: rather than transferring as a shared set of biases, harmful associations adapt culturally to the prompt language and amplify bias against locally salient protected groups. \textbf{(iii)} Human and LLM harmfulness judgments are broadly aligned (Spearman $ρ=0.62$), with disagreements concentrating on specific attribute classes rather than specific providers. To support further analyses, we release the evaluation code and the dataset, including model generations, attribute annotations, and harmfulness ratings.
- Abstract(参考訳): 既存のベンチマークは英語中心、テンプレートベース、あるいは事前に特定されたステレオタイプを認識することに限定されている。
オープンエンドLCM生成における社会的バイアスの発生を体系的に研究するための多言語データセットと評価パイプラインであるStereoTalesを紹介する。
このデータセットは10の言語と79の社会デマトグラフィーの属性をカバーし、23の最近のLSMによって生成された650万以上のストーリーで構成され、それぞれ19の次元にわたる主人公の社会デマトグラフィープロファイルに注釈付けされている。
これらの結果から,1{,}500以上の過剰表現された関連を統計的に同定し,ヒトのパネル(N = 247)とLLMの両方で有害性を評価する。
主な3つの所見を報告する。
\textbf{
(i) 評価したすべてのモデルは、サイズや能力に関係なく、オープンエンド世代において連続的に有害なステレオタイプを出力し、これらの関連は、孤立した行動ではなく、提供者間で共有される。
\textbf{
(ii) プロンプト言語はステレオタイプを強く形作っている: 共通のバイアスの集合として移動するのではなく、有害な関連性はプロンプト言語に文化的に適応し、局所的に有能な保護されたグループに対するバイアスを増幅する。
\textbf{
(iii)人間とLLMの有害性判定は広く一致している(Spearman $ρ=0.62$)。
さらなる分析を支援するため、モデル生成、属性アノテーション、有害度評価を含む評価コードとデータセットをリリースする。
関連論文リスト
- A Multilingual, Large-Scale Study of the Interplay between LLM Safeguards, Personalisation, and Disinformation [12.577461004484604]
本研究では,Large Language Models (LLMs) によるペルソナ対象の偽情報生成の大規模多言語解析を行った。
我々は、AI-TRAITSにおいて、英語、ロシア語、ポルトガル語、ヒンディー語という4つの言語にまたがる324の虚偽の物語と150の人口的ペルソナを持つ8つの最先端のLLMを推進します。
結果は、たとえ単純なパーソナライゼーションでも、脱獄の可能性が著しく増加することを示している。
論文 参考訳(メタデータ) (2025-10-14T21:10:50Z) - Person-Centric Annotations of LAION-400M: Auditing Bias and Its Transfer to Models [81.45743826739054]
大きな障壁は、LAION-400MのようなWebスケールデータセットにおける人口統計アノテーションの欠如である。
2億7600万以上のバウンディングボックスや、性別や人種/民族ラベルの認識、キャプションの自動生成など、完全なデータセットのための人中心アノテーションを作成します。
それらを用いて、黒人や中東と見なされる男性や個人と犯罪に関連する負のコンテンツとの不均等な結びつきなど、人口不均衡や有害な関連を明らかにする。
論文 参考訳(メタデータ) (2025-10-04T07:51:59Z) - Simulating Identity, Propagating Bias: Abstraction and Stereotypes in LLM-Generated Text [8.988787218035414]
ソシオデミノグラフィーのカテゴリーとステレオタイプ的・非ステレオタイプ的属性をリンクする短いテキストを生成する際に,ペルソナ・プロンプトが言語的抽象化のレベルを異にするかどうかを検討する。
本研究は, ソシオデミノグラフィーグループを代表するペルソナの生態に対する批判と, ステレオタイプの普及リスクへの懸念を提起するものである。
論文 参考訳(メタデータ) (2025-09-10T10:49:21Z) - Discovering Bias Associations through Open-Ended LLM Generations [1.7373859011890633]
言語モデル(LLM)に埋め込まれた社会的バイアスは、重大な懸念を引き起こす。
本稿では,Bias Association Discovery Framework(BADF)について紹介する。
本研究は, オープンエンド世代におけるバイアスの理解を促進するとともに, LLMにおけるバイアス関連を識別・解析するためのスケーラブルなツールを提供する。
論文 参考訳(メタデータ) (2025-08-02T15:31:55Z) - LIBRA: Measuring Bias of Large Language Model from a Local Context [9.612845616659776]
大規模言語モデル(LLM)は、かなり高度な自然言語処理アプリケーションを持っている。
しかし、彼らの普及した利用は、特定の社会集団の実用性や害を減少させる固有のバイアスに関する懸念を提起する。
本研究は,これらの制約を,バイアス測定のためのローカル統合バイアス認識評価フレームワーク(LIBRA)を用いて解決する。
論文 参考訳(メタデータ) (2025-02-02T04:24:57Z) - Social Bias Probing: Fairness Benchmarking for Language Models [38.180696489079985]
本稿では,社会的偏見を考慮した言語モデル構築のための新しい枠組みを提案する。
既存のフェアネスコレクションの制限に対処するために設計された大規模なベンチマークであるSoFaをキュレートする。
我々は、言語モデル内のバイアスが認識されるよりもニュアンスが高いことを示し、これまで認識されていたよりもより広く符号化されたバイアスの範囲を示している。
論文 参考訳(メタデータ) (2023-11-15T16:35:59Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - Queer People are People First: Deconstructing Sexual Identity
Stereotypes in Large Language Models [3.974379576408554]
大規模言語モデル(LLM)は、主に最小処理のWebテキストに基づいて訓練される。
LLMはLGBTQIA+コミュニティのような、疎外されたグループに対して必然的にステレオタイプを永続させることができる。
論文 参考訳(メタデータ) (2023-06-30T19:39:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。