論文の概要: SCOPE: A Dataset of Stereotyped Prompts for Counterfactual Fairness Assessment of LLMs
- arxiv url: http://arxiv.org/abs/2604.05555v1
- Date: Tue, 07 Apr 2026 07:56:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.705136
- Title: SCOPE: A Dataset of Stereotyped Prompts for Counterfactual Fairness Assessment of LLMs
- Title(参考訳): SCOPE:LLMの非現実的公正評価のためのステレオタイププロンプトのデータセット
- Authors: Alessandra Parziale, Gianmario Voria, Valeria Pontillo, Andrea De Lucia, Gemma Catolino, Fabio Palomba,
- Abstract要約: SCOPEは241,280のプロンプトを120,640の対物対にまとめている。
このリソースは、公正性、堅牢性、および反事実整合性を評価するために、制御され、セマンティックに整合し、意図を意識した基盤を提供する。
- 参考スコア(独自算出の注目度): 45.94124349318317
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) now serve as the foundation for a wide range of applications, from conversational assistants to decision support tools, making the issue of fairness in their results increasingly important. Previous studies have shown that LLM outputs can shift when prompts reference different demographic groups, even when intent and semantic content remain constant. However, existing resources for probing such disparities rely primarily on small, template-based counterfactual examples or fixed sentence pairs. These benchmarks offer limited linguistic diversity, narrow topical coverage, and little support for analyzing how communicative intent affects model behavior. To address these limitations, we introduce SCOPE (Stereotype-COnditioned Prompts for Evaluation), a large-scale dataset of counterfactual prompt pairs designed to enable systematic investigation of group-sensitive behavior in LLMs. SCOPE contains 241,280 prompts organized into 120,640 counterfactual pairs, each grounded in one of 1,438 topics and spanning nine bias dimensions and 1,536 demographic groups. All prompts are generated under four distinct communicative intents: Question, Recommendation, Direction, and Clarification, ensuring broad coverage of common interaction styles. This resource provides a controlled, semantically aligned, and intent-aware basis for evaluating fairness, robustness, and counterfactual consistency.
- Abstract(参考訳): 大規模言語モデル(LLM)は、会話アシスタントから意思決定支援ツールに至るまで、幅広いアプリケーションの基盤として機能し、その結果の公平性の問題がますます重要になっている。
従来の研究では、意図や意味的内容が一定であっても、異なる人口集団を参照するよう促すと、LCMの出力が変化しうることが示されている。
しかし、このような相違を推定するための既存のリソースは、主に小さなテンプレートベースの対実例や固定文対に依存している。
これらのベンチマークは、限られた言語的多様性、狭い話題のカバレッジ、そしてコミュニケーション意図がモデル行動にどのように影響するかを分析するためのほとんどサポートを提供する。
これらの制約に対処するために,LLMにおけるグループ感性行動の体系的調査を可能にするために設計された,大規模な対実的プロンプトペアのデータセットであるSCOPE(Stereotype-Conditioned Prompts for Evaluation)を導入する。
SCOPEには、120,640の対物対で構成された241,280のプロンプトがあり、それぞれ1,438のトピックの1つと9つのバイアス次元と1,536の人口集団で構成されている。
すべてのプロンプトは4つの異なるコミュニケーション意図に基づいて生成される:質問、勧告、指示、明確化。
このリソースは、公正性、堅牢性、および反事実整合性を評価するために、制御され、セマンティックに整合し、意図を意識した基盤を提供する。
関連論文リスト
- Query-Document Dense Vectors for LLM Relevance Judgment Bias Analysis [4.719505127252616]
大規模言語モデル (LLM) は、情報検索 (IR) 評価収集のための関連評価器として使われている。
我々は、LLMが平均的にどれだけ良いかを単に理解するのではなく、関係を判断する際に体系的な誤りを犯すかどうかを理解することを目的としている。
クエリドキュメント(Q-D)ペアを結合意味空間に埋め込むクラスタリングベースのフレームワークを導入する。
論文 参考訳(メタデータ) (2026-01-05T03:02:33Z) - ClarifyMT-Bench: Benchmarking and Improving Multi-Turn Clarification for Conversational Large Language Models [32.099137908375546]
ClarifyMT-Benchは、大規模言語モデル(LLM)におけるマルチターン明確化のためのベンチマークである。
多様なあいまいさソースと相互作用パターンをキャプチャする6,120個のマルチターン対話を構築した。
textbfClarifyAgentは,認知,予測,追跡,計画に明確化を分解するエージェントアプローチである。
論文 参考訳(メタデータ) (2025-12-24T11:39:00Z) - Quantifying Fairness in LLMs Beyond Tokens: A Semantic and Statistical Perspective [24.54292750583169]
大規模言語モデル(LLM)は、しばしば固有のバイアスを伴う応答を生成し、現実のアプリケーションにおける信頼性を損なう。
LLMにおけるグループレベルの公平性を評価するための新しい統計フレームワークであるFiSCo(Fine-fine Semantic Comparison)を提案する。
モデル出力を意味的に異なるクレームに分解し、グループ間およびグループ間の類似性を比較するために統計的仮説テストを適用する。
論文 参考訳(メタデータ) (2025-06-23T18:31:22Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - Semantic Consistency for Assuring Reliability of Large Language Models [9.040736633675136]
大規模言語モデル(LLM)は、様々な自然言語タスクに対して顕著な流布と能力を示す。
セマンティック一貫性の一般的な尺度を導入し、様々なLLMの性能を評価するために、この指標の複数バージョンを定式化する。
本稿では,Ask-to-Choose (A2C) と呼ばれる新しいプロンプト戦略を提案する。
論文 参考訳(メタデータ) (2023-08-17T18:11:33Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - A Multi-level Supervised Contrastive Learning Framework for Low-Resource
Natural Language Inference [54.678516076366506]
自然言語推論(NLI)は、自然言語理解において、ますます重要な課題である。
本稿では,低リソースな自然言語推論のためのマルチSCLという,マルチレベルの教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-31T05:54:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。