論文の概要: Do Large Language Models Reflect Demographic Pluralism in Safety?
- arxiv url: http://arxiv.org/abs/2602.07376v1
- Date: Sat, 07 Feb 2026 05:40:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.592278
- Title: Do Large Language Models Reflect Demographic Pluralism in Safety?
- Title(参考訳): 大規模言語モデルは安全におけるデモグラフィー多元主義を反映しているか?
- Authors: Usman Naseem, Gautam Siddharth Kashyap, Sushant Kumar Ray, Rafiq Ali, Ebad Shabbir, Abdullah Mohammad,
- Abstract要約: 大言語モデル(LLM)の安全性は本質的に多元的であり、道徳的規範、文化的な期待、人口統計学的文脈のバリエーションを反映している。
Demo-SafetyBenchはこのギャップに対処するため、階層的多元性を直接プロンプトレベルでモデル化し、応答から値フレーミングを分離する。
ステージIでは、Mistral 7B-Instruct-v0.3を使用してDICESからのプロンプトを14の安全ドメインに分類し、人口統計メタデータを保持し、低リソースドメインを拡張する。
LLMs-as-Raters-Gemma-7B, GPT-4o, LLaMA-2-7B-under 0-shot を用いたステージII, 多重感度の評価
- 参考スコア(独自算出の注目度): 12.59854280011403
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Model (LLM) safety is inherently pluralistic, reflecting variations in moral norms, cultural expectations, and demographic contexts. Yet, existing alignment datasets such as ANTHROPIC-HH and DICES rely on demographically narrow annotator pools, overlooking variation in safety perception across communities. Demo-SafetyBench addresses this gap by modeling demographic pluralism directly at the prompt level, decoupling value framing from responses. In Stage I, prompts from DICES are reclassified into 14 safety domains (adapted from BEAVERTAILS) using Mistral 7B-Instruct-v0.3, retaining demographic metadata and expanding low-resource domains via Llama-3.1-8B-Instruct with SimHash-based deduplication, yielding 43,050 samples. In Stage II, pluralistic sensitivity is evaluated using LLMs-as-Raters-Gemma-7B, GPT-4o, and LLaMA-2-7B-under zero-shot inference. Balanced thresholds (delta = 0.5, tau = 10) achieve high reliability (ICC = 0.87) and low demographic sensitivity (DS = 0.12), confirming that pluralistic safety evaluation can be both scalable and demographically robust.
- Abstract(参考訳): 大言語モデル(LLM)の安全性は本質的に多元的であり、道徳的規範、文化的な期待、人口統計学的文脈のバリエーションを反映している。
しかし、ANTHROPIC-HHやDICESのような既存のアライメントデータセットは、人口統計学的に狭いアノテータプールに依存しており、コミュニティ間の安全性知覚の変化を見越している。
Demo-SafetyBenchはこのギャップに対処するため、階層的多元性を直接プロンプトレベルでモデル化し、応答から値フレーミングを分離する。
ステージIでは、DICESからのプロンプトはMistral 7B-Instruct-v0.3を使用して14の安全ドメイン(BEAVERTAILSから適応)に分類され、人口統計メタデータを保持し、Llama-3.1-8B-Instruct with SimHash-based deduplicationにより43,050のサンプルが生成される。
ステージIIでは, LLMs-as-Raters-Gemma-7B, GPT-4o, LLaMA-2-7B-under 0-shot を用いた多重感度の評価を行った。
バランスしきい値 (delta = 0.5, tau = 10) は高い信頼性 (ICC = 0.87) と低い人口統計感度 (DS = 0.12) を達成する。
関連論文リスト
- MiJaBench: Revealing Minority Biases in Large Language Models via Hate Speech Jailbreaking [0.0]
MiJaBenchは16の少数派グループで44,000のプロンプトからなる逆数ベンチマークである。
防衛率は、目標グループのみに基づいて、同じモデル内で最大33%変動する。
GitHubでは、粒度の階層的アライメントの研究を促進するために、すべてのデータセットとスクリプトをリリースしています。
論文 参考訳(メタデータ) (2026-01-07T20:53:18Z) - Evaluating & Reducing Deceptive Dialogue From Language Models with Multi-turn RL [64.3268313484078]
大規模言語モデル(LLM)は、顧客サポート、教育、医療など、世界中の何百万もの人々と対話する。
故意であれ不注意であれ、偽りのアウトプットを生産する能力は、重大な安全上の懸念を生じさせる。
本研究では, LLM が会話中の偽装にどの程度関与しているかを考察し, 偽装を定量化する信念の誤調整尺度を提案する。
論文 参考訳(メタデータ) (2025-10-16T05:29:36Z) - Red Teaming Multimodal Language Models: Evaluating Harm Across Prompt Modalities and Models [0.0]
マルチモーダル大規模言語モデル (MLLM) は, 現実の応用においてますます利用されているが, 敵条件下での安全性はいまだ検討されていない。
本研究は,テキストのみおよびマルチモーダル形式にまたがる敵対的プロンプトに曝露した4つのMLLMの無害性を評価する。
論文 参考訳(メタデータ) (2025-09-18T22:51:06Z) - Revisiting LLM Value Probing Strategies: Are They Robust and Expressive? [81.49470136653665]
広範に利用されている3つの探索戦略における値表現の頑健さと表現性を評価する。
人口統計学的文脈は自由テキスト生成にはほとんど影響を与えず、モデルの値は値に基づく行動の好みと弱い相関しか示さない。
論文 参考訳(メタデータ) (2025-07-17T18:56:41Z) - Personalized Safety in LLMs: A Benchmark and A Planning-Based Agent Approach [31.925448597093407]
大規模言語モデル(LLM)は、通常、同じプロンプトを与えられたすべてのユーザに対して、同一または類似の応答を生成する。
PENGUINは、7つのセンシティブなドメインにわたる14,000のシナリオからなるベンチマークである。
RAISEはトレーニングなし、2段階のエージェントフレームワークで、ユーザ固有のバックグラウンドを戦略的に取得する。
論文 参考訳(メタデータ) (2025-05-24T21:37:10Z) - Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models? [83.53005932513155]
MLLM(Multi-modal large language model)は大きな進歩を遂げているが、その安全性は依然として限られている。
そこで我々は, 単純明快な拒絶文に代えて, 少数の良性命令追従データに対して, MLLMを微調整する手法を提案する。
論文 参考訳(メタデータ) (2025-04-14T09:03:51Z) - Value Compass Benchmarks: A Platform for Fundamental and Validated Evaluation of LLMs Values [76.70893269183684]
大きな言語モデル(LLM)は驚くべきブレークスルーを達成する。
価値を人間に合わせることは 責任ある開発に欠かせないものになっています
3つの望ましい目標を達成するLLMの評価はいまだに欠けている。
論文 参考訳(メタデータ) (2025-01-13T05:53:56Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。