論文の概要: Challenges of Evaluating LLM Safety for User Welfare
- arxiv url: http://arxiv.org/abs/2512.10687v1
- Date: Thu, 11 Dec 2025 14:34:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.414269
- Title: Challenges of Evaluating LLM Safety for User Welfare
- Title(参考訳): ユーザ福祉におけるLCMの安全性評価の課題
- Authors: Manon Kempermann, Sai Suresh Macharla Vasu, Mahalakshmi Raveenthiran, Theo Farrell, Ingmar Weber,
- Abstract要約: ユーザコンテキストを考慮した評価設計におけるユーザコンテキストの説明に関する根本的な疑問から,ユーザインタフェースの安全性評価の開発は簡単ではない,と我々は主張する。
我々は,GPT-5,Claude Sonnet 4,Gemini 2.5 Proから,さまざまな脆弱性のユーザプロファイルを通じて,財務と健康に関するアドバイスを評価した。
我々の研究は、多様なユーザプロファイルに対する応答を評価するために、効果的なユーザ・ウェルフェアの安全性評価が必要であることを証明している。
- 参考スコア(独自算出の注目度): 0.3749446315124487
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Safety evaluations of large language models (LLMs) typically focus on universal risks like dangerous capabilities or undesirable propensities. However, millions use LLMs for personal advice on high-stakes topics like finance and health, where harms are context-dependent rather than universal. While frameworks like the OECD's AI classification recognize the need to assess individual risks, user-welfare safety evaluations remain underdeveloped. We argue that developing such evaluations is non-trivial due to fundamental questions about accounting for user context in evaluation design. In this exploratory study, we evaluated advice on finance and health from GPT-5, Claude Sonnet 4, and Gemini 2.5 Pro across user profiles of varying vulnerability. First, we demonstrate that evaluators must have access to rich user context: identical LLM responses were rated significantly safer by context-blind evaluators than by those aware of user circumstances, with safety scores for high-vulnerability users dropping from safe (5/7) to somewhat unsafe (3/7). One might assume this gap could be addressed by creating realistic user prompts containing key contextual information. However, our second study challenges this: we rerun the evaluation on prompts containing context users report they would disclose, finding no significant improvement. Our work establishes that effective user-welfare safety evaluation requires evaluators to assess responses against diverse user profiles, as realistic user context disclosure alone proves insufficient, particularly for vulnerable populations. By demonstrating a methodology for context-aware evaluation, this study provides both a starting point for such assessments and foundational evidence that evaluating individual welfare demands approaches distinct from existing universal-risk frameworks. We publish our code and dataset to aid future developments.
- Abstract(参考訳): 大規模言語モデル(LLM)の安全性評価は、通常、危険な能力や望ましくない不利益のような普遍的なリスクに焦点を当てる。
しかし、何百万人もの人がLLMを使って金融や健康などの高額なトピックについて個人的なアドバイスをしている。
OECDのAI分類のようなフレームワークは、個々のリスクを評価する必要性を認識しているが、ユーザ・ウェルフェアの安全性評価はまだ未開発である。
評価設計におけるユーザコンテキストの勘定に関する根本的な疑問から,このような評価の開発は自明ではないと論じる。
本調査では,GPT-5,Claude Sonnet 4,Gemini 2.5 Proから,さまざまな脆弱性のユーザプロファイルを通じて,財務と健康に関するアドバイスを評価した。
まず、評価者がリッチなユーザコンテキストにアクセスできなければならないことを示す: 同一のLCM応答は、ユーザ状況を認識しているユーザよりも、コンテキストブレンド評価者の方が格段に安全であり、安全性スコアは、安全(5/7)からやや安全(3/7)まで低下する。
このギャップは、重要なコンテキスト情報を含む現実的なユーザープロンプトを作成することで解決できると仮定できるかもしれない。
しかし、第2の研究では、ユーザが開示するであろう状況報告を含むプロンプトの評価を再実行し、大幅な改善は見つからなかった。
我々の研究は、現実的なユーザコンテキスト開示だけでは、特に脆弱な人口にとって不十分であることが証明されるため、多様なユーザプロファイルに対する応答を評価するために、効果的なユーザ・ウェルフェア・セーフティ評価が必要であることを証明している。
本研究は、文脈認識評価の方法論を実証することにより、このような評価の出発点と、既存の普遍リスクフレームワークとは異なる個別の福祉要求を評価するための基礎的証拠の両方を提供する。
将来の開発を支援するために、コードとデータセットを公開しています。
関連論文リスト
- SafeRBench: A Comprehensive Benchmark for Safety Assessment in Large Reasoning Models [60.8821834954637]
LRMの安全性をエンドツーエンドに評価する最初のベンチマークであるSafeRBenchを紹介する。
私たちは、リスクカテゴリとレベルを入力設計に組み込んだ先駆者です。
我々は,長い推論トレースを意味的に一貫性のある単位にセグメント化するためのマイクロシンクのチャンキング機構を導入する。
論文 参考訳(メタデータ) (2025-11-19T06:46:33Z) - The Scales of Justitia: A Comprehensive Survey on Safety Evaluation of LLMs [57.1838332916627]
大規模言語モデル(LLM)は自然言語処理(NLP)において顕著な能力を示している。
広範囲に展開したことにより、大きな安全上の懸念がもたらされた。
LLMの生成したコンテンツは、特に敵の文脈において、毒性、偏見、誤情報などの安全でない振る舞いを示す。
論文 参考訳(メタデータ) (2025-06-06T05:50:50Z) - Personalized Safety in LLMs: A Benchmark and A Planning-Based Agent Approach [31.925448597093407]
大規模言語モデル(LLM)は、通常、同じプロンプトを与えられたすべてのユーザに対して、同一または類似の応答を生成する。
PENGUINは、7つのセンシティブなドメインにわたる14,000のシナリオからなるベンチマークである。
RAISEはトレーニングなし、2段階のエージェントフレームワークで、ユーザ固有のバックグラウンドを戦略的に取得する。
論文 参考訳(メタデータ) (2025-05-24T21:37:10Z) - AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons [62.374792825813394]
本稿ではAI製品リスクと信頼性を評価するための業界標準ベンチマークとして,AIluminate v1.0を紹介する。
このベンチマークは、危険、違法、または望ましくない行動を12の危険カテゴリーで引き起こすように設計されたプロンプトに対するAIシステムの抵抗を評価する。
論文 参考訳(メタデータ) (2025-02-19T05:58:52Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。