論文の概要: SHARP: Social Harm Analysis via Risk Profiles for Measuring Inequities in Large Language Models
- arxiv url: http://arxiv.org/abs/2601.21235v1
- Date: Thu, 29 Jan 2026 03:54:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.556821
- Title: SHARP: Social Harm Analysis via Risk Profiles for Measuring Inequities in Large Language Models
- Title(参考訳): SHARP:大規模言語モデルにおける不等式測定のためのリスクプロファイルによる社会的ハーム分析
- Authors: Alok Abhishek, Tushar Bandopadhyay, Lisa Erickson,
- Abstract要約: 本稿では,リスクプロファイルを用いた社会的ハーム分析について紹介する。
同様の平均リスクを持つモデルでは、尾の露出とボラティリティの2倍以上の違いが示される。
- 参考スコア(独自算出の注目度): 0.5599792629509229
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly deployed in high-stakes domains, where rare but severe failures can result in irreversible harm. However, prevailing evaluation benchmarks often reduce complex social risk to mean-centered scalar scores, thereby obscuring distributional structure, cross-dimensional interactions, and worst-case behavior. This paper introduces Social Harm Analysis via Risk Profiles (SHARP), a framework for multidimensional, distribution-aware evaluation of social harm. SHARP models harm as a multivariate random variable and integrates explicit decomposition into bias, fairness, ethics, and epistemic reliability with a union-of-failures aggregation reparameterized as additive cumulative log-risk. The framework further employs risk-sensitive distributional statistics, with Conditional Value at Risk (CVaR95) as a primary metric, to characterize worst-case model behavior. Application of SHARP to eleven frontier LLMs, evaluated on a fixed corpus of n=901 socially sensitive prompts, reveals that models with similar average risk can exhibit more than twofold differences in tail exposure and volatility. Across models, dimension-wise marginal tail behavior varies systematically across harm dimensions, with bias exhibiting the strongest tail severities, epistemic and fairness risks occupying intermediate regimes, and ethical misalignment consistently lower; together, these patterns reveal heterogeneous, model-dependent failure structures that scalar benchmarks conflate. These findings indicate that responsible evaluation and governance of LLMs require moving beyond scalar averages toward multidimensional, tail-sensitive risk profiling.
- Abstract(参考訳): 大規模言語モデル(LLM)は、稀ではあるが深刻な失敗が不可逆的な害をもたらすような、高レベルのドメインにますますデプロイされている。
しかしながら、一般的な評価ベンチマークでは、複雑な社会的リスクを平均中心のスカラースコアに減らし、結果として分布構造、三次元的相互作用、最悪の場合の振る舞いを隠蔽する。
本稿では,リスクプロファイルを用いた社会的ハーム分析(SHARP)について紹介する。
SHARPモデルは多変量確率変数として有害であり、偏見、公平性、倫理、疫学的な信頼性への明示的な分解を、加算累積ログリスクとして再パラメータ化した統合障害集約と統合する。
このフレームワークはさらにリスクに敏感な分布統計を用いており、最悪ケースモデルの振る舞いを特徴づけるために、条件付きリスク評価(CVaR95)を主要な指標としている。
SHARPの11個のフロンティアLSMへの適用は、社会的に敏感なn=901個のプロンプトの固定コーパスで評価され、同様の平均リスクを持つモデルが尾の露出とボラティリティの2倍以上の違いを示すことが判明した。
モデル全体にわたって、次元の辺縁的な尾の挙動は、被害次元によって体系的に変化し、バイアスは最強の尾の重大さ、中級政権を占有する疫学と公正性のリスクを示し、倫理的ミスアライメントは一貫して低く、これらとともに、スカラーベンチマークが崩壊する異質なモデル依存の失敗構造を示す。
これらの結果から, LLMの責任評価とガバナンスはスカラー平均を超えて多次元, テールセンシティブなリスクプロファイリングに移行する必要があることが示唆された。
関連論文リスト
- The Shadow Self: Intrinsic Value Misalignment in Large Language Model Agents [37.75212140218036]
コントロの損失リスクを定式化し、これまで過小評価されていた内因性価値の相違(内因性VM)を識別する。
次に、このリスクを体系的に評価するシナリオ駆動フレームワークであるIMPRESSを紹介します。
我々は,21種類のLLMエージェント上での固有のVMの評価を行い,モデル間での安全性のリスクが広く見られることを発見した。
論文 参考訳(メタデータ) (2026-01-24T07:09:50Z) - RADAR: A Risk-Aware Dynamic Multi-Agent Framework for LLM Safety Evaluation via Role-Specialized Collaboration [81.38705556267917]
大規模言語モデル(LLM)の既存の安全性評価手法は、固有の制約に悩まされている。
リスク概念空間を再構築する理論的枠組みを導入する。
マルチエージェント協調評価フレームワークRADARを提案する。
論文 参考訳(メタデータ) (2025-09-28T09:35:32Z) - Exploring the Secondary Risks of Large Language Models [26.00748215572094]
良心的衝動時の有害または誤解を招く行動に特徴付けられる二次的リスクを導入する。
敵の攻撃とは異なり、これらのリスクは不完全な一般化から生じ、しばしば標準的な安全メカニズムを回避する。
本研究では,ブラックボックス型多目的検索フレームワークSecLensを提案する。
論文 参考訳(メタデータ) (2025-06-14T07:31:52Z) - Conformal Tail Risk Control for Large Language Model Alignment [9.69785515652571]
テールイベントの定量化プロセスを自動化するため、汎用的なスコアリングモデルが作成されている。
この現象は、各スコアリングメカニズム間の潜在的な人間と機械のミスアライメントをもたらす。
ブラックボックスモデルのための軽量なキャリブレーションフレームワークを提案し,人間と機械のアライメントを保証可能な保証で保証する。
論文 参考訳(メタデータ) (2025-02-27T17:10:54Z) - Prediction Risk and Estimation Risk of the Ridgeless Least Squares Estimator under General Assumptions on Regression Errors [10.857775300638831]
より一般的な回帰誤差仮定の下で予測リスクと推定リスクについて検討する。
その結果,パラメータ化の利点は時系列,パネル,グループ化データにまで拡張できることが示唆された。
論文 参考訳(メタデータ) (2023-05-22T10:04:20Z) - Mitigating multiple descents: A model-agnostic framework for risk
monotonization [84.6382406922369]
クロスバリデーションに基づくリスクモノトナイズのための一般的なフレームワークを開発する。
本稿では,データ駆動方式であるゼロステップとワンステップの2つの手法を提案する。
論文 参考訳(メタデータ) (2022-05-25T17:41:40Z) - A General Framework for Survival Analysis and Multi-State Modelling [70.31153478610229]
ニューラル常微分方程式を多状態生存モデル推定のためのフレキシブルで一般的な方法として用いる。
また,本モデルでは,サバイバルデータセット上での最先端性能を示すとともに,マルチステート環境での有効性を示す。
論文 参考訳(メタデータ) (2020-06-08T19:24:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。