論文の概要: PluriHarms: Benchmarking the Full Spectrum of Human Judgments on AI Harm
- arxiv url: http://arxiv.org/abs/2601.08951v1
- Date: Tue, 13 Jan 2026 19:41:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.151453
- Title: PluriHarms: Benchmarking the Full Spectrum of Human Judgments on AI Harm
- Title(参考訳): PluriHarms: AI Harm上での人間の判断の完全なスペクトルのベンチマーク
- Authors: Jing-Jing Li, Joel Mire, Eve Fleisig, Valentina Pyatkin, Anne Collins, Maarten Sap, Sydney Levine,
- Abstract要約: 現在のAI安全フレームワークは、有害性をバイナリとして扱うことが多いが、人間が同意しない境界的なケースを扱う柔軟性は欠如している。
PluriHarmsは、2つの重要な次元にわたる人間の害判定を研究するために設計されたベンチマークである。
我々のスケーラブルなフレームワークは、人間のデータによって検証された高い不一致率のケースをターゲットにしながら、多様なAIの害や人間の価値を捉えるプロンプトを生成する。
- 参考スコア(独自算出の注目度): 39.043933213898136
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current AI safety frameworks, which often treat harmfulness as binary, lack the flexibility to handle borderline cases where humans meaningfully disagree. To build more pluralistic systems, it is essential to move beyond consensus and instead understand where and why disagreements arise. We introduce PluriHarms, a benchmark designed to systematically study human harm judgments across two key dimensions -- the harm axis (benign to harmful) and the agreement axis (agreement to disagreement). Our scalable framework generates prompts that capture diverse AI harms and human values while targeting cases with high disagreement rates, validated by human data. The benchmark includes 150 prompts with 15,000 ratings from 100 human annotators, enriched with demographic and psychological traits and prompt-level features of harmful actions, effects, and values. Our analyses show that prompts that relate to imminent risks and tangible harms amplify perceived harmfulness, while annotator traits (e.g., toxicity experience, education) and their interactions with prompt content explain systematic disagreement. We benchmark AI safety models and alignment methods on PluriHarms, finding that while personalization significantly improves prediction of human harm judgments, considerable room remains for future progress. By explicitly targeting value diversity and disagreement, our work provides a principled benchmark for moving beyond "one-size-fits-all" safety toward pluralistically safe AI.
- Abstract(参考訳): 現在のAI安全フレームワークは、しばしば有害性をバイナリとして扱うが、人間が有意義に反対する境界のケースを扱う柔軟性は欠如している。
より多元的なシステムを構築するためには、コンセンサスを超えて、どことなぜ意見の相違が生じるのかを理解することが不可欠である。
PluriHarmsは、2つの重要な次元にわたる人間の有害判断を体系的に研究するために設計されたベンチマークである。
我々のスケーラブルなフレームワークは、人間のデータによって検証された高い不一致率のケースをターゲットにしながら、多様なAIの害や人間の価値を捉えるプロンプトを生成する。
このベンチマークには150のプロンプトと100人のアノテーターからの15,000のレーティングが含まれており、人口統計学的および心理的特徴と有害な行動、効果、価値観の即時的な特徴に富んでいる。
分析の結果,差し迫ったリスクや有意な害に関連するプロンプトは有害感を増幅するが,アノテータの特徴(例えば,毒性経験,教育)や,即時的な内容との相互作用は系統的な不一致を説明できることがわかった。
我々は、PluriHarms上でAIの安全性モデルとアライメント方法のベンチマークを行い、パーソナライゼーションは人間の害判定の予測を大幅に改善するが、今後の進歩にはかなりの余地が残っていることを発見した。
価値の多様性と不一致を明確に目標にすることで、私たちの研究は、"一大フィット"の安全性を越えて、多元的に安全なAIに移行するための、原則化されたベンチマークを提供します。
関連論文リスト
- Why They Disagree: Decoding Differences in Opinions about AI Risk on the Lex Fridman Podcast [0.0]
本稿では,AIリスクに関する現代の議論を分析する。
実存リスク(Xリスク)の観点の違いは、設計と複雑なシステムの出現に関する因果的前提の違いから生じる。
これらの2つのAIリスクの相違は、2つの性質を共有しているように見える。
論文 参考訳(メタデータ) (2025-12-06T08:48:30Z) - Scaling Patterns in Adversarial Alignment: Evidence from Multi-LLM Jailbreak Experiments [4.547649832854566]
大規模言語モデル(LLM)は、マルチエージェントと安全クリティカルな設定でますます運用され、モデルが逆向きに相互作用する際の脆弱性のスケールに関するオープンな疑問が提起される。
本研究は,アライメント保護にもかかわらず有害な拘束行動を引き起こす,より大規模なモデルで,より小さなモデルを体系的に緩和できるかどうかを検討する。
論文 参考訳(メタデータ) (2025-11-16T15:16:33Z) - AI Harmonics: a human-centric and harms severity-adaptive AI risk assessment framework [4.84912384919978]
既存のAIリスク評価モデルは、内部コンプライアンスに重点を置いている。
本研究では,経験的インシデントデータに基づく人間中心型適応アプローチへのパラダイムシフトを提案する。
我々は、厳密な数値推定を必要とせず、順序重大度データを利用して相対的な影響を捉える、AIH(AI harm Assessment metric)を含むAI Harmonicsを提案する。
論文 参考訳(メタデータ) (2025-09-12T09:52:45Z) - Rethinking How AI Embeds and Adapts to Human Values: Challenges and Opportunities [0.6113558800822273]
AIシステムは長期的な推論を実装し、進化する価値に適応し続けなければならない、と私たちは主張する。
価値アライメントは、人間の価値の完全なスペクトルに対処するためにより多くの理論を必要とする。
我々は、価値アライメントに関連する課題を特定し、価値アライメント研究を進めるための方向性を示す。
論文 参考訳(メタデータ) (2025-08-23T18:19:05Z) - Decoding Safety Feedback from Diverse Raters: A Data-driven Lens on Responsiveness to Severity [27.898678946802438]
本稿では,複数のデータセットの粒度評価を解釈するための新しいデータ駆動型手法を提案する。
安全違反の度合いの異なるレベルを評価する際に,レーダの整合性を定量化する非パラメトリック応答性指標を蒸留する。
提案手法は,異なる階層群をまたいだニュアンスな視点を捉えることで,レーダの選択やフィードバックの解釈に役立てることができることを示す。
論文 参考訳(メタデータ) (2025-03-07T17:32:31Z) - AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons [62.374792825813394]
本稿ではAI製品リスクと信頼性を評価するための業界標準ベンチマークとして,AIluminate v1.0を紹介する。
このベンチマークは、危険、違法、または望ましくない行動を12の危険カテゴリーで引き起こすように設計されたプロンプトに対するAIシステムの抵抗を評価する。
論文 参考訳(メタデータ) (2025-02-19T05:58:52Z) - The Superalignment of Superhuman Intelligence with Large Language Models [63.96120398355404]
我々は,この疑問に答えるために,学習の観点からスーパーアライメントの概念について議論する。
スーパーアライメントにおけるいくつかの重要な研究課題、すなわち、弱いから強い一般化、スケーラブルな監視、評価に焦点を当てる。
本稿では,学習者モデルの弱点を露呈しようとする敵対的クエリを生成する攻撃者,最小限の人間専門家とともに,批判モデルによって生成されたスケーラブルなフィードバックから学習することで自己を洗練させる学習者,与えられた質問応答対に対する批判や説明を生成する批判者,そして批判によって学習者を改善することを目的とした,3つのモジュールからなるスーパーアライメントの概念的枠組みを提案する。
論文 参考訳(メタデータ) (2024-12-15T10:34:06Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。