論文の概要: Expert Evaluation and the Limits of Human Feedback in Mental Health AI Safety Testing
- arxiv url: http://arxiv.org/abs/2601.18061v1
- Date: Mon, 26 Jan 2026 01:31:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.605345
- Title: Expert Evaluation and the Limits of Human Feedback in Mental Health AI Safety Testing
- Title(参考訳): メンタルヘルスAI安全テストにおける専門家評価とヒューマンフィードバックの限界
- Authors: Kiana Jafari, Paul Ulrich Nikolaus Rust, Duncan Eddy, Robbie Fraser, Nina Vasan, Darja Djordjevic, Akanksha Dadlani, Max Lamparth, Eugenia Kim, Mykel Kochenderfer,
- Abstract要約: 人間のフィードバックから学ぶことは、専門家の判断が適切に集約され、AIシステムのトレーニングと評価に有効な基礎的真実をもたらすと仮定する。
この仮定は、高い安全性が専門家のコンセンサスに不可欠であるメンタルヘルスにおいて検証された。
自殺反応と自傷反応は、他のどのカテゴリーよりも大きなばらつきをもたらし、ランダムではなく体系的であった。
- 参考スコア(独自算出の注目度): 0.4018523696542335
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning from human feedback~(LHF) assumes that expert judgments, appropriately aggregated, yield valid ground truth for training and evaluating AI systems. We tested this assumption in mental health, where high safety stakes make expert consensus essential. Three certified psychiatrists independently evaluated LLM-generated responses using a calibrated rubric. Despite similar training and shared instructions, inter-rater reliability was consistently poor ($ICC$ $0.087$--$0.295$), falling below thresholds considered acceptable for consequential assessment. Disagreement was highest on the most safety-critical items. Suicide and self-harm responses produced greater divergence than any other category, and was systematic rather than random. One factor yielded negative reliability (Krippendorff's $α= -0.203$), indicating structured disagreement worse than chance. Qualitative interviews revealed that disagreement reflects coherent but incompatible individual clinical frameworks, safety-first, engagement-centered, and culturally-informed orientations, rather than measurement error. By demonstrating that experts rely on holistic risk heuristics rather than granular factor discrimination, these findings suggest that aggregated labels function as arithmetic compromises that effectively erase grounded professional philosophies. Our results characterize expert disagreement in safety-critical AI as a sociotechnical phenomenon where professional experience introduces sophisticated layers of principled divergence. We discuss implications for reward modeling, safety classification, and evaluation benchmarks, recommending that practitioners shift from consensus-based aggregation to alignment methods that preserve and learn from expert disagreement.
- Abstract(参考訳): 人間のフィードバックから学ぶ~(LHF)は、専門家の判断が適切に集約され、AIシステムのトレーニングと評価に有効な基礎的真実をもたらすと仮定する。
この仮定は、高い安全性が専門家のコンセンサスに不可欠であるメンタルヘルスにおいて検証された。
認定された3人の精神科医は、キャリブレーションされたルーリックを用いてLSM生成反応を独立に評価した。
同様のトレーニングや共有命令にもかかわらず、ラター間の信頼性は一貫して低かった(ICC$0.087$--0.295$)。
診断は最も安全に重要な項目で最多であった。
自殺反応と自傷反応は、他のどのカテゴリーよりも大きなばらつきをもたらし、ランダムではなく体系的であった。
1つの要因は負の信頼性(クリッペンドルフの$α=-0.203$)を示し、構造的不一致が偶然よりも悪化したことを示している。
質的なインタビューでは、不一致は、測定誤差ではなく、安全第一、エンゲージメント中心、文化的インフォームドオリエンテーションといった、一貫性があるが互換性のない個々の臨床フレームワークを反映していることが明らかとなった。
これらの知見は、専門家が粒度要因の識別よりも全体論的リスクヒューリスティックスに頼っていることを示すことによって、集約ラベルが算術的な妥協として機能し、根拠となる専門的哲学を効果的に消去することを示唆している。
この結果から,安全クリティカルなAIに対する専門家の意見の相違を,専門的経験が原則分岐の高度なレイヤを導入する社会技術的現象として捉えた。
本稿では,報酬モデル,安全性分類,評価ベンチマークの意義を論じ,専門家の不一致から学び,合意に基づくアグリゲーションからアライメント手法への移行を推奨する。
関連論文リスト
- PsychEthicsBench: Evaluating Large Language Models Against Australian Mental Health Ethics [35.52940216380734]
メンタルヘルスでは、臨床的に不十分な拒絶は非共感的であり、助けを探すのを妨げていると見なすことができる。
このギャップに対処するため、私たちは拒絶中心のメトリクスを超えて、オーストラリアの心理学と精神医学のガイドラインに基づいた最初の原則に基づくベンチマークであるtextttPsychEthicsBenchを導入しました。
14モデルにわたる実証的な結果から、拒絶率は倫理的行動の指標に乏しいことが判明し、安全性の引き金と臨床的適切性の間に大きな違いがあることが判明した。
論文 参考訳(メタデータ) (2026-01-07T04:49:02Z) - SafeRBench: A Comprehensive Benchmark for Safety Assessment in Large Reasoning Models [60.8821834954637]
LRMの安全性をエンドツーエンドに評価する最初のベンチマークであるSafeRBenchを紹介する。
私たちは、リスクカテゴリとレベルを入力設計に組み込んだ先駆者です。
我々は,長い推論トレースを意味的に一貫性のある単位にセグメント化するためのマイクロシンクのチャンキング機構を導入する。
論文 参考訳(メタデータ) (2025-11-19T06:46:33Z) - EduGuardBench: A Holistic Benchmark for Evaluating the Pedagogical Fidelity and Adversarial Safety of LLMs as Simulated Teachers [8.123835490773095]
職業シミュレーションのための大規模言語モデル(SP-LLM)は、パーソナライズされた教育において重要である。
EduGuardBenchはロールプレイングフィデリティスコア(RFS)を用いてプロのフィデリティを評価する
また、一般的な害、特に学術的不正をターゲットとしたペルソナベースの敵対的プロンプトを使用して安全性の脆弱性を調査する。
論文 参考訳(メタデータ) (2025-11-10T09:42:24Z) - Exploring Safety Alignment Evaluation of LLMs in Chinese Mental Health Dialogues via LLM-as-Judge [28.534625907655776]
PsyCrisis-Benchは、現実の中国のメンタルヘルスの対話に基づく基準のない評価ベンチマークである。
モデル応答が専門家が定義する安全原則と一致しているかどうかを評価する。
本稿では,自傷行為,自殺観念,実存的苦悩を対象とする,手作業による高品質な中国語データセットを提案する。
論文 参考訳(メタデータ) (2025-08-11T17:52:07Z) - Detect \& Score: Privacy-Preserving Misbehaviour Detection and Contribution Evaluation in Federated Learning [57.35282510032077]
セキュアアグリゲーションによるフェデレーション学習は、機密性の高いクライアント情報を漏洩することなく、分散データからプライベートおよびコラボレーティブな学習を可能にする。
コントリビューション評価(CE)と誤行動検出(MD)には,それぞれQIとFedGTが提案された。
我々はQIとFedGTの強みを組み合わせ、ロバストMDと正確なCEを両立させる。
論文 参考訳(メタデータ) (2025-06-30T07:40:18Z) - Governance Challenges in Reinforcement Learning from Human Feedback: Evaluator Rationality and Reinforcement Stability [2.3961612657966946]
Reinforcement Learning from Human Feedback (RLHF)は、大きな言語モデルと人間の価値と期待を一致させることの中心である。
本研究では,評価者の認知能力,特に合理性レベルが強化信号の安定性に与える影響について検討した。
論文 参考訳(メタデータ) (2025-04-17T19:10:00Z) - AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons [62.374792825813394]
本稿ではAI製品リスクと信頼性を評価するための業界標準ベンチマークとして,AIluminate v1.0を紹介する。
このベンチマークは、危険、違法、または望ましくない行動を12の危険カテゴリーで引き起こすように設計されたプロンプトに対するAIシステムの抵抗を評価する。
論文 参考訳(メタデータ) (2025-02-19T05:58:52Z) - CURATe: Benchmarking Personalised Alignment of Conversational AI Assistants [5.7605009639020315]
5つのシナリオ(それぞれ337のユースケース)にわたる10の先行モデルの評価
トップランクの"ハームレス"モデルは、提供されたコンテキストを考えると、明らかにユーザにとって有害であると認識されるべきレコメンデーションを作成できる。
主要な障害モードには、矛盾する好みの適切な重み付け、梅毒(安全性よりも優先的な欲求)、コンテキストウィンドウ内の重要なユーザ情報に対する注意力の欠如、ユーザ固有の知識の一貫性のない適用が含まれる。
論文 参考訳(メタデータ) (2024-10-28T15:59:31Z) - The Pitfalls and Promise of Conformal Inference Under Adversarial Attacks [90.52808174102157]
医療画像や自律運転などの安全クリティカルな応用においては、高い敵の堅牢性を維持し、潜在的敵の攻撃から保護することが不可欠である。
敵対的に訓練されたモデルに固有の不確実性に関して、注目すべき知識ギャップが残っている。
本研究では,共形予測(CP)の性能を標準対向攻撃の文脈で検証することにより,ディープラーニングモデルの不確実性について検討する。
論文 参考訳(メタデータ) (2024-05-14T18:05:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。