Fugu-MT 論文翻訳(概要): Using LLM-as-a-Judge/Jury to Advance Scalable, Clinically-Validated Safety Evaluations of Model Responses to Users Demonstrating Psychosis

論文の概要: Using LLM-as-a-Judge/Jury to Advance Scalable, Clinically-Validated Safety Evaluations of Model Responses to Users Demonstrating Psychosis

arxiv url: http://arxiv.org/abs/2604.02359v1
Date: Fri, 20 Mar 2026 04:31:03 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-12 18:41:08.525667
Title: Using LLM-as-a-Judge/Jury to Advance Scalable, Clinically-Validated Safety Evaluations of Model Responses to Users Demonstrating Psychosis
Title（参考訳）: LLM-as-a-Judge/Jury を用いて精神病患者に対するモデル反応のスケーラブルで、臨床的に検証された安全性評価
Authors: May Lynn Reese, Markela Zeneli, Mindy Ng, Jacob Haimes, Andreea Damien, Elizabeth Stade,
Abstract要約: 一般用大規模言語モデル(LLM)は、メンタルヘルス支援のために広く採用されている。しかし、新たな証拠は、特に精神病に苦しむ人に対して、高周波の使用に関連する重大なリスクがあることを示唆している。本研究は, LLMの安全性評価の重要条件としての精神病に焦点を当てた。
参考スコア（独自算出の注目度）: 1.53934570513443
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: General-purpose Large Language Models (LLMs) are becoming widely adopted by people for mental health support. Yet emerging evidence suggests there are significant risks associated with high-frequency use, particularly for individuals suffering from psychosis, as LLMs may reinforce delusions and hallucinations. Existing evaluations of LLMs in mental health contexts are limited by a lack of clinical validation and scalability of assessment. To address these issues, this research focuses on psychosis as a critical condition for LLM safety evaluation by (1) developing and validating seven clinician-informed safety criteria, (2) constructing a human-consensus dataset, and (3) testing automated assessment using an LLM as an evaluator (LLM-as-a-Judge) or taking the majority vote of several LLM judges (LLM-as-a-Jury). Results indicate that LLM-as-a-Judge aligns closely with the human consensus (Cohen's $κ_{\text{human} \times \text{gemini}} = 0.75$, $κ_{\text{human} \times \text{qwen}} = 0.68$, $κ_{\text{human} \times \text{kimi}} = 0.56$) and that the best judge slightly outperforms LLM-as-a-Jury (Cohen's $κ_{\text{human} \times \text{jury}} = 0.74$). Overall, these findings have promising implications for clinically grounded, scalable methods in LLM safety evaluations for mental health contexts.
Abstract（参考訳）: 一般用大規模言語モデル(LLM)は、メンタルヘルス支援のために広く採用されている。しかし、LSMは妄想や幻覚を補強する可能性があるため、特に精神病に苦しむ人に対して、高周波の使用に重大なリスクが生じることが、新たな証拠として示唆されている。精神保健状況におけるLCMの既存の評価は、臨床検証の欠如と評価のスケーラビリティによって制限される。これらの課題に対処するため,(1)臨床医による安全基準の策定・検証,(2)人間合意データセットの構築,(3)LCMを評価者(LLM-as-a-Judge)としての自動評価テスト,あるいは複数のLCM審査員(LLM-as-a-Jury)の過半数を採決することで,LCMの安全性評価の重要条件としての精神病に焦点を当てた。 LLM-as-a-Judgeは人間のコンセンサスと密接に一致している(Cohen's $κ_{\text{human} \times \text{gemini}} = 0.75$, $κ_{\text{human} \times \text{qwen}} = 0.68$, $κ_{\text{human} \times \text{kimi}} = 0.56$)。これらの知見は, 精神保健状況に対するLLMの安全性評価において, 臨床応用, 拡張性に有意な影響を及ぼすものである。

関連論文リスト

On Evaluating LLM Alignment by Evaluating LLMs as Judges [68.15541137648721]
大規模言語モデル(LLM)のアライメントを評価するには、助け、誠実、安全、正確に人間の指示に従う必要がある。本研究では,LLMの生成能力と評価能力の関係について検討した。モデル出力を直接評価することなくアライメントを評価するベンチマークを提案する。
論文参考訳（メタデータ） (2025-11-25T18:33:24Z)
When Can We Trust LLMs in Mental Health? Large-Scale Benchmarks for Reliable LLM Evaluation [14.24379104658635]
MentalBench-100kは、3つの実際のシナリオデータセットから1万のワンターン会話を統合する。 MentalBench-70kreframes の評価は,7つの属性に対する70,000のレーティングに対して,ハイパフォーマンスな4人の LLM 審査員と人間専門家を比較した。分析の結果,LLM審査員による体系的なインフレーション,ガイダンスや情報性などの認知特性の信頼性,共感の精度の低下,安全性と妥当性の信頼性の低下が明らかになった。
論文参考訳（メタデータ） (2025-10-21T19:21:21Z)
LLM-as-a-Fuzzy-Judge: Fine-Tuning Large Language Models as a Clinical Evaluation Judge with Fuzzy Logic [3.1090878361419416]
本稿では,医学生の臨床スキルと主観的医師の好みを自動評価するLLM-as-a-Fuzzy-Judgeを提案する。この手法は,4つのファジィ集合からの人間のアノテーションに基づいて,学生とAI患者の会話スクリプトにおける医学生の発話を評価するために微調整されている。その結果,LLM-as-a-Fuzzy-Judgeの精度は80%以上であり,主要な基準項目は90%以上であることがわかった。
論文参考訳（メタデータ） (2025-06-12T18:31:49Z)
Are LLM-generated plain language summaries truly understandable? A large-scale crowdsourced evaluation [7.867257950096845]
平凡な言語要約(PLS)は,臨床医と患者との効果的なコミュニケーションを促進するために不可欠である。大規模言語モデル(LLM)は、最近PSS生成の自動化を約束しているが、その健康情報理解を支援する効果は未だ不明である。 LLM生成PSSの大規模クラウドソース評価をAmazon Mechanical Turkで実施し,150名を対象に実験を行った。以上の結果から, LLMは主観的評価において人書きと区別できないPSSを生成できるが, 人書きPSSは理解度が著しく向上することが示唆された。
論文参考訳（メタデータ） (2025-05-15T15:31:17Z)
Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文参考訳（メタデータ） (2025-04-21T16:51:11Z)
LLM Internal States Reveal Hallucination Risk Faced With a Query [62.29558761326031]
人間は、クエリに直面したとき、私たちが知らないことを認識できる自己認識プロセスを持っています。本稿では,大規模言語モデルが応答生成に先立って,自身の幻覚リスクを推定できるかどうかを検討する。確率推定器により, LLM自己評価を利用して, 平均幻覚推定精度84.32%を達成する。
論文参考訳（メタデータ） (2024-07-03T17:08:52Z)
Can AI Relate: Testing Large Language Model Response for Mental Health Support [23.97212082563385]
大型言語モデル(LLM)はすでにニューヨーク・ラングーン、ダナ・ファーバー、NHSなどの病院システムで臨床使用のために試験されている。精神医療の自動化に向けて, LLM 反応が有効かつ倫理的な道筋であるか否かを評価するための評価枠組みを開発する。
論文参考訳（メタデータ） (2024-05-20T13:42:27Z)
Is LLM-as-a-Judge Robust? Investigating Universal Adversarial Attacks on Zero-shot LLM Assessment [8.948475969696075]
LLM(Large Language Models)は、筆記試験やベンチマークシステムなどの実世界の状況で使用される強力なゼロショットアセスメントである。本研究では,LLMを判断し,膨らませたスコアを判断するために,短い普遍的対数句を欺くことができることを示す。判定-LLMは,絶対スコアリングに使用する場合,これらの攻撃に対して有意に感受性が高いことが判明した。
論文参考訳（メタデータ） (2024-02-21T18:55:20Z)
Exploring the Reliability of Large Language Models as Customized Evaluators for Diverse NLP Tasks [65.69651759036535]
大規模言語モデル(LLM)が人間にとって信頼できる代替手段であるかどうかを解析する。本稿では、従来のタスク(例えば、ストーリー生成)とアライメントタスク(例えば、数学推論)の両方について検討する。 LLM評価器は不要な基準を生成したり、重要な基準を省略することができる。
論文参考訳（メタデータ） (2023-10-30T17:04:35Z)
Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。 LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文参考訳（メタデータ） (2023-05-03T07:28:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。