論文の概要: VERA-MH: Reliability and Validity of an Open-Source AI Safety Evaluation in Mental Health
- arxiv url: http://arxiv.org/abs/2602.05088v2
- Date: Fri, 06 Feb 2026 14:08:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 14:54:43.082624
- Title: VERA-MH: Reliability and Validity of an Open-Source AI Safety Evaluation in Mental Health
- Title(参考訳): VERA-MH:メンタルヘルスにおけるオープンソースのAI安全性評価の信頼性と妥当性
- Authors: Kate H. Bentley, Luca Belli, Adam M. Chekroud, Emily J. Ward, Emily R. Dworkin, Emily Van Ark, Kelly M. Johnston, Will Alexander, Millard Brown, Matt Hawrilenko,
- Abstract要約: メンタルヘルス(VERA-MH)評価における倫理的で責任のあるAIの検証は、エビデンスベースの自動安全ベンチマークの緊急の必要性を満たすために最近提案された。
本研究は,自殺リスク検出および応答におけるAI安全性評価のためのVERA-MHの臨床的妥当性と信頼性を検討することを目的とした。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Millions now use generative AI chatbots for psychological support. Despite the promise related to availability and scale, the single most pressing question in AI for mental health is whether these tools are safe. The Validation of Ethical and Responsible AI in Mental Health (VERA-MH) evaluation was recently proposed to meet the urgent need for an evidence-based, automated safety benchmark. This study aimed to examine the clinical validity and reliability of VERA-MH for evaluating AI safety in suicide risk detection and response. We first simulated a large set of conversations between large language model (LLM)-based users (user-agents) and general-purpose AI chatbots. Licensed mental health clinicians used a rubric (scoring guide) to independently rate the simulated conversations for safe and unsafe chatbot behaviors, as well as user-agent realism. An LLM-based judge used the same scoring rubric to evaluate the same set of simulated conversations. We then examined rating alignment (a) among individual clinicians and (b) between clinician consensus and the LLM judge, and (c) summarized clinicians' ratings of user-agent realism. Individual clinicians were generally consistent with one another in their safety ratings (chance-corrected inter-rater reliability [IRR] = 0.77), establishing a gold-standard clinical reference. The LLM judge was strongly aligned with this clinical consensus overall (IRR = 0.81) and within key conditions. Together, findings from this human evaluation study support the validity and reliability of VERA-MH: an open-source, automated AI safety evaluation for mental health. Future research will examine the generalizability and robustness of VERA-MH and expand the framework to target additional key areas of AI safety in mental health.
- Abstract(参考訳): 何百万人もの人たちが、心理学的サポートのために生成的なAIチャットボットを使っている。
可用性とスケールに関する約束にもかかわらず、AIにおけるメンタルヘルスに関する最も強い疑問は、これらのツールが安全かどうかである。
メンタルヘルス(VERA-MH)評価における倫理的で責任のあるAIの検証は、エビデンスベースの自動安全ベンチマークの緊急の必要性を満たすために最近提案された。
本研究は,自殺リスク検出および応答におけるAI安全性評価のためのVERA-MHの臨床的妥当性と信頼性を検討することを目的とした。
まず,大規模言語モデル(LLM)ベースのユーザ(ユーザエージェント)と汎用AIチャットボットとの対話をシミュレーションした。
免許を受けた精神保健医は、シミュレーションされた会話を安全で安全でないチャットボットの行動とユーザエージェントリアリズムと独立して評価するために、ルーリック(スコーリングガイド)を使用した。
LLMベースの裁判官は、同じスコアリングルーブリックを使用して、シミュレーションされた会話のセットを評価した。
その後、レーティングアライメントを調べました
(a)個々の臨床医のうち
b) 臨床医のコンセンサスとLCM審査員の意見
(c) 臨床医のユーザ・エージェント・リアリズムの評価を要約した。
個々の臨床医は、安全評価において概して一致しており、金標準の臨床基準を確立している(チャンス補正インターレータ信頼性(IRR) = 0.77)。
LLM審査員は、この臨床的コンセンサス全体(IRR = 0.81)とキー条件内で強く一致した。
この人的評価研究から得られた知見は、メンタルヘルスのためのオープンソースで自動化されたAI安全評価であるVERA-MHの妥当性と信頼性を裏付けるものである。
今後の研究は、VERA-MHの一般化性と堅牢性を検証し、メンタルヘルスにおけるAIの安全性の新たな重要な領域をターゲットとするフレームワークを拡張する予定である。
関連論文リスト
- DispatchMAS: Fusing taxonomy and artificial intelligence agents for emergency medical services [49.70819009392778]
大規模言語モデル (LLM) とマルチエージェントシステム (MAS) は、ディスパッチを増強する機会を提供する。
本研究の目的は,現実的なシナリオをシミュレートする分類基盤型マルチエージェントシステムの開発と評価である。
論文 参考訳(メタデータ) (2025-10-24T08:01:21Z) - VERA-MH Concept Paper [0.0]
本稿では,メンタルヘルスにおけるAIチャットボットの安全性を自動評価するVERA-MHを紹介する。
プロセスを完全に自動化するために、2つのアシラリーAIエージェントを使用しました。
シミュレーションされた会話は、そのルーリックに基づいてそれらをスコアする審査員に渡される。
論文 参考訳(メタデータ) (2025-10-17T04:07:29Z) - OpenAIs HealthBench in Action: Evaluating an LLM-Based Medical Assistant on Realistic Clinical Queries [2.2807344448218507]
われわれはHealthBenchを用いてRAGをベースとした臨床サポートアシスタントDR.INFOを評価した。
1000の挑戦的な例のハードサブセットでは、DR.INFOはHealthBenchスコア0.51を達成している。
同様のエージェントRAGアシスタントに対する100サンプルの別評価では、ヘルスベンチスコア0.54のパフォーマンスリードを維持している。
論文 参考訳(メタデータ) (2025-08-29T09:51:41Z) - Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。
LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。
敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。
私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文 参考訳(メタデータ) (2025-07-30T08:44:22Z) - MoodAngels: A Retrieval-augmented Multi-agent Framework for Psychiatry Diagnosis [58.67342568632529]
MoodAngelsは、気分障害の診断のための最初の特殊なマルチエージェントフレームワークである。
MoodSynは、合成精神医学の1,173件のオープンソースデータセットである。
論文 参考訳(メタデータ) (2025-06-04T09:18:25Z) - EmoAgent: Assessing and Safeguarding Human-AI Interaction for Mental Health Safety [42.052840895090284]
EmoAgentは、人間とAIのインタラクションにおけるメンタルヘルスハザードの評価と緩和を目的とした、マルチエージェントAIフレームワークである。
EmoEvalは、精神的に脆弱な個人を含む仮想ユーザをシミュレートして、AI文字との対話前後のメンタルヘルスの変化を評価する。
EmoGuardは仲介役として機能し、ユーザーのメンタルステータスを監視し、潜在的な害を予測し、リスクを軽減するための修正的なフィードバックを提供する。
論文 参考訳(メタデータ) (2025-04-13T18:47:22Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Building Trust in Mental Health Chatbots: Safety Metrics and LLM-Based Evaluation Tools [13.386012271835039]
100のベンチマーク質問と理想的な回答を備えた評価フレームワークを作成しました。
このフレームワークはメンタルヘルスの専門家によって検証され、GPT-3.5ベースのチャットボットでテストされた。
論文 参考訳(メタデータ) (2024-08-03T19:57:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。