論文の概要: VERA-MH: Reliability and Validity of an Open-Source AI Safety Evaluation in Mental Health
- arxiv url: http://arxiv.org/abs/2602.05088v1
- Date: Wed, 04 Feb 2026 22:17:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.644339
- Title: VERA-MH: Reliability and Validity of an Open-Source AI Safety Evaluation in Mental Health
- Title(参考訳): VERA-MH:メンタルヘルスにおけるオープンソースのAI安全性評価の信頼性と妥当性
- Authors: Kate H. Bentley, Luca Belli, Adam M. Chekroud, Emily J. Ward, Emily R. Dworkin, Emily Van Ark, Kelly M. Johnston, Will Alexander, Millard Brown, Matt Hawrilenko,
- Abstract要約: メンタルヘルス(VERA-MH)評価における倫理的かつ責任のあるAIの検証は、証拠に基づく自動安全ベンチマークの緊急の必要性を満たすために最近提案された。
本研究は,自殺リスク検出および応答におけるAI安全性に対するVERA-MH評価の臨床的妥当性と信頼性を検討することを目的とした。
Findingsは、メンタルヘルスのためのオープンソースで完全に自動化されたAI安全評価であるVERA-MHの臨床的妥当性と信頼性をサポートする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Millions now use leading generative AI chatbots for psychological support. Despite the promise related to availability and scale, the single most pressing question in AI for mental health is whether these tools are safe. The Validation of Ethical and Responsible AI in Mental Health (VERA-MH) evaluation was recently proposed to meet the urgent need for an evidence-based automated safety benchmark. This study aimed to examine the clinical validity and reliability of the VERA-MH evaluation for AI safety in suicide risk detection and response. We first simulated a large set of conversations between large language model (LLM)-based users (user-agents) and general-purpose AI chatbots. Licensed mental health clinicians used a rubric (scoring guide) to independently rate the simulated conversations for safe and unsafe chatbot behaviors, as well as user-agent realism. An LLM-based judge used the same scoring rubric to evaluate the same set of simulated conversations. We then compared rating alignment across (a) individual clinicians and (b) clinician consensus and the LLM judge, and (c) examined clinicians' ratings of user-agent realism. Individual clinicians were generally consistent with one another in their safety ratings (chance-corrected inter-rater reliability [IRR]: 0.77), thus establishing a gold-standard clinical reference. The LLM judge was strongly aligned with this clinical consensus (IRR: 0.81) overall and within key conditions. Clinician raters generally perceived the user-agents to be realistic. For the potential mental health benefits of AI chatbots to be realized, attention to safety is paramount. Findings from this human evaluation study support the clinical validity and reliability of VERA-MH: an open-source, fully automated AI safety evaluation for mental health. Further research will address VERA-MH generalizability and robustness.
- Abstract(参考訳): 何百万人もの人たちが、心理的サポートのために主要なAIチャットボットを使っている。
可用性とスケールに関する約束にもかかわらず、AIにおけるメンタルヘルスに関する最も強い疑問は、これらのツールが安全かどうかである。
メンタルヘルス(VERA-MH)評価における倫理的かつ責任のあるAIの検証は、証拠に基づく自動安全ベンチマークの緊急の必要性を満たすために最近提案された。
本研究は,自殺リスク検出および応答におけるAI安全性に対するVERA-MH評価の臨床的妥当性と信頼性を検討することを目的とした。
まず,大規模言語モデル(LLM)ベースのユーザ(ユーザエージェント)と汎用AIチャットボットとの対話をシミュレーションした。
免許を受けた精神保健医は、シミュレーションされた会話を安全で安全でないチャットボットの行動とユーザエージェントリアリズムと独立して評価するために、ルーリック(スコーリングガイド)を使用した。
LLMベースの裁判官は、同じスコアリングルーブリックを使用して、シミュレーションされた会話のセットを評価した。
その後、レーティングアライメントを比較した。
(a)個別臨床医
b)臨床医のコンセンサスとLCM審査員
(c) 臨床医のユーザ・エージェント・リアリズムの評価について検討した。
個々の臨床医は、安全評価において概して一致し(整合性整合性インターレータ信頼性(IRR: 0.77))、金標準臨床基準を確立した。
LLM審査員は、この臨床コンセンサス(IRR: 0.81)と鍵条件の範囲内で強く一致した。
臨床検査官は一般的にユーザエージェントが現実的であると認識した。
AIチャットボットの潜在的なメンタルヘルス上のメリットを実現するためには、安全への注意が最重要である。
この人的評価研究から得られた知見は、メンタルヘルスのためのオープンソースで完全に自動化されたAI安全評価であるVERA-MHの臨床的妥当性と信頼性を支持する。
さらなる研究は、VERA-MHの一般化性と堅牢性に対処する。
関連論文リスト
- DispatchMAS: Fusing taxonomy and artificial intelligence agents for emergency medical services [49.70819009392778]
大規模言語モデル (LLM) とマルチエージェントシステム (MAS) は、ディスパッチを増強する機会を提供する。
本研究の目的は,現実的なシナリオをシミュレートする分類基盤型マルチエージェントシステムの開発と評価である。
論文 参考訳(メタデータ) (2025-10-24T08:01:21Z) - VERA-MH Concept Paper [0.0]
本稿では,メンタルヘルスにおけるAIチャットボットの安全性を自動評価するVERA-MHを紹介する。
プロセスを完全に自動化するために、2つのアシラリーAIエージェントを使用しました。
シミュレーションされた会話は、そのルーリックに基づいてそれらをスコアする審査員に渡される。
論文 参考訳(メタデータ) (2025-10-17T04:07:29Z) - OpenAIs HealthBench in Action: Evaluating an LLM-Based Medical Assistant on Realistic Clinical Queries [2.2807344448218507]
われわれはHealthBenchを用いてRAGをベースとした臨床サポートアシスタントDR.INFOを評価した。
1000の挑戦的な例のハードサブセットでは、DR.INFOはHealthBenchスコア0.51を達成している。
同様のエージェントRAGアシスタントに対する100サンプルの別評価では、ヘルスベンチスコア0.54のパフォーマンスリードを維持している。
論文 参考訳(メタデータ) (2025-08-29T09:51:41Z) - Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。
LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。
敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。
私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文 参考訳(メタデータ) (2025-07-30T08:44:22Z) - MoodAngels: A Retrieval-augmented Multi-agent Framework for Psychiatry Diagnosis [58.67342568632529]
MoodAngelsは、気分障害の診断のための最初の特殊なマルチエージェントフレームワークである。
MoodSynは、合成精神医学の1,173件のオープンソースデータセットである。
論文 参考訳(メタデータ) (2025-06-04T09:18:25Z) - EmoAgent: Assessing and Safeguarding Human-AI Interaction for Mental Health Safety [42.052840895090284]
EmoAgentは、人間とAIのインタラクションにおけるメンタルヘルスハザードの評価と緩和を目的とした、マルチエージェントAIフレームワークである。
EmoEvalは、精神的に脆弱な個人を含む仮想ユーザをシミュレートして、AI文字との対話前後のメンタルヘルスの変化を評価する。
EmoGuardは仲介役として機能し、ユーザーのメンタルステータスを監視し、潜在的な害を予測し、リスクを軽減するための修正的なフィードバックを提供する。
論文 参考訳(メタデータ) (2025-04-13T18:47:22Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Building Trust in Mental Health Chatbots: Safety Metrics and LLM-Based Evaluation Tools [13.386012271835039]
100のベンチマーク質問と理想的な回答を備えた評価フレームワークを作成しました。
このフレームワークはメンタルヘルスの専門家によって検証され、GPT-3.5ベースのチャットボットでテストされた。
論文 参考訳(メタデータ) (2024-08-03T19:57:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。