論文の概要: MHSafeEval: Role-Aware Interaction-Level Evaluation of Mental Health Safety in Large Language Models
- arxiv url: http://arxiv.org/abs/2604.17730v1
- Date: Mon, 20 Apr 2026 02:37:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.664473
- Title: MHSafeEval: Role-Aware Interaction-Level Evaluation of Mental Health Safety in Large Language Models
- Title(参考訳): MHSafeEval:大規模言語モデルにおける役割認識インタラクション-メンタルヘルスのレベル評価
- Authors: Suhyun Lee, Palakorn Achananuparp, Neemesh Yadav, Ee-Peng Lim, Yang Deng,
- Abstract要約: 大規模言語モデル(LLM)は、メンタルヘルスカウンセリングのためのスケーラブルなツールとして、ますます研究されている。
臨床的害の相互作用と文脈に依存した性質のため、安全性を評価することは依然として困難である。
我々は、ロールアウェアなメンタルヘルス安全分類であるR-MHSafeと、クローズドループエージェントベースの評価フレームワークであるMHSafeEvalを紹介する。
- 参考スコア(独自算出の注目度): 32.31200693426663
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly explored as scalable tools for mental health counseling, yet evaluating their safety remains challenging due to the interactional and context-dependent nature of clinical harm. Existing evaluation frameworks predominantly assess isolated responses using coarse-grained taxonomies or static datasets, limiting their ability to diagnose how harms emerge and accumulate over multi-turn counseling interactions. In this work, we introduce R-MHSafe, a role-aware mental health safety taxonomy that characterizes clinically significant harm in terms of the interactional roles an AI counselor adopts, including perpetrator, instigator, facilitator, or enabler, combined with clinically grounded harm categories. Then, we propose MHSafeEval, a closed-loop, agent-based evaluation framework that formulates safety assessment as trajectory-level discovery of harm through adversarial multi-turn interactions, guided by role-aware modeling. Using R-MHSafe and MHSafeEval, we conduct a large-scale evaluation across state-of-the-art LLMs. Our results reveal substantial role-dependent and cumulative safety failures that are systematically missed by existing static benchmarks, and show that our framework significantly improves failure-mode coverage and diagnostic granularity.
- Abstract(参考訳): 大規模言語モデル(LLM)は、メンタルヘルスカウンセリングのスケーラブルなツールとして研究されているが、臨床疾患の相互作用や文脈に依存した性質のため、その安全性を評価することは困難である。
既存の評価フレームワークは、粗粒の分類学や静的なデータセットを使用して、孤立した応答を主に評価し、マルチターンカウンセリングの相互作用に対して障害の発生と蓄積を診断する能力を制限している。
本研究は,AIカウンセラーが採用する相互行為的役割(加害者,攻撃者,ファシリテータ,イネーブラーなど)を,臨床に根ざした有害カテゴリーと組み合わせることで,臨床的に重要な危害を特徴付ける役割認識型精神衛生分類であるR-MHSafeを紹介する。
そこで我々は,MHSafeEvalを提案する。MHSafeEvalは,ロール・アウェア・モデリングによって誘導される,対向多ターン相互作用による害の軌跡レベルの発見として安全評価を定式化する,クローズドループエージェントベースの評価フレームワークである。
R-MHSafe と MHSafeEval を用いて, 最先端LLMの大規模評価を行う。
以上の結果から,既存の静的ベンチマークで体系的に欠落するロール依存的かつ累積的な安全性障害が明らかとなり,本フレームワークは障害モードのカバレッジと診断の粒度を著しく改善することが示された。
関連論文リスト
- SafeSci: Safety Evaluation of Large Language Models in Science Domains and Beyond [134.43113804188195]
安全評価と科学的文脈の強化のための包括的枠組みであるSafeSciを紹介する。
SafeSciには、0.25Mサンプルを持つマルチディシプリナのベンチマークであるSafeSciBenchと、安全性向上のための1.5Mサンプルを含む大規模データセットであるSafeSciTrainが含まれている。
論文 参考訳(メタデータ) (2026-03-02T08:16:04Z) - VERA-MH: Reliability and Validity of an Open-Source AI Safety Evaluation in Mental Health [0.0]
メンタルヘルス(VERA-MH)評価における倫理的で責任のあるAIの検証は、エビデンスベースの自動安全ベンチマークの緊急の必要性を満たすために最近提案された。
本研究は,自殺リスク検出および応答におけるAI安全性評価のためのVERA-MHの臨床的妥当性と信頼性を検討することを目的とした。
論文 参考訳(メタデータ) (2026-02-04T22:17:04Z) - MHDash: An Online Platform for Benchmarking Mental Health-Aware AI Assistants [2.89303424493]
我々は、メンタルヘルスアプリケーションのためのAIシステムの開発、評価、監査を支援するために設計されたオープンソースのプラットフォームであるMHDashを紹介する。
以上の結果から, 単純ベースラインと高度なLCM APIは, 高リスク症例においてほぼ同等の精度を示しつつも, 極めて多岐にわたることが示唆された。
MHDashをオープンプラットフォームとしてリリースすることで、再現可能な研究、透過的な評価、メンタルヘルス支援のためのAIシステムの安全に整合した開発を促進することを目指している。
論文 参考訳(メタデータ) (2026-01-30T22:03:31Z) - SafeRBench: A Comprehensive Benchmark for Safety Assessment in Large Reasoning Models [60.8821834954637]
LRMの安全性をエンドツーエンドに評価する最初のベンチマークであるSafeRBenchを紹介する。
私たちは、リスクカテゴリとレベルを入力設計に組み込んだ先駆者です。
我々は,長い推論トレースを意味的に一貫性のある単位にセグメント化するためのマイクロシンクのチャンキング機構を導入する。
論文 参考訳(メタデータ) (2025-11-19T06:46:33Z) - Between Help and Harm: An Evaluation of Mental Health Crisis Handling by LLMs [6.0460961868478975]
臨床的にインフォームドされた6つのメンタルヘルス危機カテゴリーの統一分類を導入する。
我々は、危機タイプを分類し、安全で適切な応答を生成する能力のために、3つの最先端のLCMをベンチマークする。
間接的または曖昧なリスク信号の処理におけるシステム的弱点、定式的および不完全なデフォルト応答への依存、およびユーザコンテキストとの頻繁な不一致を識別する。
論文 参考訳(メタデータ) (2025-09-29T14:42:23Z) - Psychometric Personality Shaping Modulates Capabilities and Safety in Language Models [3.9481669393262675]
本稿では,ビッグファイブの枠組みに根ざした心理測定的パーソナリティコントロールが,能力と安全性ベンチマークの文脈におけるAI行動にどのように影響するかを検討する。
WMDP, TruthfulQA, ETHICS, およびSycophancyなどのベンチマークでは, 安全性関連指標が大幅に低下する。
これらの知見は、安全性と一般的な能力の両方と相互作用するモデル制御の強力で過小評価された軸としてのパーソナリティ形成を強調した。
論文 参考訳(メタデータ) (2025-09-19T18:19:56Z) - Beyond Reactive Safety: Risk-Aware LLM Alignment via Long-Horizon Simulation [69.63626052852153]
本稿では,モデル生成によるアドバイスが社会システムを通じてどのように伝播するかを示す概念実証フレームワークを提案する。
また、100の間接的な害シナリオのデータセットを導入し、害のないユーザプロンプトから有害で非有害な結果を予測するモデルの能力をテストする。
論文 参考訳(メタデータ) (2025-06-26T02:28:58Z) - Multimodal Situational Safety [73.63981779844916]
マルチモーダル・シチュエーション・セーフティ(Multimodal situational Safety)と呼ばれる新しい安全課題の評価と分析を行う。
MLLMが言語やアクションを通じても安全に応答するためには、言語クエリが対応する視覚的コンテキスト内での安全性への影響を評価する必要があることが多い。
我々は,現在のMLLMの状況安全性能を評価するためのマルチモーダル状況安全ベンチマーク(MSSBench)を開発した。
論文 参考訳(メタデータ) (2024-10-08T16:16:07Z) - The Art of Defending: A Systematic Evaluation and Analysis of LLM
Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。
本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-12-30T17:37:06Z) - A Benchmark for Understanding Dialogue Safety in Mental Health Support [15.22008156903607]
本稿では,支援者に対する肯定的な影響を優先する理論的かつ現実的な分類法を開発することを目的とする。
我々は、BERTベース、RoBERTa-large、ChatGPTなど、人気のある言語モデルを用いてデータセットを分析する。
開発されたデータセットと研究結果は、メンタルヘルスサポートにおける対話安全性の研究を進めるための貴重なベンチマークとなる。
論文 参考訳(メタデータ) (2023-07-31T07:33:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。