論文の概要: MHDash: An Online Platform for Benchmarking Mental Health-Aware AI Assistants
- arxiv url: http://arxiv.org/abs/2602.00353v1
- Date: Fri, 30 Jan 2026 22:03:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.132247
- Title: MHDash: An Online Platform for Benchmarking Mental Health-Aware AI Assistants
- Title(参考訳): MHDash:メンタルヘルスを意識したAIアシスタントをベンチマークするオンラインプラットフォーム
- Authors: Yihe Zhang, Cheyenne N Mohawk, Kaiying Han, Vijay Srinivas Tida, Manyu Li, Xiali Hei,
- Abstract要約: 我々は、メンタルヘルスアプリケーションのためのAIシステムの開発、評価、監査を支援するために設計されたオープンソースのプラットフォームであるMHDashを紹介する。
以上の結果から, 単純ベースラインと高度なLCM APIは, 高リスク症例においてほぼ同等の精度を示しつつも, 極めて多岐にわたることが示唆された。
MHDashをオープンプラットフォームとしてリリースすることで、再現可能な研究、透過的な評価、メンタルヘルス支援のためのAIシステムの安全に整合した開発を促進することを目指している。
- 参考スコア(独自算出の注目度): 2.89303424493
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly applied in mental health support systems, where reliable recognition of high-risk states such as suicidal ideation and self-harm is safety-critical. However, existing evaluations primarily rely on aggregate performance metrics, which often obscure risk-specific failure modes and provide limited insight into model behavior in realistic, multi-turn interactions. We present MHDash, an open-source platform designed to support the development, evaluation, and auditing of AI systems for mental health applications. MHDash integrates data collection, structured annotation, multi-turn dialogue generation, and baseline evaluation into a unified pipeline. The platform supports annotations across multiple dimensions, including Concern Type, Risk Level, and Dialogue Intent, enabling fine-grained and risk-aware analysis. Our results reveal several key findings: (i) simple baselines and advanced LLM APIs exhibit comparable overall accuracy yet diverge significantly on high-risk cases; (ii) some LLMs maintain consistent ordinal severity ranking while failing absolute risk classification, whereas others achieve reasonable aggregate scores but suffer from high false negative rates on severe categories; and (iii) performance gaps are amplified in multi-turn dialogues, where risk signals emerge gradually. These observations demonstrate that conventional benchmarks are insufficient for safety-critical mental health settings. By releasing MHDash as an open platform, we aim to promote reproducible research, transparent evaluation, and safety-aligned development of AI systems for mental health support.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自殺観念や自傷行為などの高リスク状態の信頼性の認識が安全に欠かせない精神保健支援システムにますます適用されている。
しかしながら、既存の評価は、多くの場合、リスク固有の障害モードを曖昧にし、現実的なマルチターンインタラクションにおけるモデル動作に関する限られた洞察を提供する、総合的なパフォーマンスメトリクスに依存しています。
我々は、メンタルヘルスアプリケーションのためのAIシステムの開発、評価、監査を支援するために設計されたオープンソースのプラットフォームであるMHDashを紹介する。
MHDashは、データ収集、構造化アノテーション、マルチターン対話生成、ベースライン評価を統一パイプラインに統合する。
このプラットフォームは、懸念タイプ、リスクレベル、対話インテントなど、複数の次元にわたるアノテーションをサポートし、きめ細かい分析とリスク対応の分析を可能にする。
以上の結果から,いくつかの重要な知見が得られた。
i) 単純なベースラインと高度なLCM APIは、全体的な精度に匹敵するが、リスクの高いケースでは著しくばらつきがある。
二 絶対リスク分類を怠りつつ、一貫した順序厳格度を保ちつつ、合理的な集計スコアを達成しつつ、重度のカテゴリーにおいて高い偽陰性率に悩まされているもの。
3) リスク信号が徐々に現れるマルチターン対話において,性能ギャップが増幅される。
これらの結果は、従来のベンチマークが安全クリティカルなメンタルヘルス設定に不十分であることを示している。
MHDashをオープンプラットフォームとしてリリースすることで、再現可能な研究、透過的な評価、メンタルヘルス支援のためのAIシステムの安全に整合した開発を促進することを目指している。
関連論文リスト
- The Shadow Self: Intrinsic Value Misalignment in Large Language Model Agents [37.75212140218036]
コントロの損失リスクを定式化し、これまで過小評価されていた内因性価値の相違(内因性VM)を識別する。
次に、このリスクを体系的に評価するシナリオ駆動フレームワークであるIMPRESSを紹介します。
我々は,21種類のLLMエージェント上での固有のVMの評価を行い,モデル間での安全性のリスクが広く見られることを発見した。
論文 参考訳(メタデータ) (2026-01-24T07:09:50Z) - SafeRBench: A Comprehensive Benchmark for Safety Assessment in Large Reasoning Models [60.8821834954637]
LRMの安全性をエンドツーエンドに評価する最初のベンチマークであるSafeRBenchを紹介する。
私たちは、リスクカテゴリとレベルを入力設計に組み込んだ先駆者です。
我々は,長い推論トレースを意味的に一貫性のある単位にセグメント化するためのマイクロシンクのチャンキング機構を導入する。
論文 参考訳(メタデータ) (2025-11-19T06:46:33Z) - Between Help and Harm: An Evaluation of Mental Health Crisis Handling by LLMs [6.0460961868478975]
臨床的にインフォームドされた6つのメンタルヘルス危機カテゴリーの統一分類を導入する。
我々は、危機タイプを分類し、安全で適切な応答を生成する能力のために、3つの最先端のLCMをベンチマークする。
間接的または曖昧なリスク信号の処理におけるシステム的弱点、定式的および不完全なデフォルト応答への依存、およびユーザコンテキストとの頻繁な不一致を識別する。
論文 参考訳(メタデータ) (2025-09-29T14:42:23Z) - Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。
LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。
敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。
私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文 参考訳(メタデータ) (2025-07-30T08:44:22Z) - Beyond Reactive Safety: Risk-Aware LLM Alignment via Long-Horizon Simulation [69.63626052852153]
本稿では,モデル生成によるアドバイスが社会システムを通じてどのように伝播するかを示す概念実証フレームワークを提案する。
また、100の間接的な害シナリオのデータセットを導入し、害のないユーザプロンプトから有害で非有害な結果を予測するモデルの能力をテストする。
論文 参考訳(メタデータ) (2025-06-26T02:28:58Z) - ProMind-LLM: Proactive Mental Health Care via Causal Reasoning with Sensor Data [5.961343130822046]
メンタルヘルスのリスクは、世界の公衆衛生にとって重要な課題である。
大規模言語モデル(LLMs)の開発により、それらは説明可能な精神医療応用のための有望なツールであることが注目されている。
本稿では、主観的心的記録と相補的な情報として客観的行動データを統合する革新的なアプローチであるProMind-LLMを紹介する。
論文 参考訳(メタデータ) (2025-05-20T07:36:28Z) - AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons [62.374792825813394]
本稿ではAI製品リスクと信頼性を評価するための業界標準ベンチマークとして,AIluminate v1.0を紹介する。
このベンチマークは、危険、違法、または望ましくない行動を12の危険カテゴリーで引き起こすように設計されたプロンプトに対するAIシステムの抵抗を評価する。
論文 参考訳(メタデータ) (2025-02-19T05:58:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。