論文の概要: TrustMH-Bench: A Comprehensive Benchmark for Evaluating the Trustworthiness of Large Language Models in Mental Health
- arxiv url: http://arxiv.org/abs/2603.03047v1
- Date: Tue, 03 Mar 2026 14:39:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.840349
- Title: TrustMH-Bench: A Comprehensive Benchmark for Evaluating the Trustworthiness of Large Language Models in Mental Health
- Title(参考訳): TrustMH-Bench:メンタルヘルスにおける大規模言語モデルの信頼性評価のための総合ベンチマーク
- Authors: Zixin Xiong, Ziteng Wang, Haotian Fan, Xinjie Zhang, Wenxuan Wang,
- Abstract要約: 大規模言語モデル(LLM)は、アクセス可能なメンタルヘルスサポートを提供する。
既存の評価パラダイムは、メンタルヘルス固有の要件を捉えていない。
本稿では,精神保健LLMの信頼性を定量化するための総合的な枠組みであるTrustMH-Benchを提案する。
- 参考スコア(独自算出の注目度): 22.77297903342446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Large Language Models (LLMs) demonstrate significant potential in providing accessible mental health support, their practical deployment raises critical trustworthiness concerns due to the domains high-stakes and safety-sensitive nature. Existing evaluation paradigms for general-purpose LLMs fail to capture mental health-specific requirements, highlighting an urgent need to prioritize and enhance their trustworthiness. To address this, we propose TrustMH-Bench, a holistic framework designed to systematically quantify the trustworthiness of mental health LLMs. By establishing a deep mapping from domain-specific norms to quantitative evaluation metrics, TrustMH-Bench evaluates models across eight core pillars: Reliability, Crisis Identification and Escalation, Safety, Fairness, Privacy, Robustness, Anti-sycophancy, and Ethics. We conduct extensive experiments across six general-purpose LLMs and six specialized mental health models. Experimental results indicate that the evaluated models underperform across various trustworthiness dimensions in mental health scenarios, revealing significant deficiencies. Notably, even generally powerful models (e.g., GPT-5.1) fail to maintain consistently high performance across all dimensions. Consequently, systematically improving the trustworthiness of LLMs has become a critical task. Our data and code are released.
- Abstract(参考訳): 大規模言語モデル(LLM)は、アクセス可能なメンタルヘルスサポートを提供する上で大きな可能性を秘めている一方で、その実践的展開は、ドメインのハイテイクと安全性に敏感な性質のために、重要な信頼性の懸念を提起する。
汎用LSMの既存の評価パラダイムは、メンタルヘルス固有の要件を捉えず、信頼度を優先し、強化する緊急の必要性を強調している。
そこで本研究では,精神保健LLMの信頼性を体系的に定量化するための総合的枠組みであるTrustMH-Benchを提案する。
ドメイン固有の規範から定量的評価指標への深いマッピングを確立することで、TrustMH-Bench氏は、信頼性、危機識別とエスカレーション、安全、公正、プライバシ、ロバストネス、アンチ・サイコフィケーシー、倫理という8つの柱にわたるモデルを評価する。
我々は6つの汎用LSMと6つの専門的なメンタルヘルスモデルにまたがる広範な実験を行った。
実験結果から, 評価モデルは, メンタルヘルスのシナリオにおいて, 様々な信頼度次元に及ばず, 有意な欠陥がみられた。
特に、一般的には強力なモデル(例えば GPT-5.1)はすべての次元にわたって一貫して高い性能を維持することができない。
そのため,LLMの信頼性を体系的に向上することが重要な課題となっている。
データとコードはリリースされます。
関連論文リスト
- SciTrust 2.0: A Comprehensive Framework for Evaluating Trustworthiness of Large Language Models in Scientific Applications [0.9650932290026195]
大規模言語モデル(LLM)は、科学的研究において変革の可能性を示しているが、その高い文脈への展開は、重大な信頼性の懸念を引き起こす。
本稿では,科学応用におけるLCMの信頼性を評価するための総合的なフレームワークであるSciTrust 2.0を紹介する。
論文 参考訳(メタデータ) (2025-10-29T19:22:55Z) - Beyond Overall Accuracy: A Psychometric Deep Dive into the Topic-Specific Medical Capabilities of 80 Large Language Models [6.362188639024662]
項目応答理論(IRT)に基づく厳密な評価フレームワークであるtextscMedIRT を紹介する。
80の多種多様な言語モデル (LLMs) から, バランスのとれた1,100のUSMLE準拠のベンチマークで, 新たな回答を期待して収集した。
LLMの潜在モデル能力は質問の難易度や識別と共同で推定し、精度のみよりも安定でニュアンスの高い性能ランキングを得る。
論文 参考訳(メタデータ) (2025-09-29T02:06:13Z) - Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。
LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。
敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。
私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文 参考訳(メタデータ) (2025-07-30T08:44:22Z) - Understanding and Benchmarking the Trustworthiness in Multimodal LLMs for Video Understanding [59.50808215134678]
この研究では、23の最先端のビデオLLMを評価する最初の総合的なベンチマークであるTrust-videoLLMを紹介した。
その結果、動的シーン理解、クロスモーダルレジリエンス、現実世界のリスク軽減において、大きな制限が示された。
論文 参考訳(メタデータ) (2025-06-14T04:04:54Z) - Context Reasoner: Incentivizing Reasoning Capability for Contextualized Privacy and Safety Compliance via Reinforcement Learning [53.92712851223158]
安全とプライバシの問題を文脈整合性(CI)理論に従って文脈整合性問題に定式化する。
CIフレームワークの下では、当社のモデルを3つの重要な規制基準 – EU AI ActとHIPAA – に整合させています。
我々は、安全・プライバシー基準の遵守を高めつつ、文脈推論能力を高めるためにルールベースの報酬を持つ強化学習(RL)を採用している。
論文 参考訳(メタデータ) (2025-05-20T16:40:09Z) - ProMind-LLM: Proactive Mental Health Care via Causal Reasoning with Sensor Data [5.961343130822046]
メンタルヘルスのリスクは、世界の公衆衛生にとって重要な課題である。
大規模言語モデル(LLMs)の開発により、それらは説明可能な精神医療応用のための有望なツールであることが注目されている。
本稿では、主観的心的記録と相補的な情報として客観的行動データを統合する革新的なアプローチであるProMind-LLMを紹介する。
論文 参考訳(メタデータ) (2025-05-20T07:36:28Z) - REVAL: A Comprehension Evaluation on Reliability and Values of Large Vision-Language Models [59.445672459851274]
REVALは、Large Vision-Language Modelsの textbfREliability と textbfVALue を評価するために設計された包括的なベンチマークである。
REVALには144K以上の画像テキストビジュアル質問回答(VQA)サンプルが含まれており、信頼性と価値の2つの主要なセクションで構成されている。
主流のオープンソースLVLMや,GPT-4oやGemini-1.5-Proといった著名なクローズドソースモデルを含む26のモデルを評価した。
論文 参考訳(メタデータ) (2025-03-20T07:54:35Z) - A Comprehensive Survey on the Trustworthiness of Large Language Models in Healthcare [8.378348088931578]
医療における大規模言語モデル(LLM)の適用は、臨床意思決定、医学研究、患者医療の強化に大きく貢献する。
実際の臨床環境への統合は、信頼性、特に真理性、プライバシー、安全性、堅牢性、公正性、説明可能性に関する重要な懸念を提起する。
論文 参考訳(メタデータ) (2025-02-21T18:43:06Z) - Confidence Under the Hood: An Investigation into the Confidence-Probability Alignment in Large Language Models [14.5291643644017]
信頼性・確率アライメントの概念を紹介します。
モデルの内部と信頼感の一致を調査する。
分析したモデルのうち、OpenAIのGPT-4は信頼性と信頼性のアライメントが最強であった。
論文 参考訳(メタデータ) (2024-05-25T15:42:04Z) - SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [107.82336341926134]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。
それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文 参考訳(メタデータ) (2024-02-07T17:33:54Z) - TrustLLM: Trustworthiness in Large Language Models [446.5640421311468]
本稿では,大規模言語モデル(LLM)における信頼度に関する総合的研究であるTrustLLMを紹介する。
まず、8つの異なる次元にまたがる信頼性の高いLCMの原則を提案する。
これらの原則に基づいて、真理性、安全性、公正性、堅牢性、プライバシ、機械倫理を含む6つの次元にわたるベンチマークを確立します。
論文 参考訳(メタデータ) (2024-01-10T22:07:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。