論文の概要: Responsible Evaluation of AI for Mental Health
- arxiv url: http://arxiv.org/abs/2602.00065v1
- Date: Tue, 20 Jan 2026 12:55:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 02:03:42.304786
- Title: Responsible Evaluation of AI for Mental Health
- Title(参考訳): メンタルヘルスのためのAIの責任評価
- Authors: Hiba Arnaout, Anmol Goel, H. Andrew Schwartz, Steffen T. Eberhardt, Dana Atzil-Slonim, Gavin Doherty, Brian Schwartz, Wolfgang Lutz, Tim Althoff, Munmun De Choudhury, Hamidreza Jamalabadi, Raj Sanjay Shah, Flor Miriam Plaza-del-Arco, Dirk Hovy, Maria Liakata, Iryna Gurevych,
- Abstract要約: メンタルヘルスケアにおけるAIツールの評価に対する現在のアプローチは、断片化されており、臨床実践、社会的コンテキスト、ファーストハンドのユーザエクスペリエンスと不整合である。
本稿では,臨床の健全性,社会的文脈,公平性を統合した学際的枠組みを導入することにより,責任ある評価を再考する。
- 参考スコア(独自算出の注目度): 72.85175110624736
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although artificial intelligence (AI) shows growing promise for mental health care, current approaches to evaluating AI tools in this domain remain fragmented and poorly aligned with clinical practice, social context, and first-hand user experience. This paper argues for a rethinking of responsible evaluation -- what is measured, by whom, and for what purpose -- by introducing an interdisciplinary framework that integrates clinical soundness, social context, and equity, providing a structured basis for evaluation. Through an analysis of 135 recent *CL publications, we identify recurring limitations, including over-reliance on generic metrics that do not capture clinical validity, therapeutic appropriateness, or user experience, limited participation from mental health professionals, and insufficient attention to safety and equity. To address these gaps, we propose a taxonomy of AI mental health support types -- assessment-, intervention-, and information synthesis-oriented -- each with distinct risks and evaluative requirements, and illustrate its use through case studies.
- Abstract(参考訳): 人工知能(AI)は、メンタルヘルスに対する期待が高まる一方で、この領域におけるAIツールの評価に対する現在のアプローチは、断片化され、臨床実践、社会的コンテキスト、ファーストハンドのユーザエクスペリエンスと整合性に乏しいままである。
本稿では, 臨床の健全性, 社会的文脈, 公平性を統合した学際的枠組みを導入し, 評価のための構造化基盤を提供することにより, 責任評価の再考を論じる。
近年の135件の*CL出版物の分析を通じて,臨床的妥当性,治療的適切性,ユーザエクスペリエンスを捉えない総合指標の過度な信頼,精神保健専門家の参加の制限,安全と株式への注意不足など,再発する限界を同定した。
これらのギャップに対処するため、我々は、個別のリスクと評価要求を持つAIメンタルヘルスサポートタイプ(アセスメント、介入、情報合成)の分類を提案し、ケーススタディを通じてその使い方を説明する。
関連論文リスト
- AgentMental: An Interactive Multi-Agent Framework for Explainable and Adaptive Mental Health Assessment [31.920800599579906]
メンタルヘルスアセスメントは早期介入と効果的な治療に不可欠であるが、伝統的な臨床医ベースのアプローチは資格のある専門家の不足によって制限される。
人工知能の最近の進歩は、自動心理学的評価への関心が高まりつつあるが、既存のほとんどのアプローチは静的テキスト分析に依存しているため制約されている。
臨床医と患者との対話をシミュレートした精神保健評価のためのマルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-15T16:20:45Z) - A Comprehensive Review of Datasets for Clinical Mental Health AI Systems [55.67299586253951]
本稿では,AIを活用した臨床アシスタントの訓練・開発に関連する臨床精神保健データセットの総合的調査を行う。
本調査では, 縦断データの欠如, 文化・言語表現の制限, 一貫性のない収集・注釈基準, 合成データのモダリティの欠如など, 重要なギャップを明らかにした。
論文 参考訳(メタデータ) (2025-08-13T13:42:35Z) - Medical Reasoning in the Era of LLMs: A Systematic Review of Enhancement Techniques and Applications [59.721265428780946]
医学における大きな言語モデル(LLM)は印象的な能力を実現しているが、体系的で透明で検証可能な推論を行う能力に重大なギャップが残っている。
本稿は、この新興分野に関する最初の体系的なレビューを提供する。
本稿では,学習時間戦略とテスト時間メカニズムに分類した推論強化手法の分類法を提案する。
論文 参考訳(メタデータ) (2025-08-01T14:41:31Z) - A Systematic Review of User-Centred Evaluation of Explainable AI in Healthcare [1.57531613028502]
本研究の目的は、医療におけるXAIのユーザエクスペリエンスを特徴付ける、明確に定義された原子特性の枠組みを開発することである。
また,システム特性に基づいて評価戦略を定義するための文脈に敏感なガイドラインも提供する。
論文 参考訳(メタデータ) (2025-06-16T18:30:00Z) - A Risk Ontology for Evaluating AI-Powered Psychotherapy Virtual Agents [13.721977133773192]
大言語モデル (LLMs) と知的仮想エージェント (Intelligent Virtual Agents) は精神療法士として機能し、メンタルヘルスアクセスを拡大する機会を提供する。
彼らの展開は、ユーザーの損害や自殺など、深刻な有害な結果にも結びついている。
我々は、会話型AI心理療法士の体系的評価に特化して設計された新しいリスクオントロジーを導入する。
論文 参考訳(メタデータ) (2025-05-21T05:01:39Z) - Ψ-Arena: Interactive Assessment and Optimization of LLM-based Psychological Counselors with Tripartite Feedback [51.26493826461026]
大規模言語モデル(LLM)の総合的評価と最適化のための対話型フレームワークであるPsi-Arenaを提案する。
アリーナは、心理学的にプロファイルされたNPCクライアントとの多段階対話を通じて現実世界のカウンセリングをシミュレートする現実的なアリーナ相互作用を特徴としている。
8つの最先端のLLM実験は、異なる実世界のシナリオと評価の観点で大きなパフォーマンス変化を示す。
論文 参考訳(メタデータ) (2025-05-06T08:22:51Z) - Towards Privacy-aware Mental Health AI Models: Advances, Challenges, and Opportunities [58.61680631581921]
メンタルヘルス障害は、深い個人的・社会的負担を生じさせるが、従来の診断はリソース集約的でアクセシビリティが制限される。
本稿では、これらの課題を考察し、匿名化、合成データ、プライバシー保護トレーニングを含む解決策を提案する。
臨床的な意思決定をサポートし、メンタルヘルスの結果を改善する、信頼できるプライバシを意識したAIツールを進化させることを目標としている。
論文 参考訳(メタデータ) (2025-02-01T15:10:02Z) - Applying and Evaluating Large Language Models in Mental Health Care: A Scoping Review of Human-Assessed Generative Tasks [16.099253839889148]
大規模言語モデル(LLM)はメンタルヘルスのための有望なツールとして登場し、人間のような反応を生成する能力を通じてスケーラブルなサポートを提供する。
しかし, 臨床環境におけるこれらのモデルの有効性は明らかになっていない。
このスコーピングレビューは、これらのモデルが現実世界のシナリオで人間の参加者とテストされた研究に焦点を当てている。
論文 参考訳(メタデータ) (2024-08-21T02:21:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。