Fugu-MT 論文翻訳(概要): Responsible Evaluation of AI for Mental Health

論文の概要: Responsible Evaluation of AI for Mental Health

arxiv url: http://arxiv.org/abs/2602.00065v1
Date: Tue, 20 Jan 2026 12:55:10 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-09 02:03:42.304786
Title: Responsible Evaluation of AI for Mental Health
Title（参考訳）: メンタルヘルスのためのAIの責任評価
Authors: Hiba Arnaout, Anmol Goel, H. Andrew Schwartz, Steffen T. Eberhardt, Dana Atzil-Slonim, Gavin Doherty, Brian Schwartz, Wolfgang Lutz, Tim Althoff, Munmun De Choudhury, Hamidreza Jamalabadi, Raj Sanjay Shah, Flor Miriam Plaza-del-Arco, Dirk Hovy, Maria Liakata, Iryna Gurevych,
Abstract要約: メンタルヘルスケアにおけるAIツールの評価に対する現在のアプローチは、断片化されており、臨床実践、社会的コンテキスト、ファーストハンドのユーザエクスペリエンスと不整合である。本稿では,臨床の健全性,社会的文脈,公平性を統合した学際的枠組みを導入することにより,責任ある評価を再考する。
参考スコア（独自算出の注目度）: 72.85175110624736
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Although artificial intelligence (AI) shows growing promise for mental health care, current approaches to evaluating AI tools in this domain remain fragmented and poorly aligned with clinical practice, social context, and first-hand user experience. This paper argues for a rethinking of responsible evaluation -- what is measured, by whom, and for what purpose -- by introducing an interdisciplinary framework that integrates clinical soundness, social context, and equity, providing a structured basis for evaluation. Through an analysis of 135 recent *CL publications, we identify recurring limitations, including over-reliance on generic metrics that do not capture clinical validity, therapeutic appropriateness, or user experience, limited participation from mental health professionals, and insufficient attention to safety and equity. To address these gaps, we propose a taxonomy of AI mental health support types -- assessment-, intervention-, and information synthesis-oriented -- each with distinct risks and evaluative requirements, and illustrate its use through case studies.
Abstract（参考訳）: 人工知能(AI)は、メンタルヘルスに対する期待が高まる一方で、この領域におけるAIツールの評価に対する現在のアプローチは、断片化され、臨床実践、社会的コンテキスト、ファーストハンドのユーザエクスペリエンスと整合性に乏しいままである。本稿では, 臨床の健全性, 社会的文脈, 公平性を統合した学際的枠組みを導入し, 評価のための構造化基盤を提供することにより, 責任評価の再考を論じる。近年の135件の*CL出版物の分析を通じて,臨床的妥当性,治療的適切性,ユーザエクスペリエンスを捉えない総合指標の過度な信頼,精神保健専門家の参加の制限,安全と株式への注意不足など,再発する限界を同定した。これらのギャップに対処するため、我々は、個別のリスクと評価要求を持つAIメンタルヘルスサポートタイプ(アセスメント、介入、情報合成)の分類を提案し、ケーススタディを通じてその使い方を説明する。

関連論文リスト

Assessing Risks of Large Language Models in Mental Health Support: A Framework for Automated Clinical AI Red Teaming [23.573537738272595]
本稿では,AI心理療法士と認知影響モデルを備えた模擬患者エージェントを併用する評価フレームワークを提案する。我々は、この枠組みを6つのAIエージェントを評価する、高インパクトなテストケースであるアルコール使用障害に適用する。大規模なシミュレーションでは、メンタルヘルス支援にAIを使用する場合、重大な安全性のギャップが明らかになっている。
論文参考訳（メタデータ） (2026-02-23T15:17:18Z)
AgentMental: An Interactive Multi-Agent Framework for Explainable and Adaptive Mental Health Assessment [31.920800599579906]
メンタルヘルスアセスメントは早期介入と効果的な治療に不可欠であるが、伝統的な臨床医ベースのアプローチは資格のある専門家の不足によって制限される。人工知能の最近の進歩は、自動心理学的評価への関心が高まりつつあるが、既存のほとんどのアプローチは静的テキスト分析に依存しているため制約されている。臨床医と患者との対話をシミュレートした精神保健評価のためのマルチエージェントフレームワークを提案する。
論文参考訳（メタデータ） (2025-08-15T16:20:45Z)
A Comprehensive Review of Datasets for Clinical Mental Health AI Systems [55.67299586253951]
本稿では,AIを活用した臨床アシスタントの訓練・開発に関連する臨床精神保健データセットの総合的調査を行う。本調査では, 縦断データの欠如, 文化・言語表現の制限, 一貫性のない収集・注釈基準, 合成データのモダリティの欠如など, 重要なギャップを明らかにした。
論文参考訳（メタデータ） (2025-08-13T13:42:35Z)
Medical Reasoning in the Era of LLMs: A Systematic Review of Enhancement Techniques and Applications [59.721265428780946]
医学における大きな言語モデル(LLM)は印象的な能力を実現しているが、体系的で透明で検証可能な推論を行う能力に重大なギャップが残っている。本稿は、この新興分野に関する最初の体系的なレビューを提供する。本稿では,学習時間戦略とテスト時間メカニズムに分類した推論強化手法の分類法を提案する。
論文参考訳（メタデータ） (2025-08-01T14:41:31Z)
A Systematic Review of User-Centred Evaluation of Explainable AI in Healthcare [1.57531613028502]
本研究の目的は、医療におけるXAIのユーザエクスペリエンスを特徴付ける、明確に定義された原子特性の枠組みを開発することである。また,システム特性に基づいて評価戦略を定義するための文脈に敏感なガイドラインも提供する。
論文参考訳（メタデータ） (2025-06-16T18:30:00Z)
MoodAngels: A Retrieval-augmented Multi-agent Framework for Psychiatry Diagnosis [58.67342568632529]
MoodAngelsは、気分障害の診断のための最初の特殊なマルチエージェントフレームワークである。 MoodSynは、合成精神医学の1,173件のオープンソースデータセットである。
論文参考訳（メタデータ） (2025-06-04T09:18:25Z)
A Risk Ontology for Evaluating AI-Powered Psychotherapy Virtual Agents [13.721977133773192]
大言語モデル (LLMs) と知的仮想エージェント (Intelligent Virtual Agents) は精神療法士として機能し、メンタルヘルスアクセスを拡大する機会を提供する。彼らの展開は、ユーザーの損害や自殺など、深刻な有害な結果にも結びついている。我々は、会話型AI心理療法士の体系的評価に特化して設計された新しいリスクオントロジーを導入する。
論文参考訳（メタデータ） (2025-05-21T05:01:39Z)
Ψ-Arena: Interactive Assessment and Optimization of LLM-based Psychological Counselors with Tripartite Feedback [51.26493826461026]
大規模言語モデル(LLM)の総合的評価と最適化のための対話型フレームワークであるPsi-Arenaを提案する。アリーナは、心理学的にプロファイルされたNPCクライアントとの多段階対話を通じて現実世界のカウンセリングをシミュレートする現実的なアリーナ相互作用を特徴としている。 8つの最先端のLLM実験は、異なる実世界のシナリオと評価の観点で大きなパフォーマンス変化を示す。
論文参考訳（メタデータ） (2025-05-06T08:22:51Z)
Towards Privacy-aware Mental Health AI Models: Advances, Challenges, and Opportunities [58.61680631581921]
メンタルヘルス障害は、深い個人的・社会的負担を生じさせるが、従来の診断はリソース集約的でアクセシビリティが制限される。本稿では、これらの課題を考察し、匿名化、合成データ、プライバシー保護トレーニングを含む解決策を提案する。臨床的な意思決定をサポートし、メンタルヘルスの結果を改善する、信頼できるプライバシを意識したAIツールを進化させることを目標としている。
論文参考訳（メタデータ） (2025-02-01T15:10:02Z)
Applying and Evaluating Large Language Models in Mental Health Care: A Scoping Review of Human-Assessed Generative Tasks [16.099253839889148]
大規模言語モデル(LLM)はメンタルヘルスのための有望なツールとして登場し、人間のような反応を生成する能力を通じてスケーラブルなサポートを提供する。しかし, 臨床環境におけるこれらのモデルの有効性は明らかになっていない。このスコーピングレビューは、これらのモデルが現実世界のシナリオで人間の参加者とテストされた研究に焦点を当てている。
論文参考訳（メタデータ） (2024-08-21T02:21:59Z)
Opportunities of a Machine Learning-based Decision Support System for Stroke Rehabilitation Assessment [64.52563354823711]
リハビリテーションアセスメントは、患者の適切な介入を決定するために重要である。現在の評価の実践は、主にセラピストの経験に依存しており、セラピストの可用性が限られているため、アセスメントは頻繁に実施される。我々は、強化学習を用いて評価の健全な特徴を識別できるインテリジェントな意思決定支援システムを開発した。
論文参考訳（メタデータ） (2020-02-27T17:04:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。