論文の概要: MentraSuite: Post-Training Large Language Models for Mental Health Reasoning and Assessment
- arxiv url: http://arxiv.org/abs/2512.09636v2
- Date: Tue, 16 Dec 2025 10:08:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 14:48:05.916039
- Title: MentraSuite: Post-Training Large Language Models for Mental Health Reasoning and Assessment
- Title(参考訳): MentraSuite: メンタルヘルス推論とアセスメントのためのトレーニング後の大規模言語モデル
- Authors: Mengxi Xiao, Kailai Yang, Pengde Zhao, Enze Zhang, Ziyan Kuang, Zhiwei Liu, Weiguang Han, Shu Liao, Lianting Huang, Jinpeng Hu, Min Peng, Qianqian Xie, Sophia Ananiadou,
- Abstract要約: MentraSuiteは、信頼できるメンタルヘルス推論を進めるための統一されたフレームワークである。
MentraBenchは5つのコア推論側面、6つのタスク、13のデータセットにまたがるベンチマークである。
Mindoraは、ハイブリッドSFT-RLフレームワークによって最適化されたポストトレーニングモデルである。
- 参考スコア(独自算出の注目度): 35.949107062098
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mental health disorders affect hundreds of millions globally, and the Web now serves as a primary medium for accessing support, information, and assessment. Large language models (LLMs) offer scalable and accessible assistance, yet their deployment in mental-health settings remains risky when their reasoning is incomplete, inconsistent, or ungrounded. Existing psychological LLMs emphasize emotional understanding or knowledge recall but overlook the step-wise, clinically aligned reasoning required for appraisal, diagnosis, intervention planning, abstraction, and verification. To address these issues, we introduce MentraSuite, a unified framework for advancing reliable mental-health reasoning. We propose MentraBench, a comprehensive benchmark spanning five core reasoning aspects, six tasks, and 13 datasets, evaluating both task performance and reasoning quality across five dimensions: conciseness, coherence, hallucination avoidance, task understanding, and internal consistency. We further present Mindora, a post-trained model optimized through a hybrid SFT-RL framework with an inconsistency-detection reward to enforce faithful and coherent reasoning. To support training, we construct high-quality trajectories using a novel reasoning trajectory generation strategy, that strategically filters difficult samples and applies a structured, consistency-oriented rewriting process to produce concise, readable, and well-balanced trajectories. Across 20 evaluated LLMs, Mindora achieves the highest average performance on MentraBench and shows remarkable performances in reasoning reliability, demonstrating its effectiveness for complex mental-health scenarios.
- Abstract(参考訳): メンタルヘルス障害は世界中に何億もの影響を及ぼし、ウェブはサポート、情報、アセスメントにアクセスできる主要な媒体となっている。
大規模言語モデル(LLM)はスケーラブルでアクセス可能な支援を提供するが、彼らの精神的な健康設定への展開は、彼らの推論が不完全、矛盾、あるいは根拠のない場合にも危険である。
既存の心理学的LLMは感情的な理解や知識のリコールを強調しているが、評価、診断、介入計画、抽象化、検証に必要な段階的、臨床的に整合した推論を見落としている。
これらの問題に対処するために、信頼性の高いメンタルヘルス推論を推進するための統一的なフレームワークであるMentraSuiteを紹介します。
我々は5つの中核的推論側面、6つのタスク、13のデータセットにまたがる包括的なベンチマークであるMentraBenchを提案し、簡潔さ、コヒーレンス、幻覚回避、タスク理解、内部一貫性の5次元にわたるタスクパフォーマンスと推論品質を評価した。
我々はさらに、忠実で一貫性のある推論を強制するために不整合検出報酬を持つハイブリッドSFT-RLフレームワークによって最適化された後学習モデルであるMindoraを提示する。
学習を支援するために,我々は,難解なサンプルを戦略的にフィルタリングし,構造化された整合性指向の書き換えプロセスを適用し,簡潔で読みやすく,バランスの取れた軌道を生成する,新しい推論軌道生成戦略を用いて高品質な軌道を構築する。
評価された20以上のLSMにおいて、MindoraはMentraBench上での平均的なパフォーマンスを最高に達成し、信頼性の推論において顕著なパフォーマンスを示し、複雑なメンタルヘルスシナリオの有効性を示した。
関連論文リスト
- MedAlign: A Synergistic Framework of Multimodal Preference Optimization and Federated Meta-Cognitive Reasoning [52.064286116035134]
我々はMed-VQA(Med-VQA)のための視覚的LVLM応答を保証するフレームワークであるMedAlignを開発した。
まず、優先学習を視覚的コンテキストに合わせるために、マルチモーダルな直接選好最適化(mDPO)の目的を提案する。
次に、画像とテキストの類似性を生かし、クエリを専門的でコンテキスト拡張されたLVLMにルーティングする検索型混合処理(RA-MoE)アーキテクチャを設計する。
論文 参考訳(メタデータ) (2025-10-24T02:11:05Z) - ProMind-LLM: Proactive Mental Health Care via Causal Reasoning with Sensor Data [5.961343130822046]
メンタルヘルスのリスクは、世界の公衆衛生にとって重要な課題である。
大規模言語モデル(LLMs)の開発により、それらは説明可能な精神医療応用のための有望なツールであることが注目されている。
本稿では、主観的心的記録と相補的な情報として客観的行動データを統合する革新的なアプローチであるProMind-LLMを紹介する。
論文 参考訳(メタデータ) (2025-05-20T07:36:28Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - SouLLMate: An Application Enhancing Diverse Mental Health Support with Adaptive LLMs, Prompt Engineering, and RAG Techniques [9.920107586781919]
メンタルヘルスの問題は個人の日常生活に大きな影響を及ぼすが、多くの人は利用可能なオンラインリソースでも必要な支援を受けていない。
この研究は、最先端のAI技術を通じて、多様な、アクセス可能な、スティグマのない、パーソナライズされた、リアルタイムのメンタルヘルスサポートを提供することを目的としている。
論文 参考訳(メタデータ) (2024-10-17T22:04:32Z) - Evaluating Large Language Models with Psychometrics [59.821829073478376]
本稿では,Large Language Models (LLMs) の心理的構造を定量化するための総合的ベンチマークを提案する。
私たちの研究は、13のデータセットで評価された5つの重要な心理的構成要素、人格、価値観、感情的知性、心の理論、自己効力性を特定します。
LLMの自己報告特性と実際のシナリオにおける応答パターンとの間に大きな相違が発見され,その挙動の複雑さが明らかになった。
論文 参考訳(メタデータ) (2024-06-25T16:09:08Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - Towards Interpretable Mental Health Analysis with Large Language Models [27.776003210275608]
大規模言語モデル(LLM)のメンタルヘルス分析と感情的推論能力は,5つのタスクにまたがる11のデータセット上で評価した。
本研究は, 精神保健分析のためのLCMについて, それぞれの意思決定に関する説明を提示するように指示することで, 解釈可能な精神保健分析を行う。
得られた説明の質を評価するために、厳密な人的評価を伝達し、163の人的評価による新しいデータセットを作成する。
論文 参考訳(メタデータ) (2023-04-06T19:53:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。