論文の概要: MindGuard: Guardrail Classifiers for Multi-Turn Mental Health Support
- arxiv url: http://arxiv.org/abs/2602.00950v1
- Date: Sun, 01 Feb 2026 01:03:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.483462
- Title: MindGuard: Guardrail Classifiers for Multi-Turn Mental Health Support
- Title(参考訳): MindGuard: マルチターンメンタルヘルスサポートのためのガードレール分類器
- Authors: António Farinhas, Nuno M. Guerreiro, José Pombal, Pedro Henrique Martins, Laura Melton, Alex Conway, Cara Dochat, Maya D'Eon, Ricardo Rei,
- Abstract要約: 汎用セーフガードは、治療的開示と真の臨床上の危機を区別することができない。
本稿では,PhDレベルの心理学者と共同で開発されたリスク分類法について紹介する。
MindGuard-testsetは,臨床専門家が注釈を付けた実世界のマルチターン会話のデータセットである。
- 参考スコア(独自算出の注目度): 9.430938712127231
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models are increasingly used for mental health support, yet their conversational coherence alone does not ensure clinical appropriateness. Existing general-purpose safeguards often fail to distinguish between therapeutic disclosures and genuine clinical crises, leading to safety failures. To address this gap, we introduce a clinically grounded risk taxonomy, developed in collaboration with PhD-level psychologists, that identifies actionable harm (e.g., self-harm and harm to others) while preserving space for safe, non-crisis therapeutic content. We release MindGuard-testset, a dataset of real-world multi-turn conversations annotated at the turn level by clinical experts. Using synthetic dialogues generated via a controlled two-agent setup, we train MindGuard, a family of lightweight safety classifiers (with 4B and 8B parameters). Our classifiers reduce false positives at high-recall operating points and, when paired with clinician language models, help achieve lower attack success and harmful engagement rates in adversarial multi-turn interactions compared to general-purpose safeguards. We release all models and human evaluation data.
- Abstract(参考訳): 大規模言語モデルは、精神的な健康支援にますます使われているが、会話の一貫性だけでは臨床的に適切でない。
既存の汎用安全ガードは、治療の開示と真の臨床上の危機を区別できないことが多く、安全上の障害につながっている。
このギャップに対処するために、我々はPhDレベル心理学者と共同で開発されたリスク分類法を導入し、安全で非犯罪的な治療内容の空間を維持しながら、行動可能な害(例えば、自己害、他人への害)を識別する。
我々はMindGuard-testsetをリリースした。これは臨床の専門家によるターンレベルで注釈付けされた実世界のマルチターン会話のデータセットである。
制御された2エージェント設定で生成された合成対話を用いて、軽量な安全分類器群であるMindGuardを訓練する(4Bと8Bパラメータを持つ)。
我々の分類器は, ハイリコール操作点における偽陽性を低減し, 臨床言語モデルと組み合わせることで, 汎用セーフガードと比較して, 対向多ターン相互作用における攻撃成功率や有害エンゲージメント率の向上に寄与する。
すべてのモデルと人間の評価データをリリースします。
関連論文リスト
- MindChat: A Privacy-preserving Large Language Model for Mental Health Support [10.332226758787277]
我々は、メンタルヘルス支援のためのプライバシー保護型大規模言語モデルであるMindChatを紹介する。
我々はまた、マルチエージェントロールプレイングフレームワークを用いて構築された合成マルチターンカウンセリングデータセットであるMindCorpusを提示する。
論文 参考訳(メタデータ) (2026-01-05T10:54:18Z) - DialogGuard: Multi-Agent Psychosocial Safety Evaluation of Sensitive LLM Responses [4.663948718816864]
本稿では,Web上での心理社会的リスクを評価するための多エージェントフレームワークであるDialogGuardを紹介する。
DialogGuardは4つのLSM-as-a-judgeパイプラインを通じて、多様なジェネリックモデルに適用することができる。
論文 参考訳(メタデータ) (2025-12-01T23:53:45Z) - multiMentalRoBERTa: A Fine-tuned Multiclass Classifier for Mental Health Disorder [0.6308539010172308]
ソーシャルメディアからのメンタルヘルス障害の早期発見は、適切なリソースへのタイムリーなサポート、リスクアセスメント、参照を可能にするために重要である。
この研究は、一般的な精神状態のマルチクラス分類用に設計された微調整RoBERTaモデルであるMultiMentalRoBERTaを紹介する。
論文 参考訳(メタデータ) (2025-11-01T03:55:48Z) - Between Help and Harm: An Evaluation of Mental Health Crisis Handling by LLMs [6.0460961868478975]
臨床的にインフォームドされた6つのメンタルヘルス危機カテゴリーの統一分類を導入する。
我々は、危機タイプを分類し、安全で適切な応答を生成する能力のために、3つの最先端のLCMをベンチマークする。
間接的または曖昧なリスク信号の処理におけるシステム的弱点、定式的および不完全なデフォルト応答への依存、およびユーザコンテキストとの頻繁な不一致を識別する。
論文 参考訳(メタデータ) (2025-09-29T14:42:23Z) - BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - Reframe Your Life Story: Interactive Narrative Therapist and Innovative Moment Assessment with Large Language Models [72.36715571932696]
物語療法は、個人が問題のある人生の物語を代替品の力に変えるのに役立つ。
現在のアプローチでは、特殊精神療法ではリアリズムが欠如しており、時間とともに治療の進行を捉えることができない。
Int(Interactive Narrative Therapist)は、治療段階を計画し、反射レベルを誘導し、文脈的に適切な専門家のような反応を生成することによって、専門家の物語セラピストをシミュレートする。
論文 参考訳(メタデータ) (2025-07-27T11:52:09Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - PsySafe: A Comprehensive Framework for Psychological-based Attack, Defense, and Evaluation of Multi-agent System Safety [70.84902425123406]
大規模言語モデル(LLM)で拡張されたマルチエージェントシステムは、集団知能において重要な能力を示す。
しかし、悪意のある目的のためにこのインテリジェンスを誤用する可能性があり、重大なリスクが生じる。
本研究では,エージェント心理学を基盤とした枠組み(PsySafe)を提案し,エージェントのダークパーソナリティ特性がリスク行動にどう影響するかを明らかにする。
実験の結果,エージェント間の集団的危険行動,エージェントが危険な行動を行う際の自己反射,エージェントの心理的評価と危険な行動との相関など,いくつかの興味深い現象が明らかになった。
論文 参考訳(メタデータ) (2024-01-22T12:11:55Z) - A Benchmark for Understanding Dialogue Safety in Mental Health Support [15.22008156903607]
本稿では,支援者に対する肯定的な影響を優先する理論的かつ現実的な分類法を開発することを目的とする。
我々は、BERTベース、RoBERTa-large、ChatGPTなど、人気のある言語モデルを用いてデータセットを分析する。
開発されたデータセットと研究結果は、メンタルヘルスサポートにおける対話安全性の研究を進めるための貴重なベンチマークとなる。
論文 参考訳(メタデータ) (2023-07-31T07:33:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。