論文の概要: P-ReMIS: Pragmatic Reasoning in Mental Health and a Social Implication
- arxiv url: http://arxiv.org/abs/2507.23247v2
- Date: Fri, 07 Nov 2025 17:49:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.502393
- Title: P-ReMIS: Pragmatic Reasoning in Mental Health and a Social Implication
- Title(参考訳): P-ReMIS:メンタルヘルスにおける実践的推論と社会的含意
- Authors: Sneha Oram, Pushpak Bhattacharyya,
- Abstract要約: 精神保健領域における多言語モデル(LLM)の実践的推論能力について検討した。
データセットと提示されたタスクをベンチマークするために、Llama3.1、Mistral、MentaLLaMa、Qwenの4つのモデルを検討します。
その結果、Mistral と Qwen はドメイン内で相当な推論能力を示すことが示唆された。
- 参考スコア(独自算出の注目度): 47.02959423049043
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although explainability and interpretability have received significant attention in artificial intelligence (AI) and natural language processing (NLP) for mental health, reasoning has not been examined in the same depth. Addressing this gap is essential to bridge NLP and mental health through interpretable and reasoning-capable AI systems. To this end, we investigate the pragmatic reasoning capability of large-language models (LLMs) in the mental health domain. We introduce PRiMH dataset, and propose pragmatic reasoning tasks in mental health with pragmatic implicature and presupposition phenomena. In particular, we formulate two tasks in implicature and one task in presupposition. To benchmark the dataset and the tasks presented, we consider four models: Llama3.1, Mistral, MentaLLaMa, and Qwen. The results of the experiments suggest that Mistral and Qwen show substantial reasoning abilities in the domain. Subsequently, we study the behavior of MentaLLaMA on the proposed reasoning tasks with the rollout attention mechanism. In addition, we also propose three StiPRompts to study the stigma around mental health with the state-of-the-art LLMs, GPT4o-mini, Deepseek-chat, and Claude-3.5-haiku. Our evaluated findings show that Claude-3.5-haiku deals with stigma more responsibly compared to the other two LLMs.
- Abstract(参考訳): 人工知能(AI)や自然言語処理(NLP)では,説明可能性や解釈可能性に注目が集まっているが,同じ深さでは推論が検討されていない。
このギャップに対処することは、解釈可能で推論可能なAIシステムを通じて、NLPとメンタルヘルスをブリッジするために不可欠である。
そこで我々は,大規模言語モデル(LLM)の心的健康領域における実践的推論能力について検討した。
我々は,PRiMHデータセットを導入し,実用的不適応・前提現象を伴うメンタルヘルスにおける実用的推論タスクを提案する。
特に、不適応の2つのタスクと前提の1つのタスクを定式化する。
データセットと提示されたタスクをベンチマークするために、Llama3.1、Mistral、MentaLLaMa、Qwenの4つのモデルを検討します。
実験の結果、Mistral と Qwen は領域における相当な推論能力を示していることが示唆された。
そこで本研究では,MentaLLaMAのロールアウトアテンション機構を用いた推論課題について検討した。
また,3つのStiPRomptsを,最先端のLCM,GPT4o-mini,Deepseek-chat,Claude-3.5-haikuを用いて,メンタルヘルスに関するスティグマを研究する。
以上の結果から,Claude-3.5-haikuは,他の2つのLSMと比較して,より応答性が高いことが示唆された。
関連論文リスト
- LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - SimpleToM: Exposing the Gap between Explicit ToM Inference and Implicit ToM Application in LLMs [72.06808538971487]
大規模言語モデル(LLM)が行動予測に「心の理論」(ToM)を暗黙的に適用できるかどうかを検証する。
ToM推論の異なる程度をテストする3つの質問を含む新しいデータセットSimpleTomを作成します。
私たちの知る限り、SimpleToMは、現実的なシナリオにおけるメンタルステートの知識を必要とする下流の推論を探求する最初のデータセットです。
論文 参考訳(メタデータ) (2024-10-17T15:15:00Z) - MentalArena: Self-play Training of Language Models for Diagnosis and Treatment of Mental Health Disorders [59.515827458631975]
メンタルヘルス障害は世界で最も深刻な病気の1つである。
プライバシーに関する懸念は、パーソナライズされた治療データのアクセシビリティを制限する。
MentalArenaは、言語モデルをトレーニングするためのセルフプレイフレームワークである。
論文 参考訳(メタデータ) (2024-10-09T13:06:40Z) - Using LLMs to Aid Annotation and Collection of Clinically-Enriched Data in Bipolar Disorder and Schizophrenia [9.804382916824245]
本稿では、メンタルヘルス研究の強化を目的としたシーケンシャル・ツー・シークエンス・タスクにおける現代言語モデルの応用について述べる。
そこで本研究では,小モデルにおいて,ドメイン固有の臨床変数のアノテーション,メンタルヘルス機器のデータ収集が可能であること,そして,より優れた商用大規模モデルの実現が期待できることを示す。
論文 参考訳(メタデータ) (2024-06-18T15:00:24Z) - WellDunn: On the Robustness and Explainability of Language Models and Large Language Models in Identifying Wellness Dimensions [46.60244609728416]
言語モデル (LMs) は, 予後不良のリスクが高まれば, 臨床実習におけるモデルの実用性に対するリトマステストにはならない可能性がある, メンタルヘルスの分野では, 言語モデル (LMs) が提案されている。
ウェルネス次元(WD)の同定におけるLMの堅牢性と説明性に着目した評価設計を提案する。
LM/LLMの4つの驚くべき結果が明らかになった。
論文 参考訳(メタデータ) (2024-06-17T19:50:40Z) - Enhancing Depression-Diagnosis-Oriented Chat with Psychological State Tracking [27.96718892323191]
Depression-diagnosis-oriented chatは、自己表現の患者を誘導し、うつ病検出の主要な症状を収集することを目的としている。
最近の研究は、面接に基づくうつ病の診断をシミュレートするために、タスク指向対話とchitchatを組み合わせることに焦点を当てている。
対話をガイドするための明確なフレームワークは検討されていない。
論文 参考訳(メタデータ) (2024-03-12T07:17:01Z) - Reliability Analysis of Psychological Concept Extraction and
Classification in User-penned Text [9.26840677406494]
私たちはLoSTデータセットを使って、Redditユーザーの投稿に低い自尊心があることを示唆するニュアンスのあるテキストキューをキャプチャします。
以上の結果から, PLM の焦点を Trigger と Consequences からより包括的な説明に移行する必要性が示唆された。
論文 参考訳(メタデータ) (2024-01-12T17:19:14Z) - PsyEval: A Suite of Mental Health Related Tasks for Evaluating Large Language Models [34.09419351705938]
本稿では,大規模言語モデル(LLM)を評価するためのメンタルヘルス関連タスクの包括的スイートであるPsyEvalについて述べる。
この包括的枠組みは、メンタルヘルス関連のタスクの独特な課題と複雑さを徹底的に評価するために設計されている。
論文 参考訳(メタデータ) (2023-11-15T18:32:27Z) - DiPlomat: A Dialogue Dataset for Situated Pragmatic Reasoning [89.92601337474954]
プラグマティック推論は、実生活における会話でしばしば起こる暗黙の意味を解読する上で重要な役割を担っている。
そこで我々は,現実的な推論と会話理解の場所に関するマシンの能力のベンチマークを目的とした,新しい挑戦であるDiPlomatを紹介した。
論文 参考訳(メタデータ) (2023-06-15T10:41:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。