論文の概要: P-ReMIS: Pragmatic Reasoning in Mental Health and a Social Implication
- arxiv url: http://arxiv.org/abs/2507.23247v1
- Date: Thu, 31 Jul 2025 05:10:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:09.10879
- Title: P-ReMIS: Pragmatic Reasoning in Mental Health and a Social Implication
- Title(参考訳): P-ReMIS:メンタルヘルスにおける実践的推論と社会的含意
- Authors: Sneha Oram, Pushpak Bhattacharyya,
- Abstract要約: 本研究は,心的健康における実用的現象(具体的意味)と前提(具体的仮定)の修正された定義を提案する。
データセットと提示されたタスクをベンチマークするために、Llama3.1、Mistral、MentaLLaMa、Qwenの4つのモデルを検討します。
実験の結果、MistralとQwenはドメインに相当な推論能力を持っていることが示唆された。
- 参考スコア(独自算出の注目度): 41.09752906121257
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There has been an increase in recent advancements in the explainability and development of personalized chatbots for mental health. However, the reasoning aspects for explainability and dialogue discourse have not been explored previously for mental health. Hence, we are investigating the pragmatic reasoning capability of large language models (LLMs) in this domain. We introduce P-ReMe dataset, and propose a modified definition for the pragmatic phenomena of implicature (implied meaning) and presupposition (implicit assumption) in mental health. Following the definition, we formulate two tasks in implicature and one task in presupposition. To benchmark the dataset and the presented tasks, we consider four models - Llama3.1, Mistral, MentaLLaMa, and Qwen. The results of the experiments suggest that Mistral and Qwen show substantial reasoning capabilities in the domain. In addition, we also propose StiPRompts to study the stigma around mental health with the state-of-the-art LLMs, GPT-4o mini, Deepseek-chat, and Claude-3.5-haiku. Our evaluated findings show that Claude-3.5-haiku deals with the stigma more responsibly compared to the other two LLMs.
- Abstract(参考訳): メンタルヘルスのためのパーソナライズされたチャットボットの説明可能性と開発は、近年進歩している。
しかし、説明可能性と対話談話の推論的側面は、これまで精神的な健康のために研究されていない。
そこで我々は,この領域における大規模言語モデル (LLM) の実用的推論能力について検討している。
我々は,P-ReMeデータセットを導入し,心的健康における実用的現象(具体的意味)と前提(単純な仮定)の修正定義を提案する。
定義に従うと、不適応の2つのタスクと前提の1つのタスクを定式化する。
データセットと提示されたタスクをベンチマークするために、Llama3.1、Mistral、MentaLLaMa、Qwenの4つのモデルを検討します。
実験の結果、MistralとQwenはドメインに相当な推論能力を持っていることが示唆された。
また、StiPRomptsを用いて、最先端のLCM、GPT-4o mini、Deepseek-chat、Claude-3.5-haikuを用いて、メンタルヘルスに関するスティグマを研究することを提案する。
以上の結果から,Claude-3.5-haikuは,他の2つのLSMと比較して,より応答性が高いことが示唆された。
関連論文リスト
- WellDunn: On the Robustness and Explainability of Language Models and Large Language Models in Identifying Wellness Dimensions [46.60244609728416]
言語モデル (LMs) は, 予後不良のリスクが高まれば, 臨床実習におけるモデルの実用性に対するリトマステストにはならない可能性がある, メンタルヘルスの分野では, 言語モデル (LMs) が提案されている。
ウェルネス次元(WD)の同定におけるLMの堅牢性と説明性に着目した評価設計を提案する。
LM/LLMの4つの驚くべき結果が明らかになった。
論文 参考訳(メタデータ) (2024-06-17T19:50:40Z) - PsyEval: A Suite of Mental Health Related Tasks for Evaluating Large Language Models [34.09419351705938]
本稿では,大規模言語モデル(LLM)を評価するためのメンタルヘルス関連タスクの包括的スイートであるPsyEvalについて述べる。
この包括的枠組みは、メンタルヘルス関連のタスクの独特な課題と複雑さを徹底的に評価するために設計されている。
論文 参考訳(メタデータ) (2023-11-15T18:32:27Z) - DiPlomat: A Dialogue Dataset for Situated Pragmatic Reasoning [89.92601337474954]
プラグマティック推論は、実生活における会話でしばしば起こる暗黙の意味を解読する上で重要な役割を担っている。
そこで我々は,現実的な推論と会話理解の場所に関するマシンの能力のベンチマークを目的とした,新しい挑戦であるDiPlomatを紹介した。
論文 参考訳(メタデータ) (2023-06-15T10:41:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。