Fugu-MT 論文翻訳(概要): Can Large Language Models Identify Implicit Suicidal Ideation? An Empirical Evaluation

論文の概要: Can Large Language Models Identify Implicit Suicidal Ideation? An Empirical Evaluation

arxiv url: http://arxiv.org/abs/2502.17899v1
Date: Tue, 25 Feb 2025 06:53:00 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-26 17:42:45.827243
Title: Can Large Language Models Identify Implicit Suicidal Ideation? An Empirical Evaluation
Title（参考訳）: 大規模言語モデルでは不適切な考えを識別できるか? : 実証的評価
Authors: Tong Li, Shu Yang, Junchao Wu, Jiyao Wei, Lijie Hu, Mengdi Li, Derek F. Wong, Joshua R. Oltmanns, Di Wang,
Abstract要約: 心理学的フレームワーク上に構築された1,308のテストケースのデータセットである ourdata を紹介した。現在のモデルでは,暗黙の自殺観念を検知し,適切な支援の提供に苦慮していることがわかった。
参考スコア（独自算出の注目度）: 26.039402946157782
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present a comprehensive evaluation framework for assessing Large Language Models' (LLMs) capabilities in suicide prevention, focusing on two critical aspects: the Identification of Implicit Suicidal ideation (IIS) and the Provision of Appropriate Supportive responses (PAS). We introduce \ourdata, a novel dataset of 1,308 test cases built upon psychological frameworks including D/S-IAT and Negative Automatic Thinking, alongside real-world scenarios. Through extensive experiments with 8 widely used LLMs under different contextual settings, we find that current models struggle significantly with detecting implicit suicidal ideation and providing appropriate support, highlighting crucial limitations in applying LLMs to mental health contexts. Our findings underscore the need for more sophisticated approaches in developing and evaluating LLMs for sensitive psychological applications.
Abstract（参考訳）: 本稿では,自殺予防における大規模言語モデル(LLM)の能力を評価するための包括的評価フレームワークを提案する。 D/S-IATやNegative Automatic Thinkingといった心理学的フレームワーク上に構築された,1,308の新たなテストケースのデータセットである‘ourdata’を紹介した。異なる状況下で広く使われている8つのLSMを用いた広範な実験を通して、現在のモデルは暗黙の自殺観念を検出し、適切な支援を提供することに苦慮し、メンタルヘルスの文脈にLSMを適用する上で重要な制限を強調している。本研究は,認知心理学的応用のためのLSMの開発と評価において,より高度なアプローチの必要性を浮き彫りにしている。

関連論文リスト

Silence is Not Consensus: Disrupting Agreement Bias in Multi-Agent LLMs via Catfish Agent for Clinical Decision Making [80.94208848596215]
提案する概念は「Catfish Agent」である。これは、構造的不満を注入し、無声な合意に反するように設計された役割特化LDMである。組織心理学において「ナマズ・エフェクト」にインスパイアされたカマズ・エージェントは、より深い推論を促進するために、新たなコンセンサスに挑戦するように設計されている。
論文参考訳（メタデータ） (2025-05-27T17:59:50Z)
Beyond Empathy: Integrating Diagnostic and Therapeutic Reasoning with Large Language Models for Mental Health Counseling [17.809187205107232]
PsyLLMは、メンタルヘルスカウンセリングの診断と治療的推論を統合するために設計された大きな言語モデルである。このパイプラインは現実世界のメンタルヘルスポストを処理し、マルチターン対話構造を生成する。厳密な多次元フィルタリングは、高品質で臨床的に整合した対話データを生成する。
論文参考訳（メタデータ） (2025-05-21T16:24:49Z)
Decoding the Mind of Large Language Models: A Quantitative Evaluation of Ideology and Biases [0.276240219662896]
大規模言語モデル(LLM)を評価するための新しいフレームワークを提案する。このフレームワークをChatGPTとGeminiに適用することにより、LLMは一般的に多くのトピックについて一貫した意見を保っているが、そのイデオロギーはモデルや言語によって異なることがわかった。どちらのモデルも問題のある偏見、非倫理的または不公平な主張を示しており、社会に悪影響を及ぼす可能性がある。
論文参考訳（メタデータ） (2025-05-18T00:52:06Z)
Large Language Models for Outpatient Referral: Problem Definition, Benchmarking and Challenges [34.10494503049667]
大規模言語モデル(LLM)は、医療システム全体にわたる外来の紹介業務にますます適用されている。有効性を評価するための標準化された評価基準が欠如している。このようなシステムに特化して設計された包括的評価フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-11T11:05:42Z)
Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。本稿では,構造化医療推論を利用した新しいアプローチを提案する。我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文参考訳（メタデータ） (2025-03-05T05:24:55Z)
LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文参考訳（メタデータ） (2025-01-07T08:49:04Z)
SouLLMate: An Adaptive LLM-Driven System for Advanced Mental Health Support and Assessment, Based on a Systematic Application Survey [9.146311285410631]
メンタルヘルスの問題は個人の日常生活に大きな影響を及ぼすが、多くの人は利用可能なオンラインリソースでも必要な支援を受けていない。この研究は、最先端のAI技術を通じて、アクセス可能で、スティグマフリーで、パーソナライズされ、リアルタイムなメンタルヘルスサポートを提供することを目的としている。
論文参考訳（メタデータ） (2024-10-06T17:11:29Z)
Attention Heads of Large Language Models: A Survey [10.136767972375639]
我々は,大規模言語モデル (LLM) の内部的推論過程を体系的に検討し,その役割と機構を解明することを目的としている。まず,人間の思考プロセスにインスパイアされた新しい4段階のフレームワーク,知識のリコール,文脈内同定,潜在推論,表現準備を紹介する。本稿では,これらの特殊ヘッドの発見に使用する実験手法を,モデリング自由法とモデリング要求法という2つのカテゴリに分けて分析する。
論文参考訳（メタデータ） (2024-09-05T17:59:12Z)
Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective [66.34066553400108]
我々は、ある人口層に対する大きな言語モデルの暗黙の偏見を厳格に評価する。心理測定の原則にインスパイアされた我々は,3つの攻撃的アプローチ,すなわち,軽視,軽視,指導を提案する。提案手法は,LLMの内部バイアスを競合ベースラインよりも効果的に引き出すことができる。
論文参考訳（メタデータ） (2024-06-20T06:42:08Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)
A Dual-Prompting for Interpretable Mental Health Language Models [11.33857985668663]
CLPsych 2024 Shared Taskは、Large Language Models (LLMs)の解釈可能性を高めることを目的としている。 i) 専門的アイデンティティと自殺辞書をメンタルヘルスに特有なLSMと組み合わせた知識認識型エビデンス抽出法と,(ii) LLMに基づく一貫性評価器を用いた要約手法を提案する。
論文参考訳（メタデータ） (2024-02-20T06:18:02Z)
MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。 GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文参考訳（メタデータ） (2023-12-28T15:49:43Z)
PsyEval: A Suite of Mental Health Related Tasks for Evaluating Large Language Models [34.09419351705938]
本稿では,大規模言語モデル(LLM)を評価するためのメンタルヘルス関連タスクの包括的スイートであるPsyEvalについて述べる。この包括的枠組みは、メンタルヘルス関連のタスクの独特な課題と複雑さを徹底的に評価するために設計されている。
論文参考訳（メタデータ） (2023-11-15T18:32:27Z)
Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文参考訳（メタデータ） (2023-09-20T09:23:46Z)
Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文参考訳（メタデータ） (2023-05-30T15:25:45Z)
Cue-CoT: Chain-of-thought Prompting for Responding to In-depth Dialogue Questions with LLMs [59.74002011562726]
我々は、よりパーソナライズされ魅力的な応答を提供するために、新しい言語的キューに基づく思考の連鎖(textitCue-CoT)を提案する。中国語と英語の6つのデータセットからなる詳細な対話質問を用いたベンチマークを構築した。実験により,提案手法は,すべてのデータセットにおいて,テクステルパーフルネスとテクスチタアクセプタビリティの両方の観点から,標準的プロンプト法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-05-19T16:27:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。