論文の概要: Lived Experience Not Found: LLMs Struggle to Align with Experts on Addressing Adverse Drug Reactions from Psychiatric Medication Use
- arxiv url: http://arxiv.org/abs/2410.19155v1
- Date: Thu, 24 Oct 2024 20:49:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:38:21.478812
- Title: Lived Experience Not Found: LLMs Struggle to Align with Experts on Addressing Adverse Drug Reactions from Psychiatric Medication Use
- Title(参考訳): LLMs Struggle to Asign with Experts on Adverse Drug Reactions from Psychiatric Medication Use
- Authors: Mohit Chandra, Siddharth Sriraman, Gaurav Verma, Harneet Singh Khanuja, Jose Suarez Campayo, Zihang Li, Michael L. Birnbaum, Munmun De Choudhury,
- Abstract要約: 精神医学薬の副作用薬物反応(英: Adverse Drug Reactions, ADRs)は、精神疾患患者の入院の主要な原因である。
ADRに関連する問題を解決するための制限に直面している医療システムでは、LLM(Large Language Models)がこのギャップを埋める可能性がある。
我々の研究は、リスクの高いドメイン内の戦略駆動タスクにおけるLCMを評価するための総合的なベンチマークと評価フレームワークを提供する。
- 参考スコア(独自算出の注目度): 12.20196937316912
- License:
- Abstract: Adverse Drug Reactions (ADRs) from psychiatric medications are the leading cause of hospitalizations among mental health patients. With healthcare systems and online communities facing limitations in resolving ADR-related issues, Large Language Models (LLMs) have the potential to fill this gap. Despite the increasing capabilities of LLMs, past research has not explored their capabilities in detecting ADRs related to psychiatric medications or in providing effective harm reduction strategies. To address this, we introduce the Psych-ADR benchmark and the Adverse Drug Reaction Response Assessment (ADRA) framework to systematically evaluate LLM performance in detecting ADR expressions and delivering expert-aligned mitigation strategies. Our analyses show that LLMs struggle with understanding the nuances of ADRs and differentiating between types of ADRs. While LLMs align with experts in terms of expressed emotions and tone of the text, their responses are more complex, harder to read, and only 70.86% aligned with expert strategies. Furthermore, they provide less actionable advice by a margin of 12.32% on average. Our work provides a comprehensive benchmark and evaluation framework for assessing LLMs in strategy-driven tasks within high-risk domains.
- Abstract(参考訳): 精神医学薬の副作用薬物反応(英: Adverse Drug Reactions, ADRs)は、精神疾患患者の入院の主要な原因である。
医療システムやオンラインコミュニティがADR関連の問題を解決するのに限界に直面しているため、LLM(Large Language Models)はこのギャップを埋める可能性がある。
LLMの能力の増大にもかかわらず、過去の研究では、精神医学薬に関連するADRを検出したり、効果的な害軽減戦略を提供する能力について検討していない。
そこで我々は,ADR式の検出と専門家による緩和戦略の提供において,LCMのパフォーマンスを体系的に評価する,サイコADRベンチマークとADRA(Adverse Drug Reaction Response Assessment)フレームワークを導入する。
分析の結果、LLMはADRのニュアンスを理解し、ADRの種類を区別するのに苦労していることがわかった。
LLMは、表現された感情とテキストのトーンに関して専門家と一致しているが、彼らの反応はより複雑で、読みにくく、専門家の戦略に沿ったのはわずか70.86%である。
さらに、平均して12.32%の利率で行動可能なアドバイスがより少ない。
我々の研究は、リスクの高いドメイン内の戦略駆動タスクにおけるLCMを評価するための総合的なベンチマークと評価フレームワークを提供する。
関連論文リスト
- Unveiling and Consulting Core Experts in Retrieval-Augmented MoE-based LLMs [64.9693406713216]
RAGシステムの有効性に寄与する内部メカニズムは未解明のままである。
実験の結果,複数のコアグループの専門家がRAG関連行動に主に関与していることが判明した。
本稿では,専門家の活性化を通じてRAGの効率性と有効性を高めるためのいくつかの戦略を提案する。
論文 参考訳(メタデータ) (2024-10-20T16:08:54Z) - The LLM Effect: Are Humans Truly Using LLMs, or Are They Being Influenced By Them Instead? [60.01746782465275]
大規模言語モデル(LLM)は、様々な分析タスクにおいて、人間のパフォーマンスに近い能力を示している。
本稿では,Human-LLMパートナーシップに着目した構造化ユーザスタディにより,特殊作業におけるLLMの効率と精度について検討する。
論文 参考訳(メタデータ) (2024-10-07T02:30:18Z) - Exploring LLM-based Data Annotation Strategies for Medical Dialogue Preference Alignment [22.983780823136925]
本研究は、医療対話モデルを改善するために、AIフィードバック(RLAIF)技術を用いた強化学習(Reinforcement Learning)について検討する。
医療におけるRLAIF研究の主な課題は、自動評価手法の限界である。
標準化された患者診査に基づく新しい評価枠組みを提案する。
論文 参考訳(メタデータ) (2024-10-05T10:29:19Z) - Rx Strategist: Prescription Verification using LLM Agents System [0.0]
Rx Strategistは、知識グラフと異なる検索戦略を使用して、エージェントフレームワーク内のLarge Language Models(LLM)のパワーを強化する。
この多面的手法により、カスタム構築のアクティブ成分データベースから多段階のLCMパイプラインと信頼できる情報検索が可能になる。
以上の結果から,Rx Strategist が多くの LLM を上回り,高度臨床薬剤師に匹敵する成績を示した。
論文 参考訳(メタデータ) (2024-09-05T11:42:26Z) - Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models [70.19081534515371]
大規模言語モデル(LLM)は様々な自然言語処理タスクで広く採用されている。
それらは、入力源から逸脱する不信または矛盾したコンテンツを生成し、深刻な結果をもたらす。
本稿では,LLMの生成した回答の幻覚を効果的に検出するために,RelDという頑健な識別器を提案する。
論文 参考訳(メタデータ) (2024-07-04T18:47:42Z) - Unveiling the Achilles' Heel of NLG Evaluators: A Unified Adversarial Framework Driven by Large Language Models [52.368110271614285]
我々は,NLG評価器に対する新しいブラックボックス対逆フレームワークであるAdvEvalを紹介する。
AdvEvalは、人間と被害者の評価者との強い意見の相違をもたらすデータを生成するために特別に調整されている。
我々は,12名の被害者評価者と11名のNLGデータセットを用いて,対話,要約,質問評価などのタスクを分散した実験を行った。
論文 参考訳(メタデータ) (2024-05-23T14:48:15Z) - ERD: A Framework for Improving LLM Reasoning for Cognitive Distortion Classification [14.644324586153866]
本稿では,追加モジュールの助けを借りて認知歪み分類性能を向上させるERDを提案する。
公開データセットを用いた実験結果から,ERDは多クラスF1スコアとバイナリ特異性スコアを改善した。
論文 参考訳(メタデータ) (2024-03-21T09:28:38Z) - RACER: An LLM-powered Methodology for Scalable Analysis of
Semi-structured Mental Health Interviews [8.706825633594487]
我々は,専門家が指導する自動パイプラインであるRACERを開発し,生のインタビュー書き起こしをドメイン関連テーマやサブテーマに効率的に変換する。
RACERは、人間間の合意に近づいた2人の評価者と、適度に高い合意を達成している。
本研究は、LSMを用いた研究効率向上の機会と課題を強調し、医療研究におけるSSIのスケーラブルな分析のための新たな道を開く。
論文 参考訳(メタデータ) (2024-02-05T00:56:30Z) - Retrieving Evidence from EHRs with LLMs: Possibilities and Challenges [18.56314471146199]
時間的制約を伴って患者に関連付けられた大量のメモは、実質的に不可能な証拠を手作業で特定する。
患者EHRにおける非構造的証拠を効率よく回収・要約するためのメカニズムとして, LLMを用いたゼロショット戦略を提案し, 評価した。
論文 参考訳(メタデータ) (2023-09-08T18:44:47Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - SPeC: A Soft Prompt-Based Calibration on Performance Variability of
Large Language Model in Clinical Notes Summarization [50.01382938451978]
本稿では,ソフトプロンプトを用いたモデルに依存しないパイプラインを導入し,確率に基づく要約の利点を保ちながら分散を減少させる。
実験結果から,本手法は性能を向上するだけでなく,様々な言語モデルの分散を効果的に抑制することが明らかとなった。
論文 参考訳(メタデータ) (2023-03-23T04:47:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。