論文の概要: HealthQ: Unveiling Questioning Capabilities of LLM Chains in Healthcare Conversations
- arxiv url: http://arxiv.org/abs/2409.19487v4
- Date: Tue, 25 Feb 2025 09:06:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:19:46.216661
- Title: HealthQ: Unveiling Questioning Capabilities of LLM Chains in Healthcare Conversations
- Title(参考訳): HealthQ: 医療会話におけるLCM鎖の問合せ機能について
- Authors: Ziyu Wang, Hao Li, Di Huang, Hye-Sung Kim, Chae-Won Shin, Amir M. Rahmani,
- Abstract要約: HealthQは、医療会話における大規模言語モデル(LLM)の質問機能を評価するためのフレームワークである。
我々は LLM の判断を統合して, 具体性, 妥当性, 有用性など, 様々な指標を用いて, 生成した質問を評価する。
医療談話における質問機能評価のための最初の体系的枠組みを提示し、モデルに依存しない評価手法を確立し、高品質な質問をリンクして患者の情報引用を改善するための実証的証拠を提供する。
- 参考スコア(独自算出の注目度): 20.31796453890812
- License:
- Abstract: Effective patient care in digital healthcare requires large language models (LLMs) that not only answer questions but also actively gather critical information through well-crafted inquiries. This paper introduces HealthQ, a novel framework for evaluating the questioning capabilities of LLM healthcare chains. By implementing advanced LLM chains, including Retrieval-Augmented Generation (RAG), Chain of Thought (CoT), and reflective chains, HealthQ assesses how effectively these chains elicit comprehensive and relevant patient information. To achieve this, we integrate an LLM judge to evaluate generated questions across metrics such as specificity, relevance, and usefulness, while aligning these evaluations with traditional Natural Language Processing (NLP) metrics like ROUGE and Named Entity Recognition (NER)-based set comparisons. We validate HealthQ using two custom datasets constructed from public medical datasets, ChatDoctor and MTS-Dialog, and demonstrate its robustness across multiple LLM judge models, including GPT-3.5, GPT-4, and Claude. Our contributions are threefold: we present the first systematic framework for assessing questioning capabilities in healthcare conversations, establish a model-agnostic evaluation methodology, and provide empirical evidence linking high-quality questions to improved patient information elicitation.
- Abstract(参考訳): デジタル医療における効果的な患者ケアには、質問に答えるだけでなく、精巧な質問を通じて重要な情報を積極的に収集する大きな言語モデル(LLM)が必要である。
本稿では,LLMヘルスケアチェーンの問合せ能力を評価するための新しいフレームワークであるHealthQを紹介する。
Retrieval-Augmented Generation (RAG)、Chain of Thought (CoT)、リフレクティブチェーンなどの高度なLCMチェーンを実装することで、HealthQはこれらのチェーンが包括的で関連する患者情報をいかに効果的に引き出すかを評価する。
これを実現するために,LLM判定器を統合して,特定性,関連性,有用性などの指標を問うとともに,ROUGE や Named Entity Recognition (NER) のような従来の自然言語処理(NLP) の指標と組み合わせる。
公衆医療データセットであるChatDoctorとMTS-Dialogから構築した2つのカスタムデータセットを用いてHealthQを検証する。
我々は,医療会話における質問機能を評価するための最初の体系的枠組みを提示し,モデルに依存しない評価手法を確立し,高品質な質問をリンクして患者の情報提供を改善するための実証的証拠を提供する。
関連論文リスト
- Aligning Large Language Models to Follow Instructions and Hallucinate Less via Effective Data Filtering [66.5524727179286]
NOVAは、幻覚を減らすための学習知識とよく一致した高品質なデータを特定するために設計されたフレームワークである。
内部整合性探索(ICP)とセマンティック等価同定(SEI)が含まれており、LLMが命令データとどれだけ親しみやすいかを測定する。
選択したサンプルの品質を確保するため,親しみ以上の特性を考慮した専門家による報酬モデルを導入する。
論文 参考訳(メタデータ) (2025-02-11T08:05:56Z) - MeDiSumQA: Patient-Oriented Question-Answer Generation from Discharge Letters [1.6135243915480502]
大規模言語モデル(LLM)は、医療情報を単純化してソリューションを提供する。
安全で患者に優しいテキスト生成のためのLCMの評価は、標準化された評価リソースが欠如しているため困難である。
MeDiSumQAはMIMIC-IV放電サマリーから自動パイプラインを通じて生成されたデータセットである。
論文 参考訳(メタデータ) (2025-02-05T15:56:37Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - AGENT-CQ: Automatic Generation and Evaluation of Clarifying Questions for Conversational Search with LLMs [53.6200736559742]
エージェント-CQは、世代ステージと評価ステージの2つのステージから構成される。
CrowdLLMは、人間のクラウドソーシング判断をシミュレートして、生成された質問や回答を評価する。
ClariQデータセットの実験では、質問と回答の品質を評価するCrowdLLMの有効性が示されている。
論文 参考訳(メタデータ) (2024-10-25T17:06:27Z) - The Geometry of Queries: Query-Based Innovations in Retrieval-Augmented Generation [1.2839205715237014]
大きな言語モデル(LLM)は、慢性疾患に対する個人的健康管理を大幅に改善する可能性がある。
LLMは多様なインターネットデータから学んだパターンに基づいて応答を生成する。
Retrieval Augmented Generation (RAG)は、RAG応答における幻覚と不正確性を緩和する。
論文 参考訳(メタデータ) (2024-07-25T13:47:01Z) - SeRTS: Self-Rewarding Tree Search for Biomedical Retrieval-Augmented Generation [50.26966969163348]
大規模言語モデル(LLM)は,検索増強世代(RAG)の進展に伴い,生物医学領域において大きな可能性を示した。
既存の検索強化アプローチは、様々なクエリやドキュメント、特に医療知識クエリに対処する上で、課題に直面している。
モンテカルロ木探索(MCTS)と自己回帰パラダイムに基づく自己回帰木探索(SeRTS)を提案する。
論文 参考訳(メタデータ) (2024-06-17T06:48:31Z) - MedREQAL: Examining Medical Knowledge Recall of Large Language Models via Question Answering [5.065947993017158]
大きな言語モデル(LLM)は、大きなテキストコーパスで事前学習中に知識を符号化する印象的な能力を示している。
体系的レビューから得られた新しいデータセットを構築することにより, LLMが医療知識のリコールを示す能力について検討する。
論文 参考訳(メタデータ) (2024-06-09T16:33:28Z) - LLM on FHIR -- Demystifying Health Records [0.32985979395737786]
本研究では,大規模言語モデル(LLM)を用いた健康記録と対話可能なアプリを開発した。
このアプリは、医療データを患者フレンドリーな言語に効果的に翻訳し、その反応を異なる患者プロファイルに適応させることができた。
論文 参考訳(メタデータ) (2024-01-25T17:45:34Z) - Integrating UMLS Knowledge into Large Language Models for Medical
Question Answering [18.06960842747575]
大規模言語モデル(LLM)は強力なテキスト生成能力を示し、医療分野に前例のない革新をもたらした。
我々は、医療コミュニティにより良いサービスを提供することを目的として、UMLS(Unified Medical Language System)に基づく拡張LLMフレームワークを開発する。
ベンチマークモデルとしてLLaMa2-13b-chatとChatGPT-3.5を採用し、LiveQAテストセットから104の質問に対してROUGEスコアとBERTScoreを用いて自動評価を行う。
論文 参考訳(メタデータ) (2023-10-04T12:50:26Z) - Large Language Models for Healthcare Data Augmentation: An Example on
Patient-Trial Matching [49.78442796596806]
患者-心電図マッチング(LLM-PTM)のための革新的なプライバシ対応データ拡張手法を提案する。
本実験では, LLM-PTM法を用いて平均性能を7.32%向上させ, 新しいデータへの一般化性を12.12%向上させた。
論文 参考訳(メタデータ) (2023-03-24T03:14:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。