論文の概要: Foundation Metrics: Quantifying Effectiveness of Healthcare
Conversations powered by Generative AI
- arxiv url: http://arxiv.org/abs/2309.12444v2
- Date: Wed, 18 Oct 2023 05:39:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 19:16:55.908398
- Title: Foundation Metrics: Quantifying Effectiveness of Healthcare
Conversations powered by Generative AI
- Title(参考訳): Foundation Metrics: ジェネレーティブAIを活用したヘルスケア会話の有効性の定量化
- Authors: Mahyar Abbasian, Elahe Khatibi, Iman Azimi, David Oniani, Zahra
Shakeri Hossein Abad, Alexander Thieme, Ram Sriram, Zhongqi Yang, Yanshan
Wang, Bryant Lin, Olivier Gevaert, Li-Jia Li, Ramesh Jain, Amir M. Rahmani
- Abstract要約: ジェネレーティブ・人工知能(Generative Artificial Intelligence)は、従来の医療をよりパーソナライズされ、効率的で、積極的なプロセスに変えることで、医療提供に革命をもたらす。
本稿では,医療における対話型対話モデルの評価に特に適用可能な最先端評価指標について検討する。
- 参考スコア(独自算出の注目度): 38.497288024393065
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Generative Artificial Intelligence is set to revolutionize healthcare
delivery by transforming traditional patient care into a more personalized,
efficient, and proactive process. Chatbots, serving as interactive
conversational models, will probably drive this patient-centered transformation
in healthcare. Through the provision of various services, including diagnosis,
personalized lifestyle recommendations, and mental health support, the
objective is to substantially augment patient health outcomes, all the while
mitigating the workload burden on healthcare providers. The life-critical
nature of healthcare applications necessitates establishing a unified and
comprehensive set of evaluation metrics for conversational models. Existing
evaluation metrics proposed for various generic large language models (LLMs)
demonstrate a lack of comprehension regarding medical and health concepts and
their significance in promoting patients' well-being. Moreover, these metrics
neglect pivotal user-centered aspects, including trust-building, ethics,
personalization, empathy, user comprehension, and emotional support. The
purpose of this paper is to explore state-of-the-art LLM-based evaluation
metrics that are specifically applicable to the assessment of interactive
conversational models in healthcare. Subsequently, we present an comprehensive
set of evaluation metrics designed to thoroughly assess the performance of
healthcare chatbots from an end-user perspective. These metrics encompass an
evaluation of language processing abilities, impact on real-world clinical
tasks, and effectiveness in user-interactive conversations. Finally, we engage
in a discussion concerning the challenges associated with defining and
implementing these metrics, with particular emphasis on confounding factors
such as the target audience, evaluation methods, and prompt techniques involved
in the evaluation process.
- Abstract(参考訳): 生成型人工知能(generative artificial intelligence)は、従来の患者のケアをよりパーソナライズし、効率的で、積極的なプロセスに変えることで、医療提供に革命をもたらす。
対話型会話モデルとして機能するチャットボットは、この患者中心の医療変革を推進するだろう。
診断、パーソナライズされたライフスタイル・レコメンデーション、メンタルヘルスサポートなど、さまざまなサービスの提供を通じて、医療提供者のワークロード負担を軽減する一方で、患者の健康成果を大幅に増やすことが目的である。
医療アプリケーションのライフクリティカルな性質は、会話モデルのための統一的で包括的な評価指標を確立する必要がある。
様々な総合的大言語モデル(LLM)に提案されている既存の評価指標は、医療と健康の概念に関する理解の欠如と、患者の幸福を促進する上での意義を示している。
さらに、これらの指標は、信頼構築、倫理、パーソナライゼーション、共感、ユーザーの理解、感情的支援など、重要なユーザー中心の側面を無視している。
本研究の目的は,医療における対話型対話モデルの評価に特に適用可能な,最先端のLCMに基づく評価指標を検討することである。
次に、エンドユーザーの視点から医療チャットボットのパフォーマンスを徹底的に評価するための総合的な評価指標を提案する。
これらの指標は、言語処理能力の評価、実際の臨床タスクへの影響、ユーザ対話における有効性を含む。
最後に,これらの指標の定義と実装に関連する課題,特に対象オーディエンス,評価方法,評価プロセスに関わる迅速化手法といった要素の融合に重点を置く議論を行う。
関連論文リスト
- VIEWER: an extensible visual analytics framework for enhancing mental healthcare [2.52780220954141]
VIEWERはオープンソースのツールキットで、分散自然言語処理とインタラクティブな可視化技術を利用している。
VIEWERは、医療提供のさまざまな側面におけるデータアクセシビリティと表現を改善するために開発された。
論文 参考訳(メタデータ) (2024-10-25T14:01:13Z) - The Role of Language Models in Modern Healthcare: A Comprehensive Review [2.048226951354646]
医療における大規模言語モデル(LLM)の適用は注目されている。
本稿では,言語モデルの初期から現在までの軌跡を概観する。
論文 参考訳(メタデータ) (2024-09-25T12:15:15Z) - Emotional Intelligence Through Artificial Intelligence : NLP and Deep Learning in the Analysis of Healthcare Texts [1.9374282535132377]
本論文は,医療関連テキストにおける感情評価における人工知能の利用に関する方法論的考察である。
我々は、感情分析を強化し、感情を分類し、患者の結果を予測するためにAIを利用する多くの研究を精査する。
AIの倫理的応用を保証すること、患者の機密性を保護すること、アルゴリズムの手続きにおける潜在的なバイアスに対処することを含む、継続的な課題がある。
論文 参考訳(メタデータ) (2024-03-14T15:58:13Z) - Designing Interpretable ML System to Enhance Trust in Healthcare: A Systematic Review to Proposed Responsible Clinician-AI-Collaboration Framework [13.215318138576713]
論文は、解釈可能なAIプロセス、方法、応用、および医療における実装の課題についてレビューする。
医療における堅牢な解釈可能性アプローチの重要な役割を包括的に理解することを目的としている。
論文 参考訳(メタデータ) (2023-11-18T12:29:18Z) - Generating medically-accurate summaries of patient-provider dialogue: A
multi-stage approach using large language models [6.252236971703546]
効果的な要約は、対話におけるすべての医学的関連情報を一貫性と精度良く捉えることが要求される。
本稿では, 医療会話の要約問題に, タスクを, より小さな対話に基づくタスクに分解することで対処する。
論文 参考訳(メタデータ) (2023-05-10T08:48:53Z) - Consultation Checklists: Standardising the Human Evaluation of Medical
Note Generation [58.54483567073125]
本稿では,コンサルテーションチェックリストの評価を基礎として,客観性向上を目的としたプロトコルを提案する。
このプロトコルを用いた最初の評価研究において,アノテータ間合意の良好なレベルを観察した。
論文 参考訳(メタデータ) (2022-11-17T10:54:28Z) - Semi-Supervised Variational Reasoning for Medical Dialogue Generation [70.838542865384]
医療対話生成には,患者の状態と医師の行動の2つの重要な特徴がある。
医療対話生成のためのエンドツーエンドの変分推論手法を提案する。
行動分類器と2つの推論検出器から構成される医師政策ネットワークは、拡張推論能力のために提案される。
論文 参考訳(メタデータ) (2021-05-13T04:14:35Z) - Benchmarking Automated Clinical Language Simplification: Dataset,
Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。
我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-12-04T06:09:02Z) - You Impress Me: Dialogue Generation via Mutual Persona Perception [62.89449096369027]
認知科学の研究は、理解が高品質なチャット会話に不可欠なシグナルであることを示唆している。
そこで我々は,P2 Botを提案する。このP2 Botは,理解を明示的にモデル化することを目的とした送信機受信者ベースのフレームワークである。
論文 参考訳(メタデータ) (2020-04-11T12:51:07Z) - Opportunities of a Machine Learning-based Decision Support System for
Stroke Rehabilitation Assessment [64.52563354823711]
リハビリテーションアセスメントは、患者の適切な介入を決定するために重要である。
現在の評価の実践は、主にセラピストの経験に依存しており、セラピストの可用性が限られているため、アセスメントは頻繁に実施される。
我々は、強化学習を用いて評価の健全な特徴を識別できるインテリジェントな意思決定支援システムを開発した。
論文 参考訳(メタデータ) (2020-02-27T17:04:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。