Fugu-MT 論文翻訳(概要): Foundation Metrics: Quantifying Effectiveness of Healthcare Conversations powered by Generative AI

論文の概要: Foundation Metrics: Quantifying Effectiveness of Healthcare Conversations powered by Generative AI

arxiv url: http://arxiv.org/abs/2309.12444v2
Date: Wed, 18 Oct 2023 05:39:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-19 19:16:55.908398
Title: Foundation Metrics: Quantifying Effectiveness of Healthcare Conversations powered by Generative AI
Title（参考訳）: Foundation Metrics: ジェネレーティブAIを活用したヘルスケア会話の有効性の定量化
Authors: Mahyar Abbasian, Elahe Khatibi, Iman Azimi, David Oniani, Zahra Shakeri Hossein Abad, Alexander Thieme, Ram Sriram, Zhongqi Yang, Yanshan Wang, Bryant Lin, Olivier Gevaert, Li-Jia Li, Ramesh Jain, Amir M. Rahmani
Abstract要約: ジェネレーティブ・人工知能(Generative Artificial Intelligence)は、従来の医療をよりパーソナライズされ、効率的で、積極的なプロセスに変えることで、医療提供に革命をもたらす。本稿では,医療における対話型対話モデルの評価に特に適用可能な最先端評価指標について検討する。
参考スコア（独自算出の注目度）: 38.497288024393065
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Generative Artificial Intelligence is set to revolutionize healthcare delivery by transforming traditional patient care into a more personalized, efficient, and proactive process. Chatbots, serving as interactive conversational models, will probably drive this patient-centered transformation in healthcare. Through the provision of various services, including diagnosis, personalized lifestyle recommendations, and mental health support, the objective is to substantially augment patient health outcomes, all the while mitigating the workload burden on healthcare providers. The life-critical nature of healthcare applications necessitates establishing a unified and comprehensive set of evaluation metrics for conversational models. Existing evaluation metrics proposed for various generic large language models (LLMs) demonstrate a lack of comprehension regarding medical and health concepts and their significance in promoting patients' well-being. Moreover, these metrics neglect pivotal user-centered aspects, including trust-building, ethics, personalization, empathy, user comprehension, and emotional support. The purpose of this paper is to explore state-of-the-art LLM-based evaluation metrics that are specifically applicable to the assessment of interactive conversational models in healthcare. Subsequently, we present an comprehensive set of evaluation metrics designed to thoroughly assess the performance of healthcare chatbots from an end-user perspective. These metrics encompass an evaluation of language processing abilities, impact on real-world clinical tasks, and effectiveness in user-interactive conversations. Finally, we engage in a discussion concerning the challenges associated with defining and implementing these metrics, with particular emphasis on confounding factors such as the target audience, evaluation methods, and prompt techniques involved in the evaluation process.
Abstract（参考訳）: 生成型人工知能(generative artificial intelligence)は、従来の患者のケアをよりパーソナライズし、効率的で、積極的なプロセスに変えることで、医療提供に革命をもたらす。対話型会話モデルとして機能するチャットボットは、この患者中心の医療変革を推進するだろう。診断、パーソナライズされたライフスタイル・レコメンデーション、メンタルヘルスサポートなど、さまざまなサービスの提供を通じて、医療提供者のワークロード負担を軽減する一方で、患者の健康成果を大幅に増やすことが目的である。医療アプリケーションのライフクリティカルな性質は、会話モデルのための統一的で包括的な評価指標を確立する必要がある。様々な総合的大言語モデル(LLM)に提案されている既存の評価指標は、医療と健康の概念に関する理解の欠如と、患者の幸福を促進する上での意義を示している。さらに、これらの指標は、信頼構築、倫理、パーソナライゼーション、共感、ユーザーの理解、感情的支援など、重要なユーザー中心の側面を無視している。本研究の目的は,医療における対話型対話モデルの評価に特に適用可能な,最先端のLCMに基づく評価指標を検討することである。次に、エンドユーザーの視点から医療チャットボットのパフォーマンスを徹底的に評価するための総合的な評価指標を提案する。これらの指標は、言語処理能力の評価、実際の臨床タスクへの影響、ユーザ対話における有効性を含む。最後に,これらの指標の定義と実装に関連する課題,特に対象オーディエンス,評価方法,評価プロセスに関わる迅速化手法といった要素の融合に重点を置く議論を行う。

関連論文リスト

Responsible Evaluation of AI for Mental Health [72.85175110624736]
メンタルヘルスケアにおけるAIツールの評価に対する現在のアプローチは、断片化されており、臨床実践、社会的コンテキスト、ファーストハンドのユーザエクスペリエンスと不整合である。本稿では,臨床の健全性,社会的文脈,公平性を統合した学際的枠組みを導入することにより,責任ある評価を再考する。
論文参考訳（メタデータ） (2026-01-20T12:55:10Z)
Toward Human-Centered Readability Evaluation [0.0]
HCRS(Human-Centered Readability Score)は、Human-Computer Interaction (HCI)とHealth Communications研究に基づく5次元評価フレームワークである。 HCRSは、可読性と可読性の文脈的側面を捉えるために、構造化された人間のフィードバックと自動測度を統合している。本研究は, 多様なユーザニーズ, 期待, 生きた経験とより密に整合したNLPシステムを実現することにより, 表面的指標を超えて, 健康テキストの簡易化を評価することを目的としている。
論文参考訳（メタデータ） (2025-10-12T20:38:32Z)
The Dialogue That Heals: A Comprehensive Evaluation of Doctor Agents' Inquiry Capability [15.649293541650811]
我々は,医療マルチターン質問の自動的・包括的評価のための,これまでで最大のベンチマークであるMAQuE(Medical Agent Questioning Evaluation)を提案する。 3000の患者エージェントがリアルにシミュレートされ、多様な言語パターン、認知的制限、感情的反応、受動的開示の傾向を示す。また,タスク成功,質問能力,対話能力,質問効率,患者体験を網羅する多面的評価フレームワークも導入した。
論文参考訳（メタデータ） (2025-09-29T15:52:36Z)
AutoMedEval: Harnessing Language Models for Automatic Medical Capability Evaluation [55.2739790399209]
本稿では,医療用LLMの質問応答能力を測定するために,13Bパラメータを用いたオープンソースの自動評価モデルAutoMedEvalを提案する。 AutoMedEvalの包括的な目的は、多様なモデルが生み出す応答の質を評価することであり、人間の評価への依存を著しく低減することを目的としている。
論文参考訳（メタデータ） (2025-05-17T07:44:54Z)
Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文参考訳（メタデータ） (2025-04-21T16:51:11Z)
A Scalable Framework for Evaluating Health Language Models [16.253655494186905]
大規模言語モデル(LLM)は、複雑なデータセットを分析する強力なツールとして登場した。オープンエンドテキスト応答の現在の評価実践は、人間の専門家に大きく依存している。この研究はAdaptive Precise Boolean rubrics(リンク)を紹介している。
論文参考訳（メタデータ） (2025-03-30T06:47:57Z)
Large Language Models for Outpatient Referral: Problem Definition, Benchmarking and Challenges [34.10494503049667]
大規模言語モデル(LLM)は、医療システム全体にわたる外来の紹介業務にますます適用されている。有効性を評価するための標準化された評価基準が欠如している。このようなシステムに特化して設計された包括的評価フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-11T11:05:42Z)
A Mixed-Methods Evaluation of LLM-Based Chatbots for Menopause [7.156867036177255]
医療環境におけるLLM(Large Language Models)の統合は注目されている。更年期関連問合せのためのLLMベースのチャットボットの性能について検討する。本研究は,健康トピックに対する従来の評価指標の約束と限界を明らかにするものである。
論文参考訳（メタデータ） (2025-02-05T19:56:52Z)
Conversation AI Dialog for Medicare powered by Finetuning and Retrieval Augmented Generation [0.0]
大きな言語モデル(LLM)は、対話生成を含む自然言語処理タスクにおいて印象的な機能を示している。本研究の目的は、LoRAによる微調整とRetrieval-Augmented Generationフレームワークという、2つの重要な技術の比較分析を行うことである。
論文参考訳（メタデータ） (2025-02-04T11:50:40Z)
VIEWER: an extensible visual analytics framework for enhancing mental healthcare [2.52780220954141]
VIEWERはオープンソースのツールキットで、分散自然言語処理とインタラクティブな可視化技術を利用している。 VIEWERは、医療提供のさまざまな側面におけるデータアクセシビリティと表現を改善するために開発された。
論文参考訳（メタデータ） (2024-10-25T14:01:13Z)
The Role of Language Models in Modern Healthcare: A Comprehensive Review [2.048226951354646]
医療における大規模言語モデル(LLM)の適用は注目されている。本稿では,言語モデルの初期から現在までの軌跡を概観する。
論文参考訳（メタデータ） (2024-09-25T12:15:15Z)
Emotional Intelligence Through Artificial Intelligence : NLP and Deep Learning in the Analysis of Healthcare Texts [1.9374282535132377]
本論文は,医療関連テキストにおける感情評価における人工知能の利用に関する方法論的考察である。我々は、感情分析を強化し、感情を分類し、患者の結果を予測するためにAIを利用する多くの研究を精査する。 AIの倫理的応用を保証すること、患者の機密性を保護すること、アルゴリズムの手続きにおける潜在的なバイアスに対処することを含む、継続的な課題がある。
論文参考訳（メタデータ） (2024-03-14T15:58:13Z)
Designing Interpretable ML System to Enhance Trust in Healthcare: A Systematic Review to Proposed Responsible Clinician-AI-Collaboration Framework [13.215318138576713]
論文は、解釈可能なAIプロセス、方法、応用、および医療における実装の課題についてレビューする。医療における堅牢な解釈可能性アプローチの重要な役割を包括的に理解することを目的としている。
論文参考訳（メタデータ） (2023-11-18T12:29:18Z)
Generating medically-accurate summaries of patient-provider dialogue: A multi-stage approach using large language models [6.252236971703546]
効果的な要約は、対話におけるすべての医学的関連情報を一貫性と精度良く捉えることが要求される。本稿では, 医療会話の要約問題に, タスクを, より小さな対話に基づくタスクに分解することで対処する。
論文参考訳（メタデータ） (2023-05-10T08:48:53Z)
Consultation Checklists: Standardising the Human Evaluation of Medical Note Generation [58.54483567073125]
本稿では,コンサルテーションチェックリストの評価を基礎として,客観性向上を目的としたプロトコルを提案する。このプロトコルを用いた最初の評価研究において,アノテータ間合意の良好なレベルを観察した。
論文参考訳（メタデータ） (2022-11-17T10:54:28Z)
Semi-Supervised Variational Reasoning for Medical Dialogue Generation [70.838542865384]
医療対話生成には,患者の状態と医師の行動の2つの重要な特徴がある。医療対話生成のためのエンドツーエンドの変分推論手法を提案する。行動分類器と2つの推論検出器から構成される医師政策ネットワークは、拡張推論能力のために提案される。
論文参考訳（メタデータ） (2021-05-13T04:14:35Z)
Benchmarking Automated Clinical Language Simplification: Dataset, Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文参考訳（メタデータ） (2020-12-04T06:09:02Z)
You Impress Me: Dialogue Generation via Mutual Persona Perception [62.89449096369027]
認知科学の研究は、理解が高品質なチャット会話に不可欠なシグナルであることを示唆している。そこで我々は,P2 Botを提案する。このP2 Botは,理解を明示的にモデル化することを目的とした送信機受信者ベースのフレームワークである。
論文参考訳（メタデータ） (2020-04-11T12:51:07Z)
Opportunities of a Machine Learning-based Decision Support System for Stroke Rehabilitation Assessment [64.52563354823711]
リハビリテーションアセスメントは、患者の適切な介入を決定するために重要である。現在の評価の実践は、主にセラピストの経験に依存しており、セラピストの可用性が限られているため、アセスメントは頻繁に実施される。我々は、強化学習を用いて評価の健全な特徴を識別できるインテリジェントな意思決定支援システムを開発した。
論文参考訳（メタデータ） (2020-02-27T17:04:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。