論文の概要: A Mixed-Methods Evaluation of LLM-Based Chatbots for Menopause
- arxiv url: http://arxiv.org/abs/2502.03579v1
- Date: Wed, 05 Feb 2025 19:56:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:33:11.487211
- Title: A Mixed-Methods Evaluation of LLM-Based Chatbots for Menopause
- Title(参考訳): メノパウス用LCM型チャットボットの混合評価
- Authors: Roshini Deva, Manvi S, Jasmine Zhou, Elizabeth Britton Chahine, Agena Davenport-Nicholson, Nadi Nina Kaonga, Selen Bozkurt, Azra Ismail,
- Abstract要約: 医療環境におけるLLM(Large Language Models)の統合は注目されている。
更年期関連問合せのためのLLMベースのチャットボットの性能について検討する。
本研究は,健康トピックに対する従来の評価指標の約束と限界を明らかにするものである。
- 参考スコア(独自算出の注目度): 7.156867036177255
- License:
- Abstract: The integration of Large Language Models (LLMs) into healthcare settings has gained significant attention, particularly for question-answering tasks. Given the high-stakes nature of healthcare, it is essential to ensure that LLM-generated content is accurate and reliable to prevent adverse outcomes. However, the development of robust evaluation metrics and methodologies remains a matter of much debate. We examine the performance of publicly available LLM-based chatbots for menopause-related queries, using a mixed-methods approach to evaluate safety, consensus, objectivity, reproducibility, and explainability. Our findings highlight the promise and limitations of traditional evaluation metrics for sensitive health topics. We propose the need for customized and ethically grounded evaluation frameworks to assess LLMs to advance safe and effective use in healthcare.
- Abstract(参考訳): 大規模言語モデル(LLM)を医療環境に統合することは、特に質問応答タスクにおいて大きな注目を集めている。
医療の高度性を考えると、LCM生成したコンテンツが正確で信頼性が高く、有害な結果を防ぐことが不可欠である。
しかし、ロバストな評価指標と方法論の開発は依然として議論の的となっている。
更年期関連質問に対するLLMベースのチャットボットの性能について,安全性,コンセンサス,客観性,再現性,説明可能性を評価するための混合手法を用いて検討した。
本研究は,健康トピックに対する従来の評価指標の約束と限界を明らかにするものである。
我々は、医療における安全かつ効果的な利用を促進するために、LSMを評価するためのカスタマイズされた倫理的根拠のある評価フレームワークの必要性を提案する。
関連論文リスト
- Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - Building Trust in Mental Health Chatbots: Safety Metrics and LLM-Based Evaluation Tools [13.34861013664551]
100のベンチマーク質問と理想的な回答を備えた評価フレームワークを作成しました。
このフレームワークはメンタルヘルスの専門家によって検証され、GPT-3.5ベースのチャットボットでテストされた。
論文 参考訳(メタデータ) (2024-08-03T19:57:49Z) - A Proposed S.C.O.R.E. Evaluation Framework for Large Language Models : Safety, Consensus, Objectivity, Reproducibility and Explainability [5.924966178563408]
大規模言語モデル(LLM)の評価のための5つの重要な側面を提案する。
我々はS.C.O.R.E.が将来のLCMモデル評価フレームワークの基礎となることを示唆する。
論文 参考訳(メタデータ) (2024-07-10T13:45:16Z) - A Framework for Human Evaluation of Large Language Models in Healthcare Derived from Literature Review [11.28580626017631]
我々は、標準化された一貫した人間評価アプローチに対する顕著なニーズを強調します。
大規模言語モデル(LLM)の人間評価のための包括的で実践的な枠組みを提案する。
このフレームワークは、異なる医療アプリケーションにおけるLCMの信頼性、一般化可能性、適用性を改善することを目的としている。
論文 参考訳(メタデータ) (2024-05-04T04:16:07Z) - A Toolbox for Surfacing Health Equity Harms and Biases in Large Language Models [20.11590976578911]
大規模言語モデル(LLM)は、複雑な健康情報のニーズを満たすことを約束すると同時に、健康格差を悪化させる可能性がある。
エクイティ関連モデル失敗の信頼性評価は、ヘルスエクイティを促進するシステムを開発するための重要なステップである。
医学的問題に対するLLMによる長期的回答において、株式関連害を生じさせる可能性のあるバイアスを克服するためのリソースと方法論を提示する。
論文 参考訳(メタデータ) (2024-03-18T17:56:37Z) - Attribute Structuring Improves LLM-Based Evaluation of Clinical Text Summaries [56.31117605097345]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。
本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。
ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文 参考訳(メタデータ) (2024-03-01T21:59:03Z) - KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models [53.84677081899392]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。
動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。
5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文 参考訳(メタデータ) (2024-02-23T01:30:39Z) - SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [107.82336341926134]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。
それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文 参考訳(メタデータ) (2024-02-07T17:33:54Z) - Exploring the Reliability of Large Language Models as Customized Evaluators for Diverse NLP Tasks [65.69651759036535]
大規模言語モデル(LLM)が人間にとって信頼できる代替手段であるかどうかを解析する。
本稿では、従来のタスク(例えば、ストーリー生成)とアライメントタスク(例えば、数学推論)の両方について検討する。
LLM評価器は不要な基準を生成したり、重要な基準を省略することができる。
論文 参考訳(メタデータ) (2023-10-30T17:04:35Z) - Foundation Metrics for Evaluating Effectiveness of Healthcare
Conversations Powered by Generative AI [38.497288024393065]
ジェネレーティブ・人工知能(Generative Artificial Intelligence)は、従来の医療をよりパーソナライズされ、効率的で、積極的なプロセスに変えることで、医療提供に革命をもたらす。
本稿では,医療における対話型対話モデルの評価に特に適用可能な最先端評価指標について検討する。
論文 参考訳(メタデータ) (2023-09-21T19:36:48Z) - Interpretable Off-Policy Evaluation in Reinforcement Learning by
Highlighting Influential Transitions [48.91284724066349]
強化学習におけるオフ政治評価は、医療や教育などの領域における将来の成果を改善するために観察データを使用する機会を提供する。
信頼区間のような従来の尺度は、ノイズ、限られたデータ、不確実性のために不十分である可能性がある。
我々は,人間専門家が政策評価評価評価の妥当性を分析できるように,ハイブリッドAIシステムとして機能する手法を開発した。
論文 参考訳(メタデータ) (2020-02-10T00:26:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。