論文の概要: COGNET-MD, an evaluation framework and dataset for Large Language Model benchmarks in the medical domain
- arxiv url: http://arxiv.org/abs/2405.10893v1
- Date: Fri, 17 May 2024 16:31:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-20 15:34:03.805661
- Title: COGNET-MD, an evaluation framework and dataset for Large Language Model benchmarks in the medical domain
- Title(参考訳): 医療領域における大規模言語モデルベンチマークの評価フレームワークCOGNET-MD
- Authors: Dimitrios P. Panagoulias, Persephone Papatheodosiou, Anastasios P. Palamidas, Mattheos Sanoudos, Evridiki Tsoureli-Nikita, Maria Virvou, George A. Tsihrintzis,
- Abstract要約: 大規模言語モデル(LLM)は最先端の人工知能(AI)技術である。
医療領域認知ネットワーク評価ツールキット(COGNET-MD)について概説する。
医用テキストの解釈におけるLCMの能力を評価するのが困難であるスコアフレームを提案する。
- 参考スコア(独自算出の注目度): 1.6752458252726457
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) constitute a breakthrough state-of-the-art Artificial Intelligence (AI) technology which is rapidly evolving and promises to aid in medical diagnosis either by assisting doctors or by simulating a doctor's workflow in more advanced and complex implementations. In this technical paper, we outline Cognitive Network Evaluation Toolkit for Medical Domains (COGNET-MD), which constitutes a novel benchmark for LLM evaluation in the medical domain. Specifically, we propose a scoring-framework with increased difficulty to assess the ability of LLMs in interpreting medical text. The proposed framework is accompanied with a database of Multiple Choice Quizzes (MCQs). To ensure alignment with current medical trends and enhance safety, usefulness, and applicability, these MCQs have been constructed in collaboration with several associated medical experts in various medical domains and are characterized by varying degrees of difficulty. The current (first) version of the database includes the medical domains of Psychiatry, Dentistry, Pulmonology, Dermatology and Endocrinology, but it will be continuously extended and expanded to include additional medical domains.
- Abstract(参考訳): 大規模言語モデル(LLMs)は、急速に進化している最先端の人工知能(AI)技術であり、医師を支援したり、より高度な複雑な実装で医師のワークフローをシミュレートすることで医療診断を支援することを約束している。
本稿では,医療領域におけるLCM評価のための新しいベンチマークとなる認知ネットワーク評価ツールキット(COGNET-MD)について概説する。
具体的には、医学テキストの解釈におけるLCMの能力を評価するのが困難であるスコアフレームを提案する。
提案するフレームワークには、Multiple Choice Quizzes (MCQ) のデータベースが付属している。
現在の医療動向との整合性を確保し、安全性、有用性、適用性を高めるため、これらのMCQは様々な医療分野の専門家と共同で構築され、様々な難易度が特徴である。
データベースの現在の(最初の)バージョンは、精神医学、歯科医学、免疫学、皮膚学、内分泌学の医療ドメインを含んでいるが、継続して拡張され、追加の医療ドメインを含むように拡張される。
関連論文リスト
- A Survey of Medical Vision-and-Language Applications and Their Techniques [48.268198631277315]
医療ビジョン・アンド・ランゲージモデル(MVLM)は、複雑な医療データを解釈するための自然言語インタフェースを提供する能力から、大きな関心を集めている。
本稿では,MVLMの概要と適用した各種医療課題について概観する。
また、これらのタスクに使用するデータセットについても検討し、標準化された評価指標に基づいて異なるモデルの性能を比較した。
論文 参考訳(メタデータ) (2024-11-19T03:27:05Z) - Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - Large Language Model Benchmarks in Medical Tasks [11.196196955468992]
本稿では,医療用大規模言語モデル(LLM)タスクに使用される様々なベンチマークデータセットについて調査する。
調査では、データセットをモダリティで分類し、その重要性、データ構造、LLMの開発への影響について論じている。
この論文は、言語多様性、構造化オミクスデータ、および合成に対する革新的なアプローチを含むデータセットの必要性を強調している。
論文 参考訳(メタデータ) (2024-10-28T11:07:33Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - TCMD: A Traditional Chinese Medicine QA Dataset for Evaluating Large Language Models [22.76485170022542]
従来の中国医学検査課題を解くための大規模な手動指導を含む,新しいQAデータセットを提案する。
TCMDは、注釈付き医療科目で、さまざまな領域にまたがって大量の質問を集めています。
論文 参考訳(メタデータ) (2024-06-07T13:48:15Z) - MedKP: Medical Dialogue with Knowledge Enhancement and Clinical Pathway
Encoding [48.348511646407026]
本稿では,知識向上と臨床パスウェイ符号化フレームワークを用いた医療対話について紹介する。
このフレームワークは、医療知識グラフを介して外部知識増強モジュールと、医療機関および医師の行動を介して、内部臨床経路をコードする。
論文 参考訳(メタデータ) (2024-03-11T10:57:45Z) - Asclepius: A Spectrum Evaluation Benchmark for Medical Multi-Modal Large
Language Models [59.60384461302662]
医療マルチモーダル大言語モデル(Med-MLLM)を評価するための新しいベンチマークであるAsclepiusを紹介する。
Asclepiusは、異なる医療専門性と異なる診断能力の観点から、モデル能力の厳密かつ包括的に評価する。
また、6つのMed-MLLMの詳細な分析を行い、5人の専門家と比較した。
論文 参考訳(メタデータ) (2024-02-17T08:04:23Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - Developing ChatGPT for Biology and Medicine: A Complete Review of
Biomedical Question Answering [25.569980942498347]
ChatGPTは、医療診断、治療レコメンデーション、その他の医療支援の提供において、QA(QA)の戦略的青写真を探っている。
これは、自然言語処理(NLP)とマルチモーダルパラダイムによる医療領域データの取り込みの増加によって達成される。
論文 参考訳(メタデータ) (2024-01-15T07:21:16Z) - Path to Medical AGI: Unify Domain-specific Medical LLMs with the Lowest
Cost [18.4295882376915]
医療人工知能(英語版) (AGI) は、幅広いタスクや領域において知識を理解し、学習し、適用できるシステムを開発することを目的としている。
大規模言語モデル(LLM)は、AGIに向けた重要なステップである。
ドメイン固有の医療用LLMを低コストで統一するためのパラダイムであるメディカルAGI(MedAGI)を提案する。
論文 参考訳(メタデータ) (2023-06-19T08:15:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。