論文の概要: Superhuman performance in urology board questions by an explainable large language model enabled for context integration of the European Association of Urology guidelines: the UroBot study
- arxiv url: http://arxiv.org/abs/2406.01428v2
- Date: Tue, 4 Jun 2024 05:39:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 22:30:12.286429
- Title: Superhuman performance in urology board questions by an explainable large language model enabled for context integration of the European Association of Urology guidelines: the UroBot study
- Title(参考訳): 欧州耳鼻咽喉科会ガイドラインの文脈統合に有効な説明可能な大言語モデルによる尿学ボード質問における超人的パフォーマンス:ウロボット研究
- Authors: Martin J. Hetz, Nicolas Carl, Sarah Haggenmüller, Christoph Wies, Maurice Stephan Michel, Frederik Wessels, Titus J. Brinker,
- Abstract要約: UroBotはOpenAIのGPT-3.5、GPT-4、GPT-4oモデルで開発された。
評価には200の欧州耳鼻咽喉科委員会(EBU)の質問10件が含まれていた。
UroBot-4oの平均RoCAは88.4%、GPT-4oは10.8%、スコアは77.6%だった。
- 参考スコア(独自算出の注目度): 0.9423257767158634
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) are revolutionizing medical Question-Answering (medQA) through extensive use of medical literature. However, their performance is often hampered by outdated training data and a lack of explainability, which limits clinical applicability. This study aimed to create and assess UroBot, a urology-specialized chatbot, by comparing it with state-of-the-art models and the performance of urologists on urological board questions, ensuring full clinician-verifiability. UroBot was developed using OpenAI's GPT-3.5, GPT-4, and GPT-4o models, employing retrieval-augmented generation (RAG) and the latest 2023 guidelines from the European Association of Urology (EAU). The evaluation included ten runs of 200 European Board of Urology (EBU) In-Service Assessment (ISA) questions, with performance assessed by the mean Rate of Correct Answers (RoCA). UroBot-4o achieved an average RoCA of 88.4%, surpassing GPT-4o by 10.8%, with a score of 77.6%. It was also clinician-verifiable and exhibited the highest run agreement as indicated by Fleiss' Kappa (k = 0.979). By comparison, the average performance of urologists on board questions, as reported in the literature, is 68.7%. UroBot's clinician-verifiable nature and superior accuracy compared to both existing models and urologists on board questions highlight its potential for clinical integration. The study also provides the necessary code and instructions for further development of UroBot.
- Abstract(参考訳): 大規模言語モデル (LLM) は医学文献を広範囲に活用することで医療質問応答 (medQA) に革命をもたらしている。
しかし、それらのパフォーマンスは、時代遅れのトレーニングデータと、臨床応用性を制限する説明可能性の欠如によって、しばしば妨げられる。
本研究は,尿学専門のチャットボットであるUroBotを作成し,評価することを目的とした。
UroBotはOpenAIのGPT-3.5、GPT-4、GPT-4oモデルを使用して開発され、検索強化世代(RAG)と欧州耳鼻咽喉科会(EAU)の最新2023ガイドラインを採用している。
評価対象は欧州耳鼻咽喉科(EBU)200項目のインサービスアセスメント(ISA)質問10件で, 正解率(RoCA)の平均値から評価した。
UroBot-4oの平均RoCAは88.4%、GPT-4oは10.8%、スコアは77.6%だった。
また、Fleiss' Kappa (k = 0.979) が示したように、臨床医による検証も可能で、最も高い実行協定が提示された。
比較すると、文献に報告されているように、船上での耳科医の平均成績は68.7%である。
UroBotの臨床的に検証可能な性質と精度は、既存のモデルと尿科医の両方が、臨床統合の可能性を強調している。
この研究は、UroBotのさらなる開発に必要なコードと指示も提供している。
関連論文リスト
- Artificial Intelligence to Assess Dental Findings from Panoramic Radiographs -- A Multinational Study [3.8184255731311287]
6,669個の歯科用パノラマ線写真(DPR)を3つのデータセットから分析した。
性能指標には、受信機動作特性曲線(AUC-ROC)の感度、特異性、面積が含まれていた。
AIシステムは、人間の読者に匹敵する、あるいは優れたパフォーマンスを示した。
論文 参考訳(メタデータ) (2025-02-14T16:34:21Z) - A Scalable Approach to Benchmarking the In-Conversation Differential Diagnostic Accuracy of a Health AI [0.0]
本研究では、健康AIシステムを評価するためのスケーラブルなベンチマーク手法を提案する。
提案手法では,14の専門分野に400の検証済み臨床ヴィグネットを用いて,現実的な臨床行為をシミュレートするためにAIを利用した患者アクターを用いた。
8月は81.8%(327/400件)の診断精度、85.0%(340/400件)のトップ2の診断精度を達成し、従来の症状チェッカーを上回った。
論文 参考訳(メタデータ) (2024-12-17T05:02:33Z) - Performance of a large language model-Artificial Intelligence based chatbot for counseling patients with sexually transmitted infections and genital diseases [4.910821423749911]
Otizは、STIの検出とカウンセリングに特化したAIベースのプラットフォームである。
患者言語を模倣するプロンプトを用いて, STI4種(異種性ワート, ヘルペス, 梅毒, 尿道炎, 頸部炎)を評価した。
Otizは、診断精度(4.14.7)、全体的な精度(4.34.6)、情報の正確性(5.0)、理解性(4.2-4.4)、共感(4.5-4.3.6)を高く評価した。
論文 参考訳(メタデータ) (2024-12-11T20:36:32Z) - Novel Clinical-Grade Prostate Cancer Detection and Grading Model: Development and Prospective Validation Using Real World Data, with Performance Assessment on IHC Requested Cases [1.9729379339863824]
本研究では,前立腺癌検出,グレーディング,ワークフロー最適化のための制度的に開発されたシステムの性能について検討した。
We developed model for cancer detection, grading and screening of equivocal case for IHC ordering。
論文 参考訳(メタデータ) (2024-10-31T05:29:18Z) - SemiHVision: Enhancing Medical Multimodal Models with a Semi-Human Annotated Dataset and Fine-Tuned Instruction Generation [13.672776832197918]
MLLM(Multimodal large language model)は大きな進歩を遂げているが、専門知識が限られているため、医療分野の課題に直面している。
データ収集やモデル微調整,評価など,エンドツーエンドの学習パイプラインのさまざまな段階において,このギャップに対処することを目指している。
論文 参考訳(メタデータ) (2024-10-19T02:35:35Z) - Using Pre-training and Interaction Modeling for ancestry-specific disease prediction in UK Biobank [69.90493129893112]
近年のゲノムワイド・アソシエーション(GWAS)研究は、複雑な形質の遺伝的基盤を明らかにしているが、非ヨーロッパ系個体の低発現を示している。
そこで本研究では,マルチオミクスデータを用いて,多様な祖先間での疾患予測を改善することができるかを評価する。
論文 参考訳(メタデータ) (2024-04-26T16:39:50Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - BiomedGPT: A Generalist Vision-Language Foundation Model for Diverse Biomedical Tasks [68.39821375903591]
汎用AIは、さまざまなデータ型を解釈する汎用性のために、制限に対処する可能性を秘めている。
本稿では,最初のオープンソースかつ軽量な視覚言語基盤モデルであるBiomedGPTを提案する。
論文 参考訳(メタデータ) (2023-05-26T17:14:43Z) - WSSS4LUAD: Grand Challenge on Weakly-supervised Tissue Semantic
Segmentation for Lung Adenocarcinoma [51.50991881342181]
この課題には10,091個のパッチレベルのアノテーションと1300万以上のラベル付きピクセルが含まれる。
第一位チームは0.8413mIoUを達成した(腫瘍:0.8389、ストーマ:0.7931、正常:0.8919)。
論文 参考訳(メタデータ) (2022-04-13T15:27:05Z) - Advancing COVID-19 Diagnosis with Privacy-Preserving Collaboration in
Artificial Intelligence [79.038671794961]
我々はUCADI(Unified CT-COVID AI Diagnostic Initiative)を立ち上げ、各ホスト機関でAIモデルを分散的にトレーニングし、独立して実行することができる。
本研究は,中国とイギリスに所在する23の病院で採取した3,336例の胸部CT9,573例について検討した。
論文 参考訳(メタデータ) (2021-11-18T00:43:41Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。