Fugu-MT 論文翻訳(概要): Superhuman performance in urology board questions by an explainable large language model enabled for context integration of the European Association of Urology guidelines: the UroBot study

論文の概要: Superhuman performance in urology board questions by an explainable large language model enabled for context integration of the European Association of Urology guidelines: the UroBot study

arxiv url: http://arxiv.org/abs/2406.01428v2
Date: Tue, 4 Jun 2024 05:39:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-05 22:30:12.286429
Title: Superhuman performance in urology board questions by an explainable large language model enabled for context integration of the European Association of Urology guidelines: the UroBot study
Title（参考訳）: 欧州耳鼻咽喉科会ガイドラインの文脈統合に有効な説明可能な大言語モデルによる尿学ボード質問における超人的パフォーマンス:ウロボット研究
Authors: Martin J. Hetz, Nicolas Carl, Sarah Haggenmüller, Christoph Wies, Maurice Stephan Michel, Frederik Wessels, Titus J. Brinker,
Abstract要約: UroBotはOpenAIのGPT-3.5、GPT-4、GPT-4oモデルで開発された。評価には200の欧州耳鼻咽喉科委員会(EBU)の質問10件が含まれていた。 UroBot-4oの平均RoCAは88.4%、GPT-4oは10.8%、スコアは77.6%だった。
参考スコア（独自算出の注目度）: 0.9423257767158634
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Large Language Models (LLMs) are revolutionizing medical Question-Answering (medQA) through extensive use of medical literature. However, their performance is often hampered by outdated training data and a lack of explainability, which limits clinical applicability. This study aimed to create and assess UroBot, a urology-specialized chatbot, by comparing it with state-of-the-art models and the performance of urologists on urological board questions, ensuring full clinician-verifiability. UroBot was developed using OpenAI's GPT-3.5, GPT-4, and GPT-4o models, employing retrieval-augmented generation (RAG) and the latest 2023 guidelines from the European Association of Urology (EAU). The evaluation included ten runs of 200 European Board of Urology (EBU) In-Service Assessment (ISA) questions, with performance assessed by the mean Rate of Correct Answers (RoCA). UroBot-4o achieved an average RoCA of 88.4%, surpassing GPT-4o by 10.8%, with a score of 77.6%. It was also clinician-verifiable and exhibited the highest run agreement as indicated by Fleiss' Kappa (k = 0.979). By comparison, the average performance of urologists on board questions, as reported in the literature, is 68.7%. UroBot's clinician-verifiable nature and superior accuracy compared to both existing models and urologists on board questions highlight its potential for clinical integration. The study also provides the necessary code and instructions for further development of UroBot.
Abstract（参考訳）: 大規模言語モデル (LLM) は医学文献を広範囲に活用することで医療質問応答 (medQA) に革命をもたらしている。しかし、それらのパフォーマンスは、時代遅れのトレーニングデータと、臨床応用性を制限する説明可能性の欠如によって、しばしば妨げられる。本研究は,尿学専門のチャットボットであるUroBotを作成し,評価することを目的とした。 UroBotはOpenAIのGPT-3.5、GPT-4、GPT-4oモデルを使用して開発され、検索強化世代(RAG)と欧州耳鼻咽喉科会(EAU)の最新2023ガイドラインを採用している。評価対象は欧州耳鼻咽喉科(EBU)200項目のインサービスアセスメント(ISA)質問10件で, 正解率(RoCA)の平均値から評価した。 UroBot-4oの平均RoCAは88.4%、GPT-4oは10.8%、スコアは77.6%だった。また、Fleiss' Kappa (k = 0.979) が示したように、臨床医による検証も可能で、最も高い実行協定が提示された。比較すると、文献に報告されているように、船上での耳科医の平均成績は68.7%である。 UroBotの臨床的に検証可能な性質と精度は、既存のモデルと尿科医の両方が、臨床統合の可能性を強調している。この研究は、UroBotのさらなる開発に必要なコードと指示も提供している。

関連論文リスト

Development and Evaluation of HopeBot: an LLM-based chatbot for structured and interactive PHQ-9 depression screening [48.355615275247786]
HopeBotは、PHQ-9(Patent Health Questionnaire-9)を検索強化世代とリアルタイムの明確化を用いて管理する。内部調査では、英国と中国の132人の成人が、自己管理版とチャットボット版の両方を完成させた。全体の87.1%は、ホープボットの再利用や推奨を表明している。
論文参考訳（メタデータ） (2025-07-08T13:41:22Z)
ReXVQA: A Large-scale Visual Question Answering Benchmark for Generalist Chest X-ray Understanding [3.5568372183159203]
ReXVQAは胸部X線検査における視覚的質問応答(VQA)の最大かつ最も包括的なベンチマークである。約696,000の質問と、トレーニング、検証、テストセットにわたる16万の胸部X線研究のペアで構成されている。我々は,MedGemma-4B-it,Qwen2.5-VL,Janus-Pro-7B,Eagle2-9Bを含む8つの最先端マルチモーダル言語モデルを評価する。
論文参考訳（メタデータ） (2025-06-04T18:11:59Z)
A Clinician-Friendly Platform for Ophthalmic Image Analysis Without Technical Barriers [51.45596445363302]
GlobeReadyはクリニックフレンドリーなAIプラットフォームで、眼疾患の診断を可能にする。 11カテゴリの写真データセットは93.9-98.5%、15カテゴリのOCTデータセットは87.2-92.7%である。中国では5つのセンターで平均88.9%、ベトナムでは86.3%、イギリスでは90.2%となっている。
論文参考訳（メタデータ） (2025-04-22T14:17:22Z)
Evaluating the Feasibility and Accuracy of Large Language Models for Medical History-Taking in Obstetrics and Gynecology [4.48731404829722]
効果的な医師と患者のコミュニケーションは重要であるが、多くの時間を消費するので、クリニックは非効率になる。近年のLarge Language Models (LLMs) の進歩は、医療履歴の自動作成と診断精度の向上のための潜在的なソリューションを提供する。 ChatGPT-4oとChatGPT-4o-miniとの医師と患者との相互作用をシミュレートするAI駆動型会話システムを開発した。両モデルとも不妊の履歴取り出しを自動化できる可能性を示し、ChatGPT-4o-miniは完全性と抽出精度に優れていた。
論文参考訳（メタデータ） (2025-03-31T14:09:53Z)
Artificial Intelligence to Assess Dental Findings from Panoramic Radiographs -- A Multinational Study [3.8184255731311287]
6,669個の歯科用パノラマ線写真(DPR)を3つのデータセットから分析した。性能指標には、受信機動作特性曲線(AUC-ROC)の感度、特異性、面積が含まれていた。 AIシステムは、人間の読者に匹敵する、あるいは優れたパフォーマンスを示した。
論文参考訳（メタデータ） (2025-02-14T16:34:21Z)
A Scalable Approach to Benchmarking the In-Conversation Differential Diagnostic Accuracy of a Health AI [0.0]
本研究では、健康AIシステムを評価するためのスケーラブルなベンチマーク手法を提案する。提案手法では,14の専門分野に400の検証済み臨床ヴィグネットを用いて,現実的な臨床行為をシミュレートするためにAIを利用した患者アクターを用いた。 8月は81.8%(327/400件)の診断精度、85.0%(340/400件)のトップ2の診断精度を達成し、従来の症状チェッカーを上回った。
論文参考訳（メタデータ） (2024-12-17T05:02:33Z)
How Well Can Modern LLMs Act as Agent Cores in Radiology Environments? [54.36730060680139]
RadA-BenchPlatは、放射線学環境での大規模言語モデル(LLM)のパフォーマンスをベンチマークする評価プラットフォームである。また、エージェント駆動型タスク解決ツールの10のカテゴリを定義し、7つの主要なLCMを評価している。
論文参考訳（メタデータ） (2024-12-12T18:20:16Z)
Performance of a large language model-Artificial Intelligence based chatbot for counseling patients with sexually transmitted infections and genital diseases [4.910821423749911]
Otizは、STIの検出とカウンセリングに特化したAIベースのプラットフォームである。患者言語を模倣するプロンプトを用いて, STI4種(異種性ワート, ヘルペス, 梅毒, 尿道炎, 頸部炎)を評価した。 Otizは、診断精度(4.14.7)、全体的な精度(4.34.6)、情報の正確性(5.0)、理解性(4.2-4.4)、共感(4.5-4.3.6)を高く評価した。
論文参考訳（メタデータ） (2024-12-11T20:36:32Z)
Artificial Intelligence-Informed Handheld Breast Ultrasound for Screening: A Systematic Review of Diagnostic Test Accuracy [0.3859048418931631]
ハンドヘルド乳房超音波(BUS)は安価な代替品であるが、かなりの訓練が必要である。人工知能(AI)により、BUSは乳がんの検出(知覚)と分類(解釈)の両方を支援できる。発見:185,000人以上の患者の570万のBUS画像がAIトレーニングや検証に使用された。
論文参考訳（メタデータ） (2024-11-11T19:31:06Z)
Novel Clinical-Grade Prostate Cancer Detection and Grading Model: Development and Prospective Validation Using Real World Data, with Performance Assessment on IHC Requested Cases [1.9729379339863824]
本研究では,前立腺癌検出,グレーディング,ワークフロー最適化のための制度的に開発されたシステムの性能について検討した。 We developed model for cancer detection, grading and screening of equivocal case for IHC ordering。
論文参考訳（メタデータ） (2024-10-31T05:29:18Z)
SemiHVision: Enhancing Medical Multimodal Models with a Semi-Human Annotated Dataset and Fine-Tuned Instruction Generation [13.672776832197918]
MLLM(Multimodal large language model)は大きな進歩を遂げているが、専門知識が限られているため、医療分野の課題に直面している。データ収集やモデル微調整,評価など,エンドツーエンドの学習パイプラインのさまざまな段階において,このギャップに対処することを目指している。
論文参考訳（メタデータ） (2024-10-19T02:35:35Z)
Artificial Intelligence-Based Triaging of Cutaneous Melanocytic Lesions [0.8864540224289991]
患者数の増加とより包括的な診断の必要性により、病理学者は作業負荷の増大に直面している。われわれは,全スライド画像に基づいて皮膚メラノサイト性病変をトリアージする人工知能(AI)モデルを開発した。
論文参考訳（メタデータ） (2024-10-14T13:49:04Z)
Towards a Holistic Framework for Multimodal Large Language Models in Three-dimensional Brain CT Report Generation [42.06416052431378]
2Dラジオグラフィーキャプションは、ボリューム3D解剖学における現実の診断課題を反映するものではない。我々は18,885組の3D-BrainCTデータセットを収集し,臨床ビジュアルインストラクション・チューニングを用いて,脳波モデルを用いて放射線治療を施した3D脳CTレポートを作成した。私たちの研究は、3Dの脳CTデータセットのキュレーション、微調整による解剖学的意味のある言語モデル、堅牢な放射線学評価指標の提案など、総合的な枠組みを具現化したものです。
論文参考訳（メタデータ） (2024-07-02T12:58:35Z)
Using Pre-training and Interaction Modeling for ancestry-specific disease prediction in UK Biobank [69.90493129893112]
近年のゲノムワイド・アソシエーション(GWAS)研究は、複雑な形質の遺伝的基盤を明らかにしているが、非ヨーロッパ系個体の低発現を示している。そこで本研究では,マルチオミクスデータを用いて,多様な祖先間での疾患予測を改善することができるかを評価する。
論文参考訳（メタデータ） (2024-04-26T16:39:50Z)
Small Language Models Learn Enhanced Reasoning Skills from Medical Textbooks [17.40940406100025]
私たちは、70億から700億のパラメータからなる、医療AIシステムの新しいファミリーであるMeerkatを紹介します。我々のシステムは6つの医療ベンチマークで顕著な精度を達成した。 Meerkat-70Bは38例中21例を正しく診断し、ヒトの13.8例を上回った。
論文参考訳（メタデータ） (2024-03-30T14:09:00Z)
Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。評価のために,GPT-4に基づく実測値CheXpromptを提案する。 LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文参考訳（メタデータ） (2024-03-12T18:12:02Z)
BiomedGPT: A Generalist Vision-Language Foundation Model for Diverse Biomedical Tasks [68.39821375903591]
汎用AIは、さまざまなデータ型を解釈する汎用性のために、制限に対処する可能性を秘めている。本稿では,最初のオープンソースかつ軽量な視覚言語基盤モデルであるBiomedGPTを提案する。
論文参考訳（メタデータ） (2023-05-26T17:14:43Z)
Deep-Learning Tool for Early Identifying Non-Traumatic Intracranial Hemorrhage Etiology based on CT Scan [40.51754649947294]
深層学習モデルは、2011年1月から2018年4月までに収集された非外傷性ICHを用いた1868個のNCCTスキャンを用いて開発された。診断成績は臨床医の成績と比較した。臨床医は, システム拡張による特定の出血エチオロジーの感度, 特異性, 精度を著しく改善した。
論文参考訳（メタデータ） (2023-02-02T08:45:17Z)
WSSS4LUAD: Grand Challenge on Weakly-supervised Tissue Semantic Segmentation for Lung Adenocarcinoma [51.50991881342181]
この課題には10,091個のパッチレベルのアノテーションと1300万以上のラベル付きピクセルが含まれる。第一位チームは0.8413mIoUを達成した(腫瘍:0.8389、ストーマ:0.7931、正常:0.8919)。
論文参考訳（メタデータ） (2022-04-13T15:27:05Z)
Advancing COVID-19 Diagnosis with Privacy-Preserving Collaboration in Artificial Intelligence [79.038671794961]
我々はUCADI(Unified CT-COVID AI Diagnostic Initiative)を立ち上げ、各ホスト機関でAIモデルを分散的にトレーニングし、独立して実行することができる。本研究は,中国とイギリスに所在する23の病院で採取した3,336例の胸部CT9,573例について検討した。
論文参考訳（メタデータ） (2021-11-18T00:43:41Z)
CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文参考訳（メタデータ） (2021-06-15T12:25:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。