Fugu-MT 論文翻訳(概要): Is Open-Source There Yet? A Comparative Study on Commercial and Open-Source LLMs in Their Ability to Label Chest X-Ray Reports

論文の概要: Is Open-Source There Yet? A Comparative Study on Commercial and Open-Source LLMs in Their Ability to Label Chest X-Ray Reports

arxiv url: http://arxiv.org/abs/2402.12298v1
Date: Mon, 19 Feb 2024 17:23:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-20 15:24:31.267882
Title: Is Open-Source There Yet? A Comparative Study on Commercial and Open-Source LLMs in Their Ability to Label Chest X-Ray Reports
Title（参考訳）: オープンソースはまだ存在するか? 胸部X線検査における商業用LCMとオープンソース用LCMの比較検討
Authors: Felix J. Dorfner, Liv J\"urgensen, Leonhard Donle, Fares Al Mohamad, Tobias R. Bodenmann, Mason C. Cleveland, Felix Busch, Lisa C. Adams, James Sato, Thomas Schultz, Albert E. Kim, Jameson Merkow, Keno K. Bressem, Christopher P. Bridge
Abstract要約: GPT-4はゼロショットレポートラベリングにおいてオープンソースモデルよりも優れているが、少数ショットプロンプトの実装はGPT-4と同等のオープンソースモデルをもたらす可能性がある。このことは、オープンソースモデルは、放射線学レポート分類のタスクにおいて、GPT-4に代わるパフォーマンスとプライバシ保護の代替となる可能性があることを示している。
参考スコア（独自算出の注目度）: 0.8553482972179836
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Introduction: With the rapid advances in large language models (LLMs), there have been numerous new open source as well as commercial models. While recent publications have explored GPT-4 in its application to extracting information of interest from radiology reports, there has not been a real-world comparison of GPT-4 to different leading open-source models. Materials and Methods: Two different and independent datasets were used. The first dataset consists of 540 chest x-ray reports that were created at the Massachusetts General Hospital between July 2019 and July 2021. The second dataset consists of 500 chest x-ray reports from the ImaGenome dataset. We then compared the commercial models GPT-3.5 Turbo and GPT-4 from OpenAI to the open-source models Mistral-7B, Mixtral-8x7B, Llama2-13B, Llama2-70B, QWEN1.5-72B and CheXbert and CheXpert-labeler in their ability to accurately label the presence of multiple findings in x-ray text reports using different prompting techniques. Results: On the ImaGenome dataset, the best performing open-source model was Llama2-70B with micro F1-scores of 0.972 and 0.970 for zero- and few-shot prompts, respectively. GPT-4 achieved micro F1-scores of 0.975 and 0.984, respectively. On the institutional dataset, the best performing open-source model was QWEN1.5-72B with micro F1-scores of 0.952 and 0.965 for zero- and few-shot prompting, respectively. GPT-4 achieved micro F1-scores of 0.975 and 0.973, respectively. Conclusion: In this paper, we show that while GPT-4 is superior to open-source models in zero-shot report labeling, the implementation of few-shot prompting can bring open-source models on par with GPT-4. This shows that open-source models could be a performant and privacy preserving alternative to GPT-4 for the task of radiology report classification.
Abstract（参考訳）: はじめに: 大規模言語モデル(llm)の急速な進歩により、商用モデルだけでなく、多くの新しいオープンソースが生まれました。近年のGPT-4は放射線学報告から興味のある情報を抽出する手法として研究されているが、GPT-4と他の主要なオープンソースモデルとの実際の比較は行われていない。材料と方法: 2つの異なる独立したデータセットが使用された。最初のデータセットは、2019年7月から2021年7月までにマサチューセッツ総合病院で作成された540個の胸部X線レポートから成っている。第2のデータセットは、ImaGenomeデータセットから500個の胸部X線レポートで構成されている。次に,OpenAI の商用モデル GPT-3.5 Turbo と GPT-4 と,オープンソースモデル Mistral-7B, Mixtral-8x7B, Llama2-13B, Llama2-70B, QWEN1.5-72B, CheXbert と CheXpert-labeler を比較した。結果:ImaGenomeデータセットでは,マイクロF1スコアが0.972と0.970のLlama2-70Bが最も優れたオープンソースモデルであった。 GPT-4は、それぞれ0.975と0.984のマイクロF1スコアを達成した。システムデータセットにおいて、最もパフォーマンスの高いオープンソースモデルは、ゼロショットプロンプトでそれぞれ0.952と0.965のマイクロf1スコアを持つqwen1.5-72bである。 GPT-4は、それぞれ0.975と0.973のマイクロF1スコアを達成した。結論: 本論文では, GPT-4はゼロショットレポートラベリングにおいて, オープンソースモデルよりも優れているが, 少数ショットプロンプトの実装により, GPT-4と同等のオープンソースモデルを実現できることを示す。これは、オープンソースモデルが、放射線レポート分類のタスクのためにgpt-4の代わりに、パフォーマンスとプライバシを保護できることを示している。

関連論文リスト

Leveraging Fine-Tuned Large Language Models for Interpretable Pancreatic Cystic Lesion Feature Extraction and Risk Categorization [9.840625513935343]
放射線検査より膵嚢胞性病変(PCL)の特徴を手動で抽出した。 MRI/CTレポートからPCL特徴を自動的に抽出する大規模言語モデル(LLM)の開発と評価を行う。
論文参考訳（メタデータ） (2025-07-26T15:02:32Z)
Generative Large Language Models Trained for Detecting Errors in Radiology Reports [11.852981889270012]
このデータセットは、特定のプロンプトを用いてGPT-4によって生成された1,656の合成胸部放射線学報告を含む。 Llama-3、GPT-4、BiomedBERTなどいくつかのモデルはゼロショットプロンプト、少数ショットプロンプト、微調整戦略を用いて改良された。ゼロショットプロンプトを用いることで、微調整のLlama-3-70B-Instructモデルは、否定誤差0.769、左右誤差0.772、間隔変更エラー0.750、転写エラー0.828、全体の0.780というF1スコアで最高のパフォーマンスを達成した。
論文参考訳（メタデータ） (2025-04-06T03:02:36Z)
Enhancing LLMs for Identifying and Prioritizing Important Medical Jargons from Electronic Health Record Notes Utilizing Data Augmentation [10.548103423700539]
OpenNotesは患者のEHRノートへのアクセスを可能にするが、医療ジャーゴンは理解を妨げる可能性がある。鍵医学用語の抽出・優先順位付けには, プロンプト, 微調整, データ拡張を併用して, クローズドおよびオープンソースLCMを評価した。オープンソースモデルは、微調整または拡張されたクローズドソースモデルよりも優れています。
論文参考訳（メタデータ） (2025-02-22T00:50:01Z)
Fine-Tuning In-House Large Language Models to Infer Differential Diagnosis from Radiology Reports [1.5972172622800358]
本研究は, 放射線学報告と鑑別診断に適した社内LPMの開発パイプラインを提案する。 GPT-4と同等の92.1%のF1スコアが得られた。
論文参考訳（メタデータ） (2024-10-11T20:16:25Z)
Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Multimodal Models [146.18107944503436]
Molmoは、オープンネスのクラスで最先端のVLMの新たなファミリーである。私たちの重要なイノベーションは、人間のアノテーションから収集された、新しくて詳細な画像キャプションデータセットです。近い将来、モデルウェイト、キャプション、微調整データ、ソースコードをすべてリリースする予定です。
論文参考訳（メタデータ） (2024-09-25T17:59:51Z)
Large Language Models versus Classical Machine Learning: Performance in COVID-19 Mortality Prediction Using High-Dimensional Tabular Data [0.0]
本研究の目的は、新型コロナウイルスによる死亡率の予測において、古典的機械学習モデル(CML)と大規模言語モデル(LLM)のパフォーマンスを評価し、比較することである。我々は4つの病院で収集された9,134人の新型コロナウイルス患者のデータを分析した。
論文参考訳（メタデータ） (2024-09-02T14:51:12Z)
Clustering and Ranking: Diversity-preserved Instruction Selection through Expert-aligned Quality Estimation [56.13803674092712]
本稿では,産業に優しく,専門家に順応し,多様性に配慮した指導データ選択手法を提案する:クラスタリングとランキング(CaR) CaRは2段階のプロセスを採用している: まず、専門家の好みに合わせた高精度(84.25%)のスコアリングモデルを使用して、命令ペアをランク付けする。我々の実験では、CaRはAlpacaのITデータのわずか1.96%を効率よく選択したが、結果のAlpaCaRモデルはGPT-4の評価において平均32.1%の精度でAlpacaのパフォーマンスを上回った。
論文参考訳（メタデータ） (2024-02-28T09:27:29Z)
ExaRanker-Open: Synthetic Explanation for IR using Open-Source LLMs [60.81649785463651]
ExaRanker-Openを導入し、オープンソース言語モデルを適用して、説明を生成する。以上の結果から,LLMのサイズが大きくなるにつれて,説明の組み込みが神経ランク付けを継続的に促進することが明らかとなった。
論文参考訳（メタデータ） (2024-02-09T11:23:14Z)
Comparing GPT-4 and Open-Source Language Models in Misinformation Mitigation [6.929834518749884]
GPT-4は、この領域では強いことが知られているが、クローズドソースであり、潜在的に高価であり、異なるバージョン間で不安定を示すことができる。我々は、Zephyr-7bが、一般的なアプローチの重要な制限を克服し、一貫した代替手段を提供することを示す。そして、GPT-3.5が不安定な性能を示し、この非常に広く使われているモデルが誤情報検出の誤った結果をもたらす可能性があることを強調した。
論文参考訳（メタデータ） (2024-01-12T22:27:25Z)
General-Purpose vs. Domain-Adapted Large Language Models for Extraction of Structured Data from Chest Radiology Reports [5.953255276042551]
ドメイン適応言語モデル(RadLing)と汎用LLM(GPT-4)を用いたシステムの比較 3人の放射線学者が1399の胸部XRレポート(900のトレーニング、499のテスト)の振り返りデータセットに注釈を付け、44の関連CDEにマッピングした。 RadLingのドメイン適応型埋め込みは特徴抽出において改善され、軽量マッパーはCDEの割り当てにおいてf1スコアが向上した。
論文参考訳（メタデータ） (2023-11-28T20:34:40Z)
CXR-LLAVA: a multimodal large language model for interpreting chest X-ray images [3.0757789554622597]
本研究の目的は,胸部X線画像(CXR)を解釈するためのオープンソースのマルチモーダル大言語モデル(CXR-LLAVA)を開発することである。トレーニングでは,592,580個のCXRを収集し,そのうち374,881個のX線写真異常のラベルが得られた。主な病理所見に対する診断成績と,ヒト放射線技師による放射線学的報告の受容性について検討した。
論文参考訳（メタデータ） (2023-10-22T06:22:37Z)
ExtractGPT: Exploring the Potential of Large Language Models for Product Attribute Value Extraction [52.14681890859275]
電子商取引プラットフォームは、属性と値のペアという形で構造化された製品データを必要とする。 BERTベースの抽出法では,タスク固有の大量のトレーニングデータを必要とする。本稿では,大規模言語モデル (LLM) を,より訓練的かつ堅牢な代替手段として活用することを検討する。
論文参考訳（メタデータ） (2023-10-19T07:39:00Z)
RankVicuna: Zero-Shot Listwise Document Reranking with Open-Source Large Language Models [56.51705482912727]
ゼロショット設定で高品質なリストワイドのランク付けを行うことができる初の完全オープンソースLCMである RankVicuna を提示する。 TREC 2019と2020 Deep Learning Tracksの実験結果から,GPT-4のゼロショットリランクに匹敵する効果が得られ,GPT-3.5よりもはるかに小さい7Bパラメータモデルが得られた。
論文参考訳（メタデータ） (2023-09-26T17:31:57Z)
How Far Can Camels Go? Exploring the State of Instruction Tuning on Open Resources [117.6496550359768]
この研究は、オープンな命令追従データセットにおける命令チューニング言語モデルの最近の進歩を探求する。我々は、12の命令データセットに基づいて訓練された6.7Bから65Bのパラメータを含む、命令調整されたモデルの大規模なセットを提供する。それらの事実的知識、推論、多言語性、コーディング、そしてその後に続くオープン・エンド・インストラクションに基づいて評価する。
論文参考訳（メタデータ） (2023-06-07T19:59:23Z)
Chest x-ray automated triage: a semiologic approach designed for clinical implementation, exploiting different types of labels through a combination of four Deep Learning architectures [83.48996461770017]
本研究では,異なる畳み込みアーキテクチャの後期融合に基づく深層学習手法を提案する。公開胸部x線画像と機関アーカイブを組み合わせたトレーニングデータセットを4つ構築した。 4つの異なるディープラーニングアーキテクチャをトレーニングし、それらのアウトプットとレイトフュージョン戦略を組み合わせることで、統一されたツールを得ました。
論文参考訳（メタデータ） (2020-12-23T14:38:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。