論文の概要: Is Open-Source There Yet? A Comparative Study on Commercial and
Open-Source LLMs in Their Ability to Label Chest X-Ray Reports
- arxiv url: http://arxiv.org/abs/2402.12298v1
- Date: Mon, 19 Feb 2024 17:23:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 15:24:31.267882
- Title: Is Open-Source There Yet? A Comparative Study on Commercial and
Open-Source LLMs in Their Ability to Label Chest X-Ray Reports
- Title(参考訳): オープンソースはまだ存在するか?
胸部X線検査における商業用LCMとオープンソース用LCMの比較検討
- Authors: Felix J. Dorfner, Liv J\"urgensen, Leonhard Donle, Fares Al Mohamad,
Tobias R. Bodenmann, Mason C. Cleveland, Felix Busch, Lisa C. Adams, James
Sato, Thomas Schultz, Albert E. Kim, Jameson Merkow, Keno K. Bressem,
Christopher P. Bridge
- Abstract要約: GPT-4はゼロショットレポートラベリングにおいてオープンソースモデルよりも優れているが、少数ショットプロンプトの実装はGPT-4と同等のオープンソースモデルをもたらす可能性がある。
このことは、オープンソースモデルは、放射線学レポート分類のタスクにおいて、GPT-4に代わるパフォーマンスとプライバシ保護の代替となる可能性があることを示している。
- 参考スコア(独自算出の注目度): 0.8553482972179836
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Introduction: With the rapid advances in large language models (LLMs), there
have been numerous new open source as well as commercial models. While recent
publications have explored GPT-4 in its application to extracting information
of interest from radiology reports, there has not been a real-world comparison
of GPT-4 to different leading open-source models.
Materials and Methods: Two different and independent datasets were used. The
first dataset consists of 540 chest x-ray reports that were created at the
Massachusetts General Hospital between July 2019 and July 2021. The second
dataset consists of 500 chest x-ray reports from the ImaGenome dataset. We then
compared the commercial models GPT-3.5 Turbo and GPT-4 from OpenAI to the
open-source models Mistral-7B, Mixtral-8x7B, Llama2-13B, Llama2-70B,
QWEN1.5-72B and CheXbert and CheXpert-labeler in their ability to accurately
label the presence of multiple findings in x-ray text reports using different
prompting techniques.
Results: On the ImaGenome dataset, the best performing open-source model was
Llama2-70B with micro F1-scores of 0.972 and 0.970 for zero- and few-shot
prompts, respectively. GPT-4 achieved micro F1-scores of 0.975 and 0.984,
respectively. On the institutional dataset, the best performing open-source
model was QWEN1.5-72B with micro F1-scores of 0.952 and 0.965 for zero- and
few-shot prompting, respectively. GPT-4 achieved micro F1-scores of 0.975 and
0.973, respectively.
Conclusion: In this paper, we show that while GPT-4 is superior to
open-source models in zero-shot report labeling, the implementation of few-shot
prompting can bring open-source models on par with GPT-4. This shows that
open-source models could be a performant and privacy preserving alternative to
GPT-4 for the task of radiology report classification.
- Abstract(参考訳): はじめに: 大規模言語モデル(llm)の急速な進歩により、商用モデルだけでなく、多くの新しいオープンソースが生まれました。
近年のGPT-4は放射線学報告から興味のある情報を抽出する手法として研究されているが、GPT-4と他の主要なオープンソースモデルとの実際の比較は行われていない。
材料と方法: 2つの異なる独立したデータセットが使用された。
最初のデータセットは、2019年7月から2021年7月までにマサチューセッツ総合病院で作成された540個の胸部X線レポートから成っている。
第2のデータセットは、ImaGenomeデータセットから500個の胸部X線レポートで構成されている。
次に,OpenAI の商用モデル GPT-3.5 Turbo と GPT-4 と,オープンソースモデル Mistral-7B, Mixtral-8x7B, Llama2-13B, Llama2-70B, QWEN1.5-72B, CheXbert と CheXpert-labeler を比較した。
結果:ImaGenomeデータセットでは,マイクロF1スコアが0.972と0.970のLlama2-70Bが最も優れたオープンソースモデルであった。
GPT-4は、それぞれ0.975と0.984のマイクロF1スコアを達成した。
システムデータセットにおいて、最もパフォーマンスの高いオープンソースモデルは、ゼロショットプロンプトでそれぞれ0.952と0.965のマイクロf1スコアを持つqwen1.5-72bである。
GPT-4は、それぞれ0.975と0.973のマイクロF1スコアを達成した。
結論: 本論文では, GPT-4はゼロショットレポートラベリングにおいて, オープンソースモデルよりも優れているが, 少数ショットプロンプトの実装により, GPT-4と同等のオープンソースモデルを実現できることを示す。
これは、オープンソースモデルが、放射線レポート分類のタスクのためにgpt-4の代わりに、パフォーマンスとプライバシを保護できることを示している。
関連論文リスト
- Fine-Tuning In-House Large Language Models to Infer Differential Diagnosis from Radiology Reports [1.5972172622800358]
本研究は, 放射線学報告と鑑別診断に適した社内LPMの開発パイプラインを提案する。
GPT-4と同等の92.1%のF1スコアが得られた。
論文 参考訳(メタデータ) (2024-10-11T20:16:25Z) - Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Multimodal Models [146.18107944503436]
Molmoは、オープンネスのクラスで最先端のVLMの新たなファミリーである。
私たちの重要なイノベーションは、人間のアノテーションから収集された、新しくて詳細な画像キャプションデータセットです。
近い将来、モデルウェイト、キャプション、微調整データ、ソースコードをすべてリリースする予定です。
論文 参考訳(メタデータ) (2024-09-25T17:59:51Z) - Large Language Models versus Classical Machine Learning: Performance in COVID-19 Mortality Prediction Using High-Dimensional Tabular Data [0.0]
本研究の目的は、新型コロナウイルスによる死亡率の予測において、古典的機械学習モデル(CML)と大規模言語モデル(LLM)のパフォーマンスを評価し、比較することである。
我々は4つの病院で収集された9,134人の新型コロナウイルス患者のデータを分析した。
論文 参考訳(メタデータ) (2024-09-02T14:51:12Z) - Clustering and Ranking: Diversity-preserved Instruction Selection through Expert-aligned Quality Estimation [56.13803674092712]
本稿では,産業に優しく,専門家に順応し,多様性に配慮した指導データ選択手法を提案する:クラスタリングとランキング(CaR)
CaRは2段階のプロセスを採用している: まず、専門家の好みに合わせた高精度(84.25%)のスコアリングモデルを使用して、命令ペアをランク付けする。
我々の実験では、CaRはAlpacaのITデータのわずか1.96%を効率よく選択したが、結果のAlpaCaRモデルはGPT-4の評価において平均32.1%の精度でAlpacaのパフォーマンスを上回った。
論文 参考訳(メタデータ) (2024-02-28T09:27:29Z) - ExaRanker-Open: Synthetic Explanation for IR using Open-Source LLMs [60.81649785463651]
ExaRanker-Openを導入し、オープンソース言語モデルを適用して、説明を生成する。
以上の結果から,LLMのサイズが大きくなるにつれて,説明の組み込みが神経ランク付けを継続的に促進することが明らかとなった。
論文 参考訳(メタデータ) (2024-02-09T11:23:14Z) - Comparing GPT-4 and Open-Source Language Models in Misinformation
Mitigation [6.929834518749884]
GPT-4は、この領域では強いことが知られているが、クローズドソースであり、潜在的に高価であり、異なるバージョン間で不安定を示すことができる。
我々は、Zephyr-7bが、一般的なアプローチの重要な制限を克服し、一貫した代替手段を提供することを示す。
そして、GPT-3.5が不安定な性能を示し、この非常に広く使われているモデルが誤情報検出の誤った結果をもたらす可能性があることを強調した。
論文 参考訳(メタデータ) (2024-01-12T22:27:25Z) - General-Purpose vs. Domain-Adapted Large Language Models for Extraction of Structured Data from Chest Radiology Reports [5.953255276042551]
ドメイン適応言語モデル(RadLing)と汎用LLM(GPT-4)を用いたシステムの比較
3人の放射線学者が1399の胸部XRレポート(900のトレーニング、499のテスト)の振り返りデータセットに注釈を付け、44の関連CDEにマッピングした。
RadLingのドメイン適応型埋め込みは特徴抽出において改善され、軽量マッパーはCDEの割り当てにおいてf1スコアが向上した。
論文 参考訳(メタデータ) (2023-11-28T20:34:40Z) - CXR-LLAVA: a multimodal large language model for interpreting chest
X-ray images [3.0757789554622597]
本研究の目的は,胸部X線画像(CXR)を解釈するためのオープンソースのマルチモーダル大言語モデル(CXR-LLAVA)を開発することである。
トレーニングでは,592,580個のCXRを収集し,そのうち374,881個のX線写真異常のラベルが得られた。
主な病理所見に対する診断成績と,ヒト放射線技師による放射線学的報告の受容性について検討した。
論文 参考訳(メタデータ) (2023-10-22T06:22:37Z) - ExtractGPT: Exploring the Potential of Large Language Models for Product Attribute Value Extraction [52.14681890859275]
電子商取引プラットフォームは、属性と値のペアという形で構造化された製品データを必要とする。
BERTベースの抽出法では,タスク固有の大量のトレーニングデータを必要とする。
本稿では,大規模言語モデル (LLM) を,より訓練的かつ堅牢な代替手段として活用することを検討する。
論文 参考訳(メタデータ) (2023-10-19T07:39:00Z) - How Far Can Camels Go? Exploring the State of Instruction Tuning on Open
Resources [117.6496550359768]
この研究は、オープンな命令追従データセットにおける命令チューニング言語モデルの最近の進歩を探求する。
我々は、12の命令データセットに基づいて訓練された6.7Bから65Bのパラメータを含む、命令調整されたモデルの大規模なセットを提供する。
それらの事実的知識、推論、多言語性、コーディング、そしてその後に続くオープン・エンド・インストラクションに基づいて評価する。
論文 参考訳(メタデータ) (2023-06-07T19:59:23Z) - Chest x-ray automated triage: a semiologic approach designed for
clinical implementation, exploiting different types of labels through a
combination of four Deep Learning architectures [83.48996461770017]
本研究では,異なる畳み込みアーキテクチャの後期融合に基づく深層学習手法を提案する。
公開胸部x線画像と機関アーカイブを組み合わせたトレーニングデータセットを4つ構築した。
4つの異なるディープラーニングアーキテクチャをトレーニングし、それらのアウトプットとレイトフュージョン戦略を組み合わせることで、統一されたツールを得ました。
論文 参考訳(メタデータ) (2020-12-23T14:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。