論文の概要: Is Open-Source There Yet? A Comparative Study on Commercial and
Open-Source LLMs in Their Ability to Label Chest X-Ray Reports
- arxiv url: http://arxiv.org/abs/2402.12298v1
- Date: Mon, 19 Feb 2024 17:23:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 15:24:31.267882
- Title: Is Open-Source There Yet? A Comparative Study on Commercial and
Open-Source LLMs in Their Ability to Label Chest X-Ray Reports
- Title(参考訳): オープンソースはまだ存在するか?
胸部X線検査における商業用LCMとオープンソース用LCMの比較検討
- Authors: Felix J. Dorfner, Liv J\"urgensen, Leonhard Donle, Fares Al Mohamad,
Tobias R. Bodenmann, Mason C. Cleveland, Felix Busch, Lisa C. Adams, James
Sato, Thomas Schultz, Albert E. Kim, Jameson Merkow, Keno K. Bressem,
Christopher P. Bridge
- Abstract要約: GPT-4はゼロショットレポートラベリングにおいてオープンソースモデルよりも優れているが、少数ショットプロンプトの実装はGPT-4と同等のオープンソースモデルをもたらす可能性がある。
このことは、オープンソースモデルは、放射線学レポート分類のタスクにおいて、GPT-4に代わるパフォーマンスとプライバシ保護の代替となる可能性があることを示している。
- 参考スコア(独自算出の注目度): 0.8553482972179836
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Introduction: With the rapid advances in large language models (LLMs), there
have been numerous new open source as well as commercial models. While recent
publications have explored GPT-4 in its application to extracting information
of interest from radiology reports, there has not been a real-world comparison
of GPT-4 to different leading open-source models.
Materials and Methods: Two different and independent datasets were used. The
first dataset consists of 540 chest x-ray reports that were created at the
Massachusetts General Hospital between July 2019 and July 2021. The second
dataset consists of 500 chest x-ray reports from the ImaGenome dataset. We then
compared the commercial models GPT-3.5 Turbo and GPT-4 from OpenAI to the
open-source models Mistral-7B, Mixtral-8x7B, Llama2-13B, Llama2-70B,
QWEN1.5-72B and CheXbert and CheXpert-labeler in their ability to accurately
label the presence of multiple findings in x-ray text reports using different
prompting techniques.
Results: On the ImaGenome dataset, the best performing open-source model was
Llama2-70B with micro F1-scores of 0.972 and 0.970 for zero- and few-shot
prompts, respectively. GPT-4 achieved micro F1-scores of 0.975 and 0.984,
respectively. On the institutional dataset, the best performing open-source
model was QWEN1.5-72B with micro F1-scores of 0.952 and 0.965 for zero- and
few-shot prompting, respectively. GPT-4 achieved micro F1-scores of 0.975 and
0.973, respectively.
Conclusion: In this paper, we show that while GPT-4 is superior to
open-source models in zero-shot report labeling, the implementation of few-shot
prompting can bring open-source models on par with GPT-4. This shows that
open-source models could be a performant and privacy preserving alternative to
GPT-4 for the task of radiology report classification.
- Abstract(参考訳): はじめに: 大規模言語モデル(llm)の急速な進歩により、商用モデルだけでなく、多くの新しいオープンソースが生まれました。
近年のGPT-4は放射線学報告から興味のある情報を抽出する手法として研究されているが、GPT-4と他の主要なオープンソースモデルとの実際の比較は行われていない。
材料と方法: 2つの異なる独立したデータセットが使用された。
最初のデータセットは、2019年7月から2021年7月までにマサチューセッツ総合病院で作成された540個の胸部X線レポートから成っている。
第2のデータセットは、ImaGenomeデータセットから500個の胸部X線レポートで構成されている。
次に,OpenAI の商用モデル GPT-3.5 Turbo と GPT-4 と,オープンソースモデル Mistral-7B, Mixtral-8x7B, Llama2-13B, Llama2-70B, QWEN1.5-72B, CheXbert と CheXpert-labeler を比較した。
結果:ImaGenomeデータセットでは,マイクロF1スコアが0.972と0.970のLlama2-70Bが最も優れたオープンソースモデルであった。
GPT-4は、それぞれ0.975と0.984のマイクロF1スコアを達成した。
システムデータセットにおいて、最もパフォーマンスの高いオープンソースモデルは、ゼロショットプロンプトでそれぞれ0.952と0.965のマイクロf1スコアを持つqwen1.5-72bである。
GPT-4は、それぞれ0.975と0.973のマイクロF1スコアを達成した。
結論: 本論文では, GPT-4はゼロショットレポートラベリングにおいて, オープンソースモデルよりも優れているが, 少数ショットプロンプトの実装により, GPT-4と同等のオープンソースモデルを実現できることを示す。
これは、オープンソースモデルが、放射線レポート分類のタスクのためにgpt-4の代わりに、パフォーマンスとプライバシを保護できることを示している。
関連論文リスト
- ExaRanker-Open: Synthetic Explanation for IR using Open-Source LLMs [60.81649785463651]
ExaRanker-Openを導入し、オープンソース言語モデルを適用して、説明を生成する。
以上の結果から,LLMのサイズが大きくなるにつれて,説明の組み込みが神経ランク付けを継続的に促進することが明らかとなった。
論文 参考訳(メタデータ) (2024-02-09T11:23:14Z) - Comparing GPT-4 and Open-Source Language Models in Misinformation
Mitigation [6.929834518749884]
GPT-4は、この領域では強いことが知られているが、クローズドソースであり、潜在的に高価であり、異なるバージョン間で不安定を示すことができる。
我々は、Zephyr-7bが、一般的なアプローチの重要な制限を克服し、一貫した代替手段を提供することを示す。
そして、GPT-3.5が不安定な性能を示し、この非常に広く使われているモデルが誤情報検出の誤った結果をもたらす可能性があることを強調した。
論文 参考訳(メタデータ) (2024-01-12T22:27:25Z) - TinyGSM: achieving >80% on GSM8k with small language models [49.21136294791747]
小型モデルは様々な計算上の利点を提供するが、どの程度の大きさが問題解決能力にとって重要なのかは未解決のままである。
特に小学校の数学を解くために、GSM8Kベンチマークの80%の障壁を破るために必要なモデルサイズは、まだ34Bである。
我々の研究は、数学的な推論を得るための小さな言語モデルにとって、高品質なデータセットがどのように鍵となるかを研究する。
論文 参考訳(メタデータ) (2023-12-14T18:58:28Z) - General-Purpose vs. Domain-Adapted Large Language Models for Extraction of Structured Data from Chest Radiology Reports [5.953255276042551]
ドメイン適応言語モデル(RadLing)と汎用LLM(GPT-4)を用いたシステムの比較
3人の放射線学者が1399の胸部XRレポート(900のトレーニング、499のテスト)の振り返りデータセットに注釈を付け、44の関連CDEにマッピングした。
RadLingのドメイン適応型埋め込みは特徴抽出において改善され、軽量マッパーはCDEの割り当てにおいてf1スコアが向上した。
論文 参考訳(メタデータ) (2023-11-28T20:34:40Z) - Llamas Know What GPTs Don't Show: Surrogate Models for Confidence
Estimation [70.27452774899189]
大規模言語モデル(LLM)は、ユーザを誤解させるのではなく、不正な例に対して低い信頼を示さなければならない。
2023年11月現在、最先端のLLMはこれらの確率へのアクセスを提供していない。
言語的信頼度と代理モデル確率を構成する最良の方法は、12データセットすべてに対して最先端の信頼度推定を与える。
論文 参考訳(メタデータ) (2023-11-15T11:27:44Z) - CXR-LLAVA: a multimodal large language model for interpreting chest
X-ray images [3.0757789554622597]
本研究の目的は,胸部X線画像(CXR)を解釈するためのオープンソースのマルチモーダル大言語モデル(CXR-LLAVA)を開発することである。
トレーニングでは,592,580個のCXRを収集し,そのうち374,881個のX線写真異常のラベルが得られた。
主な病理所見に対する診断成績と,ヒト放射線技師による放射線学的報告の受容性について検討した。
論文 参考訳(メタデータ) (2023-10-22T06:22:37Z) - RankVicuna: Zero-Shot Listwise Document Reranking with Open-Source Large
Language Models [56.51705482912727]
ゼロショット設定で高品質なリストワイドのランク付けを行うことができる初の完全オープンソースLCMである RankVicuna を提示する。
TREC 2019と2020 Deep Learning Tracksの実験結果から,GPT-4のゼロショットリランクに匹敵する効果が得られ,GPT-3.5よりもはるかに小さい7Bパラメータモデルが得られた。
論文 参考訳(メタデータ) (2023-09-26T17:31:57Z) - How Far Can Camels Go? Exploring the State of Instruction Tuning on Open
Resources [117.6496550359768]
この研究は、オープンな命令追従データセットにおける命令チューニング言語モデルの最近の進歩を探求する。
我々は、12の命令データセットに基づいて訓練された6.7Bから65Bのパラメータを含む、命令調整されたモデルの大規模なセットを提供する。
それらの事実的知識、推論、多言語性、コーディング、そしてその後に続くオープン・エンド・インストラクションに基づいて評価する。
論文 参考訳(メタデータ) (2023-06-07T19:59:23Z) - Chest x-ray automated triage: a semiologic approach designed for
clinical implementation, exploiting different types of labels through a
combination of four Deep Learning architectures [83.48996461770017]
本研究では,異なる畳み込みアーキテクチャの後期融合に基づく深層学習手法を提案する。
公開胸部x線画像と機関アーカイブを組み合わせたトレーニングデータセットを4つ構築した。
4つの異なるディープラーニングアーキテクチャをトレーニングし、それらのアウトプットとレイトフュージョン戦略を組み合わせることで、統一されたツールを得ました。
論文 参考訳(メタデータ) (2020-12-23T14:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。