論文の概要: Exploring Multimodal Large Language Models for Radiology Report
Error-checking
- arxiv url: http://arxiv.org/abs/2312.13103v2
- Date: Sun, 3 Mar 2024 21:06:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 01:09:03.148764
- Title: Exploring Multimodal Large Language Models for Radiology Report
Error-checking
- Title(参考訳): 放射線診断のためのマルチモーダル大規模言語モデルの検討
- Authors: Jinge Wu, Yunsoo Kim, Eva C. Keller, Jamie Chow, Adam P. Levine,
Nikolas Pontikos, Zina Ibrahim, Paul Taylor, Michelle C. Williams, Honghan Wu
- Abstract要約: 本稿では, 放射線技師が報告の誤りを確認するための補助として, マルチモーダル大言語モデル (LLMs) を用いた最初の臨床応用の1つを提案する。
我々は、実世界の放射線学データセット(X線とCTスキャンを含む)から評価データセットを作成しました。
SIMPLEレベルでは,MIMIC-CXRとIU X線データでそれぞれ47.4%,25.4%向上した。
- 参考スコア(独自算出の注目度): 1.7217842380976978
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes one of the first clinical applications of multimodal
large language models (LLMs) as an assistant for radiologists to check errors
in their reports. We created an evaluation dataset from real-world radiology
datasets (including X-rays and CT scans). A subset of original reports was
modified to contain synthetic errors by introducing three types of mistakes:
"insert", "remove", and "substitute". The evaluation contained two difficulty
levels: SIMPLE for binary error-checking and COMPLEX for identifying error
types. At the SIMPLE level, our fine-tuned model significantly enhanced
performance by 47.4% and 25.4% on MIMIC-CXR and IU X-ray data, respectively.
This performance boost is also observed in unseen modality, CT scans, as the
model performed 19.46% better than the baseline model. The model also surpassed
the domain expert's accuracy in the MIMIC-CXR dataset by 1.67%. Notably, among
the subsets (N=21) of the test set where a clinician did not achieve the
correct conclusion, the LLaVA ensemble mode correctly identified 71.4% of these
cases. However, all models performed poorly in identifying mistake types,
underscoring the difficulty of the COMPLEX level. This study marks a promising
step toward utilizing multimodal LLMs to enhance diagnostic accuracy in
radiology. The ensemble model demonstrated comparable performance to
clinicians, even capturing errors overlooked by humans.
- Abstract(参考訳): 本稿では, 放射線技師が報告の誤りを確認するための補助として, マルチモーダル大言語モデル (LLMs) を用いた最初の臨床応用の1つを提案する。
実世界の放射線データ(x線やctスキャンを含む)から評価データセットを作成した。
オリジナルのレポートのサブセットは、"insert"、"remove"、"substitute"の3種類のミスを導入することで、合成エラーを含むように修正された。
評価には2つの難易度がある: SIMPLE for binary error-checking と COMPLEX for identify error type。
SIMPLEレベルでは,MIMIC-CXRとIU X線データでそれぞれ47.4%,25.4%向上した。
この性能向上は、ベースラインモデルよりも19.46%向上したCTスキャンにおいても観察される。
このモデルはMIMIC-CXRデータセットのドメインエキスパートの精度を1.67%上回った。
特に、臨床医が正しい結論を得られなかったテストセットのサブセット(N=21)のうち、LLaVAアンサンブルモードは71.4%を正しく同定した。
しかし、全てのモデルは誤りのタイプを特定するのに不適格であり、複雑なレベルの難しさを強調する。
本研究は, 放射線学における診断精度を高めるため, マルチモーダルLCMの利用に向けた有望なステップである。
アンサンブルモデルは臨床医に匹敵するパフォーマンスを示し、人間に見過ごされたエラーを捉えさえした。
関連論文リスト
- Leveraging Multimodal Models for Enhanced Neuroimaging Diagnostics in Alzheimer's Disease [0.7696359453385685]
本稿では,OASIS-4データセットからの構造化データに基づいて,GPT-4o-miniを用いた総合診断レポートを生成する。
学習と検証のための基礎的真実として合成レポートを用いて,データセットの画像から直接神経学的レポートを生成した。
提案法はBLEU-4スコアが0.1827、ROUGE-Lスコアが0.3719、METEORスコアが0.4163であり、臨床的に関連性があり正確な診断報告を生成する可能性を示した。
論文 参考訳(メタデータ) (2024-11-12T15:28:06Z) - Subtle Errors Matter: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。
RISEは定義済みの微妙な誤りを正しい解の部分的なトークンに注入し、エラー軽減のためにハードペアを構築する。
RISEの有効性を検証する実験では、Qwen2-7B-Instructでは、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善された。
論文 参考訳(メタデータ) (2024-10-09T07:43:38Z) - ReXErr: Synthesizing Clinically Meaningful Errors in Diagnostic Radiology Reports [1.9106067578277455]
胸部X線レポート内の代表的エラーを生成するために,大規模言語モデルを活用する手法であるReXErrを紹介する。
我々は、人間とAIが生成したレポートでよくある誤りを捉えるエラーカテゴリを開発した。
本手法は, 臨床応用可能性を維持しつつ, 多様な誤差を注入する新しいサンプリング手法を用いている。
論文 参考訳(メタデータ) (2024-09-17T01:42:39Z) - CXR-LLAVA: a multimodal large language model for interpreting chest
X-ray images [3.0757789554622597]
本研究の目的は,胸部X線画像(CXR)を解釈するためのオープンソースのマルチモーダル大言語モデル(CXR-LLAVA)を開発することである。
トレーニングでは,592,580個のCXRを収集し,そのうち374,881個のX線写真異常のラベルが得られた。
主な病理所見に対する診断成績と,ヒト放射線技師による放射線学的報告の受容性について検討した。
論文 参考訳(メタデータ) (2023-10-22T06:22:37Z) - ChatRadio-Valuer: A Chat Large Language Model for Generalizable
Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。
本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。
ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-08T17:23:17Z) - An Evaluation of Machine Learning Approaches for Early Diagnosis of
Autism Spectrum Disorder [0.0]
自閉症スペクトラム障害(Autistic Spectrum disorder、ASD)は、社会的相互作用、コミュニケーション、反復活動の困難を特徴とする神経疾患である。
本研究は,診断プロセスの強化と自動化を目的として,多様な機械学習手法を用いて重要なASD特性を同定する。
論文 参考訳(メタデータ) (2023-09-20T21:23:37Z) - Annotating and Detecting Fine-grained Factual Errors for Dialogue
Summarization [34.85353544844499]
本稿では,DIASUMFACTというファクトエラーアノテーションを用いた最初のデータセットを提案する。
文レベルのマルチラベル分類問題として,ファクト・ファクト・エラー検出を定義する。
事前学習したエンコーダ-デコーダモデルを用いた候補ランキングによる教師なしモデルENDERANKERを提案する。
論文 参考訳(メタデータ) (2023-05-26T00:18:33Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z) - Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。
我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。
その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2020-10-12T03:27:07Z) - Predicting Clinical Diagnosis from Patients Electronic Health Records
Using BERT-based Neural Networks [62.9447303059342]
医療コミュニティにおけるこの問題の重要性を示す。
本稿では,変換器 (BERT) モデルによる2方向表現の分類順序の変更について述べる。
約400万人のユニークな患者訪問からなる、大規模なロシアのEHRデータセットを使用します。
論文 参考訳(メタデータ) (2020-07-15T09:22:55Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。