論文の概要: Evaluation of GPT-4 for chest X-ray impression generation: A reader
study on performance and perception
- arxiv url: http://arxiv.org/abs/2311.06815v1
- Date: Sun, 12 Nov 2023 11:40:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 16:40:03.029296
- Title: Evaluation of GPT-4 for chest X-ray impression generation: A reader
study on performance and perception
- Title(参考訳): 胸部X線印象生成のためのGPT-4の評価:パフォーマンスと知覚に関する読者研究
- Authors: Sebastian Ziegelmayer, Alexander W. Marka, Nicolas Lenhart, Nadja
Nehls, Stefan Reischl, Felix Harder, Andreas Sauter, Marcus Makowski, Markus
Graf, and Joshua Gawlitza
- Abstract要約: GPT-4は、異なる入力モード(画像、テキスト、テキスト、画像)に基づいて胸部X線印象を生成するために使用された
本研究は, モデル入力による放射線学的評価値と一般的な自動評価値との間に有意な相違が認められた。
AIによって生成された発見の検出は、高い評価を受けた印象が人間によって書かれたと認識されるバイアスを受ける。
- 参考スコア(独自算出の注目度): 32.73124984242397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The remarkable generative capabilities of multimodal foundation models are
currently being explored for a variety of applications. Generating radiological
impressions is a challenging task that could significantly reduce the workload
of radiologists. In our study we explored and analyzed the generative abilities
of GPT-4 for Chest X-ray impression generation. To generate and evaluate
impressions of chest X-rays based on different input modalities (image, text,
text and image), a blinded radiological report was written for 25-cases of the
publicly available NIH-dataset. GPT-4 was given image, finding section or both
sequentially to generate an input dependent impression. In a blind randomized
reading, 4-radiologists rated the impressions and were asked to classify the
impression origin (Human, AI), providing justification for their decision.
Lastly text model evaluation metrics and their correlation with the
radiological score (summation of the 4 dimensions) was assessed. According to
the radiological score, the human-written impression was rated highest,
although not significantly different to text-based impressions. The automated
evaluation metrics showed moderate to substantial correlations to the
radiological score for the image impressions, however individual scores were
highly divergent among inputs, indicating insufficient representation of
radiological quality. Detection of AI-generated impressions varied by input and
was 61% for text-based impressions. Impressions classified as AI-generated had
significantly worse radiological scores even when written by a radiologist,
indicating potential bias. Our study revealed significant discrepancies between
a radiological assessment and common automatic evaluation metrics depending on
the model input. The detection of AI-generated findings is subject to bias that
highly rated impressions are perceived as human-written.
- Abstract(参考訳): マルチモーダル基礎モデルの顕著な生成能力は、現在様々なアプリケーションで検討されている。
放射線学的インプレッションの生成は、放射線科医の作業負荷を大幅に削減できる課題である。
本研究は胸部x線インプレッション生成のためのgpt-4生成能の検討と解析を行った。
異なる入力モダリティ(画像,テキスト,テキスト,画像)に基づいて胸部X線の印象を生成・評価するために,公用NIHデータセットの25ケースについて盲検放射線学レポートを作成した。
GPT-4は、入力依存的な印象を生成するために、画像、検索部または両方を順次与えた。
盲目のランダム化読解では、4人の放射線学者が印象を評価され、印象の起源(Human, AI)を分類するよう求められ、その決定を正当化した。
最後に,テキストモデル評価指標と放射線学的スコア(4次元推定)との相関について検討した。
放射線学的評価では、人間による印象は高い評価を受けたが、テキストによる印象とは大きく異なるものではない。
自動評価尺度では, 画像印象に対する放射線学的評価値とある程度の相関がみられたが, 個々のスコアは入力間で高い差があり, 放射線学的品質の表現が不十分であった。
AI生成インプレッションの検出は入力によって異なり,テキストベースインプレッションでは61%であった。
AI生成と分類された印象は、放射線学者によって書かれたときでさえ非常に悪い放射線学的スコアを示し、潜在的なバイアスを示している。
本研究は,放射線学的評価とモデル入力による一般的な自動評価指標との間に有意な相違を認めた。
AIによって生成された発見の検出は、高い評価を受けた印象が人間によって書かれたと認識されるバイアスを受ける。
関連論文リスト
- The current status of large language models in summarizing radiology report impressions [13.402769727597812]
大きな言語モデル(LLMs)が放射線学レポートの印象を要約する効果は、まだ不明である。
北京大学医学部附属病院からCT,PET-CT,超音波の3種類の放射線学報告を収集した。
本報告では,ゼロショット,ワンショット,3ショットのプロンプトを完全な実例で構築し,インプレッションを生成する。
論文 参考訳(メタデータ) (2024-06-04T09:23:30Z) - Consensus, dissensus and synergy between clinicians and specialist
foundation models in radiology report generation [32.26270073540666]
世界中の放射線技師の不足は専門家のケアへのアクセスを制限し、重労働を課している。
視覚言語モデルを用いた自動レポート生成の最近の進歩は、状況を改善するための明確な可能性を示唆している。
我々は、胸部X線写真のための最新のレポート生成システム、textitFlamingo-CXRを構築し、放射線学データに基づくよく知られた視覚言語基盤モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-30T05:38:34Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - Beyond Images: An Integrative Multi-modal Approach to Chest X-Ray Report
Generation [47.250147322130545]
画像からテキストまでの放射線学レポート生成は,医療画像の発見を記述した放射線学レポートを自動生成することを目的としている。
既存の方法の多くは画像データのみに焦点をあてており、他の患者情報は放射線科医に公開されていない。
胸部X線レポートを生成するための多モードディープニューラルネットワークフレームワークを,非構造的臨床ノートとともにバイタルサインや症状などの構造化された患者データを統合することで提案する。
論文 参考訳(メタデータ) (2023-11-18T14:37:53Z) - ChatRadio-Valuer: A Chat Large Language Model for Generalizable
Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。
本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。
ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-08T17:23:17Z) - Act Like a Radiologist: Radiology Report Generation across Anatomical Regions [50.13206214694885]
X-RGenは6つの解剖学的領域にわたる放射線学者によるレポート生成フレームワークである。
X-RGenでは、ヒトの放射線学者の行動を模倣し、これらを4つの主要な段階に分解する。
画像エンコーダの認識能力は,各領域にまたがる画像やレポートを分析して向上する。
論文 参考訳(メタデータ) (2023-05-26T07:12:35Z) - Improving Radiology Summarization with Radiograph and Anatomy Prompts [60.30659124918211]
本稿では,印象生成を促進するために,新しい解剖学的拡張型マルチモーダルモデルを提案する。
より詳しくは、まず、解剖学を抽出する一連のルールを構築し、各文にこれらのプロンプトを配置し、解剖学的特徴を強調する。
コントラスト学習モジュールを用いて、これらの2つの表現を全体レベルで整列させ、コアテンションを用いて文レベルで融合させる。
論文 参考訳(メタデータ) (2022-10-15T14:05:03Z) - Using Multi-modal Data for Improving Generalizability and Explainability
of Disease Classification in Radiology [0.0]
従来の放射線診断用データセットは、放射線診断報告と並行して放射線画像のみを提供する傾向にある。
本稿では、最近発表されたEye-Gazeデータセットを用いて、ディープラーニング(DL)分類の性能と説明可能性への影響を徹底的に研究する。
X線画像の最良の分類性能は, 自由テキスト画像と無線画像との組み合わせで達成され, 視線データによる性能向上は得られなかった。
論文 参考訳(メタデータ) (2022-07-29T16:49:05Z) - Variational Knowledge Distillation for Disease Classification in Chest
X-Rays [102.04931207504173]
我々は,X線に基づく疾患分類のための新しい確率的推論フレームワークである反復的知識蒸留(VKD)を提案する。
提案手法の有効性を,X線画像とEHRを用いた3つの公開ベンチマークデータセットに示す。
論文 参考訳(メタデータ) (2021-03-19T14:13:56Z) - Automated Radiological Report Generation For Chest X-Rays With
Weakly-Supervised End-to-End Deep Learning [17.315387269810426]
我々は12,000以上のCXRスキャンと放射線学的レポートを含むデータベースを構築した。
我々は,深層畳み込みニューラルネットワークとアテンション機構を持つリカレントネットワークに基づくモデルを開発した。
このモデルは、与えられたスキャンを自動的に認識し、レポートを生成する。
論文 参考訳(メタデータ) (2020-06-18T08:12:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。