論文の概要: Using Large Language Models To Translate Machine Results To Human Results
- arxiv url: http://arxiv.org/abs/2512.24518v1
- Date: Tue, 30 Dec 2025 23:32:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.514686
- Title: Using Large Language Models To Translate Machine Results To Human Results
- Title(参考訳): 機械の結果を人間に翻訳する大規模言語モデル
- Authors: Trishna Niraula, Jonathan Stubblefield,
- Abstract要約: 本研究では,胸部X線画像の異常検出にYOLOv5とYOLOv8を併用したパイプラインと,大規模言語モデル(LLM)を用いて,自然言語ラジオロジーレポートを生成する。
その結果、AIと人的報告のセマンティックな類似性が強く、人間による評価ではGPT-4は明快さ(4.88/5)に優れるが、自然な筆記フロー(2.81/5)では低いスコアを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Artificial intelligence (AI) has transformed medical imaging, with computer vision (CV) systems achieving state-of-the-art performance in classification and detection tasks. However, these systems typically output structured predictions, leaving radiologists responsible for translating results into full narrative reports. Recent advances in large language models (LLMs), such as GPT-4, offer new opportunities to bridge this gap by generating diagnostic narratives from structured findings. This study introduces a pipeline that integrates YOLOv5 and YOLOv8 for anomaly detection in chest X-ray images with a large language model (LLM) to generate natural-language radiology reports. The YOLO models produce bounding-box predictions and class labels, which are then passed to the LLM to generate descriptive findings and clinical summaries. YOLOv5 and YOLOv8 are compared in terms of detection accuracy, inference latency, and the quality of generated text, as measured by cosine similarity to ground-truth reports. Results show strong semantic similarity between AI and human reports, while human evaluation reveals GPT-4 excels in clarity (4.88/5) but exhibits lower scores for natural writing flow (2.81/5), indicating that current systems achieve clinical accuracy but remain stylistically distinguishable from radiologist-authored text.
- Abstract(参考訳): 人工知能(AI)は医療イメージングを変革し、コンピュータビジョン(CV)システムは、分類と検出タスクにおける最先端のパフォーマンスを達成する。
しかしながら、これらのシステムは概して構造化された予測を出力し、その結果を完全な物語報告に翻訳する責任を持つ放射線学者を残している。
GPT-4のような大規模言語モデル(LLM)の最近の進歩は、構造化された結果から診断的物語を生成することによって、このギャップを埋める新たな機会を提供する。
本研究では,胸部X線画像の異常検出にYOLOv5とYOLOv8を併用したパイプラインと,大規模言語モデル(LLM)を用いて,自然言語ラジオロジーレポートを生成する。
YOLOモデルはバウンディングボックス予測とクラスラベルを生成し、LLMに渡されて記述的発見と臨床要約を生成する。
YOLOv5 と YOLOv8 は、検出精度、推論遅延、生成したテキストの品質で比較され、地中真実の報告とコサインの類似性によって測定される。
人間による評価ではGPT-4は明快さ(4.88/5)が優れているが、自然な筆記フロー(2.81/5)は低いスコアを示しており、現在のシステムは臨床的に正確だが、放射線学者が作成したテキストとスタイリスティックに区別できる。
関連論文リスト
- Bridging Vision and Language: Optimal Transport-Driven Radiology Report Generation via LLMs [4.273291010923853]
大規模言語モデル(LLM)は、様々な領域で顕著な性能を示している。
本稿では, 画像特徴を報告から抽出した疾患ラベルと整合させるため, OTDRG(Optimal Transport-Driven Radiology Report Generation)を提案する。
OTDRGは、自然言語生成(NLG)と臨床効果(CE)の両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-07-05T05:48:48Z) - RadAlign: Advancing Radiology Report Generation with Vision-Language Concept Alignment [10.67889367763112]
RadAlignは、視覚言語モデルの予測精度と大きな言語モデルの推論能力を組み合わせた、新しいフレームワークである。
本フレームワークは, 幻覚の低減, 自動医用画像の進歩, 予測AIと生成AIの統合による報告分析を両立させながら, 強力な臨床解釈可能性を維持している。
論文 参考訳(メタデータ) (2025-01-13T17:55:32Z) - Generative causal testing to bridge data-driven models and scientific theories in language neuroscience [82.995061475971]
脳における言語選択性の簡潔な説明を生成するためのフレームワークである生成因果テスト(GCT)を提案する。
GCTは機能的選択性に類似した脳領域の細粒度の違いを識別できることを示す。
論文 参考訳(メタデータ) (2024-10-01T15:57:48Z) - CXR-Agent: Vision-language models for chest X-ray interpretation with uncertainty aware radiology reporting [0.0]
胸部X線解釈のための基礎的視覚言語モデルとして, 一般に公開されている技術の現状を評価した。
視覚言語モデルは、しばしば自信のある言語と幻覚し、臨床解釈を遅くする。
我々は,CheXagentの線形プローブとBioViL-Tのフレーズグラウンドティングツールを用いて,エージェントベースの視覚言語によるレポート生成手法を開発した。
論文 参考訳(メタデータ) (2024-07-11T18:39:19Z) - RaTEScore: A Metric for Radiology Report Generation [59.37561810438641]
本稿では,Radiological Report (Text) Evaluation (RaTEScore) として,新しい実体認識尺度を提案する。
RaTEScoreは、診断結果や解剖学的詳細などの重要な医療機関を強調し、複雑な医学的同義語に対して堅牢であり、否定表現に敏感である。
我々の評価は、RaTEScoreが既存の指標よりも人間の嗜好とより密接に一致していることを示し、確立された公開ベンチマークと、新たに提案したRaTE-Evalベンチマークの両方で検証した。
論文 参考訳(メタデータ) (2024-06-24T17:49:28Z) - The current status of large language models in summarizing radiology report impressions [13.402769727597812]
大きな言語モデル(LLMs)が放射線学レポートの印象を要約する効果は、まだ不明である。
北京大学医学部附属病院からCT,PET-CT,超音波の3種類の放射線学報告を収集した。
本報告では,ゼロショット,ワンショット,3ショットのプロンプトを完全な実例で構築し,インプレッションを生成する。
論文 参考訳(メタデータ) (2024-06-04T09:23:30Z) - Cross-Modal Causal Intervention for Medical Report Generation [107.76649943399168]
放射線医学報告生成(RRG)は, コンピュータ支援診断と薬剤指導に不可欠である。
視覚言語的バイアスによる急激な相関により、正確な病変記述の生成は依然として困難である。
我々はCrossModal Causal Representation Learning (CMCRL)という2段階のフレームワークを提案する。
IU-XrayとMIMIC-CXRの実験により、我々のCMCRLパイプラインは最先端の手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2023-03-16T07:23:55Z) - Medical Image Captioning via Generative Pretrained Transformers [57.308920993032274]
我々は、Show-Attend-Tell と GPT-3 という2つの言語モデルを組み合わせて、包括的で記述的な放射線学記録を生成する。
提案モデルは、Open-I、MIMIC-CXR、汎用MS-COCOの2つの医療データセットで検証される。
論文 参考訳(メタデータ) (2022-09-28T10:27:10Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。