論文の概要: OrthoInsight: Rib Fracture Diagnosis and Report Generation Based on Multi-Modal Large Models
- arxiv url: http://arxiv.org/abs/2507.13993v2
- Date: Sat, 26 Jul 2025 06:47:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 14:15:47.032168
- Title: OrthoInsight: Rib Fracture Diagnosis and Report Generation Based on Multi-Modal Large Models
- Title(参考訳): OrthoInsight: マルチモーダル大モデルに基づくリブ破壊診断と報告生成
- Authors: Ningyong Wu, Jinzhi Wang, Wenhong Zhao, Chenzhan Yu, Zhigang Xiu, Duwei Dai,
- Abstract要約: 骨折診断と報告生成のための多モード深層学習フレームワークOrthoInsightを提案する。
骨折検出のためのYOLOv9モデル、臨床コンテキストを検索するための医療知識グラフ、診断レポートを生成するための微調整されたLLaVA言語モデルを統合する。
28,675枚のCT画像と専門家の報告から評価し、診断精度、コンテンツ完全性、論理的コヒーレンス、臨床ガイダンス値にまたがる高いパフォーマンスを平均4.28で達成している。
- 参考スコア(独自算出の注目度): 0.49478969093606673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The growing volume of medical imaging data has increased the need for automated diagnostic tools, especially for musculoskeletal injuries like rib fractures, commonly detected via CT scans. Manual interpretation is time-consuming and error-prone. We propose OrthoInsight, a multi-modal deep learning framework for rib fracture diagnosis and report generation. It integrates a YOLOv9 model for fracture detection, a medical knowledge graph for retrieving clinical context, and a fine-tuned LLaVA language model for generating diagnostic reports. OrthoInsight combines visual features from CT images with expert textual data to deliver clinically useful outputs. Evaluated on 28,675 annotated CT images and expert reports, it achieves high performance across Diagnostic Accuracy, Content Completeness, Logical Coherence, and Clinical Guidance Value, with an average score of 4.28, outperforming models like GPT-4 and Claude-3. This study demonstrates the potential of multi-modal learning in transforming medical image analysis and providing effective support for radiologists.
- Abstract(参考訳): 医療画像データの量の増加により、特に胸骨骨折などの筋肉骨格損傷に対して、CTスキャンで一般的に検出される自動診断ツールの必要性が高まっている。
手動による解釈は時間がかかり、エラーが発生しやすい。
骨折診断と報告生成のための多モード深層学習フレームワークOrthoInsightを提案する。
骨折検出のためのYOLOv9モデル、臨床コンテキストを検索するための医療知識グラフ、診断レポートを生成するための微調整されたLLaVA言語モデルを統合する。
OrthoInsightは、CT画像の視覚的特徴と専門家のテキストデータを組み合わせて、臨床的に有用なアウトプットを提供する。
28,675枚のCT画像と専門家の報告に基づいて評価され、診断精度、コンテンツ完全性、論理的コヒーレンス、臨床ガイダンス値にまたがって高いパフォーマンスを達成し、平均スコアは4.28で、GPT-4やClaude-3などのモデルよりも優れていた。
本研究は, 医用画像解析の変換におけるマルチモーダル学習の可能性を示し, 放射線技師に効果的な支援を提供する。
関連論文リスト
- Vision-Language Models for Acute Tuberculosis Diagnosis: A Multimodal Approach Combining Imaging and Clinical Data [0.0]
本研究では,SIGLIPとGemma-3bアーキテクチャを併用したVLM(Vision-Language Model)を提案する。
VLMは胸部X線からの視覚データを臨床コンテキストと組み合わせて、詳細なコンテキスト認識診断レポートを生成する。
結石,空洞,結節などの急性TBの病態は,高い精度とリコールで検出された。
論文 参考訳(メタデータ) (2025-03-17T14:08:35Z) - Abn-BLIP: Abnormality-aligned Bootstrapping Language-Image Pre-training for Pulmonary Embolism Diagnosis and Report Generation from CTPA [3.1001390303501153]
Abn-BLIPは放射線診断の精度と包括性を生成するために異常所見の整合を図った高度な診断モデルである。
以上の結果から,Abn-BLIPは最先端の医療ビジョン言語モデルおよび3Dレポート生成手法よりも精度および臨床関連性が高いことがわかった。
論文 参考訳(メタデータ) (2025-03-03T20:13:39Z) - Large-scale and Fine-grained Vision-language Pre-training for Enhanced CT Image Understanding [17.783231335173486]
解剖学的CT画像解釈のための細粒度視覚言語モデル(fVLM)を提案する。
しかし、微粒なアライメントは、かなり偽陰性な課題に直面している。
今回,69,086例のCT画像と報告データをもとに,これまでで最大のCTデータセットを収集した。
論文 参考訳(メタデータ) (2025-01-24T14:50:48Z) - MvKeTR: Chest CT Report Generation with Multi-View Perception and Knowledge Enhancement [1.6355783973385114]
多視点認識知識強化型TansfoRmer(MvKeTR)
複数の解剖学的ビューから診断情報を効果的に合成するために、ビューアウェアのMVPAを提案する。
クエリボリュームに基づいて、最も類似したレポートを取得するために、Cross-Modal Knowledge Enhancer (CMKE) が考案されている。
論文 参考訳(メタデータ) (2024-11-27T12:58:23Z) - 3D-CT-GPT: Generating 3D Radiology Reports through Integration of Large Vision-Language Models [51.855377054763345]
本稿では,VQAに基づく医用視覚言語モデルである3D-CT-GPTについて紹介する。
パブリックデータセットとプライベートデータセットの両方の実験により、3D-CT-GPTはレポートの正確さと品質という点で既存の手法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2024-09-28T12:31:07Z) - CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios [53.94122089629544]
我々は,CT-GLIP(Grounded Language- Image Pretraining with CT scans)を導入する。
本手法は,104臓器にわたる17,702症例を対象に,44,011例の臓器レベルの視覚テキストペアからなるマルチモーダルCTデータセットを用いて訓練し,自然言語を用いて臓器と異常をゼロショットで識別できることを実証した。
論文 参考訳(メタデータ) (2024-04-23T17:59:01Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - Beyond Images: An Integrative Multi-modal Approach to Chest X-Ray Report
Generation [47.250147322130545]
画像からテキストまでの放射線学レポート生成は,医療画像の発見を記述した放射線学レポートを自動生成することを目的としている。
既存の方法の多くは画像データのみに焦点をあてており、他の患者情報は放射線科医に公開されていない。
胸部X線レポートを生成するための多モードディープニューラルネットワークフレームワークを,非構造的臨床ノートとともにバイタルサインや症状などの構造化された患者データを統合することで提案する。
論文 参考訳(メタデータ) (2023-11-18T14:37:53Z) - An Empirical Analysis for Zero-Shot Multi-Label Classification on
COVID-19 CT Scans and Uncurated Reports [0.5527944417831603]
パンデミックは、医学検査の増加により、放射線学の報告を含む、膨大な構造化されていないデータのリポジトリに繋がった。
新型コロナウイルスの自動診断に関するこれまでの研究は、CT(Computed tomography)スキャンと比較して精度が低いにもかかわらず、主にX線画像に焦点を当てていた。
本研究では,病院の非構造データを活用し,CTスキャンによって提供される細かな細部を利用して,対照的な視覚言語学習に基づくゼロショット多ラベル分類を行う。
論文 参考訳(メタデータ) (2023-09-04T17:58:01Z) - A Transformer-based representation-learning model with unified
processing of multimodal input for clinical diagnostics [63.106382317917344]
本稿では,マルチモーダル入力を統一的に処理する臨床診断支援として,トランスフォーマーを用いた表現学習モデルについて報告する。
統一モデルは, 肺疾患の同定において, 画像のみのモデル, 非統一型マルチモーダル診断モデルより優れていた。
論文 参考訳(メタデータ) (2023-06-01T16:23:47Z) - Diagnosis of Coronavirus Disease 2019 (COVID-19) with Structured Latent
Multi-View Representation Learning [48.05232274463484]
最近、コロナウイルス病2019(COVID-19)の流行は世界中で急速に広まっている。
多くの患者と医師の重労働のために、機械学習アルゴリズムによるコンピュータ支援診断が緊急に必要である。
本研究では,CT画像から抽出した一連の特徴を用いて,COVID-19の診断を行うことを提案する。
論文 参考訳(メタデータ) (2020-05-06T15:19:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。