論文の概要: Exploring AI-based System Design for Pixel-level Protected Health Information Detection in Medical Images
- arxiv url: http://arxiv.org/abs/2501.09552v2
- Date: Thu, 30 Jan 2025 09:31:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 15:12:03.747159
- Title: Exploring AI-based System Design for Pixel-level Protected Health Information Detection in Medical Images
- Title(参考訳): 医用画像における画素レベルの保護された健康情報検出のためのAIに基づくシステム設計の探索
- Authors: Tuan Truong, Ivo M. Baltruschat, Mark Klemens, Grit Werner, Matthias Lenga,
- Abstract要約: 3つのビジョンと言語モデル、YOLOv11、EasyOCR、GPT-4oは、3つのキーコンポーネントに対応する異なる設定でベンチマークされる。
性能は、精度、リコール、F1スコア、精度などの分類基準で評価される。
- 参考スコア(独自算出の注目度): 0.5825410941577593
- License:
- Abstract: Purpose: This study aims to evaluate different setups of an AI-based solution to detect Protected Health Information (PHI) in medical images. Materials and Methods: Text from eight PHI and eight non-PHI categories are simulated and incorporated into a curated dataset comprising 1,000 medical images across four modalities: CT, X-ray, bone scan, and MRI. The proposed PHI detection pipeline comprises three key components: text localization, extraction, and analysis. Three vision and language models, YOLOv11, EasyOCR, and GPT-4o, are benchmarked in different setups corresponding to three key components. The performance is evaluated with classification metrics, including precision, recall, F1 score, and accuracy. Results: All four setups demonstrate strong performance in detecting PHI imprints, with all metrics exceeding 0.9. The setup that utilizes YOLOv11 for text localization and GPT-4o for text extraction and analysis achieves the highest performance in PHI detection. However, this setup incurs the highest cost due to the increased number of generated tokens associated with GPT-4o model. Conversely, the setup using solely GPT-4o for the end-to-end pipeline exhibits the lowest performance but showcases the feasibility of multi-modal models in solving complex tasks. Conclusion: For optimal text localization and extraction, it is recommended to fine-tune an object detection model and utilize built-in Optical Character Recognition (OCR) software. Large language models like GPT-4o can be effectively leveraged to reason about and semantically analyze the PHI content. Although the vision capability of GPT-4o is promising for reading image crops, it remains limited for end-to-end pipeline applications with whole images.
- Abstract(参考訳): 目的:本研究の目的は,医療画像中の保護された健康情報(PHI)を検出するAIベースのソリューションのさまざまな設定を評価することである。
材料と方法:8つのPHIと8つの非PHIカテゴリのテキストは、CT、X線、骨スキャン、MRIの4つのモードにわたる1,000の医療画像からなるキュレートされたデータセットにシミュレートされ、組み込まれている。
提案するPHI検出パイプラインは,テキストのローカライゼーション,抽出,解析という3つの重要なコンポーネントから構成される。
3つのビジョンと言語モデル、YOLOv11、EasyOCR、GPT-4oは、3つのキーコンポーネントに対応する異なる設定でベンチマークされる。
性能は、精度、リコール、F1スコア、精度などの分類基準で評価される。
結果: PHIインプリントの検出における4つの設定はいずれも強い性能を示し, 測定値は0.9。
テキストローカライゼーションにYOLOv11、テキスト抽出と解析にGPT-4oを利用するセットアップは、PHI検出において最高性能を達成する。
しかし、この設定はGPT-4oモデルに付随する生成トークンの増加により、最もコストがかかる。
逆に、エンドツーエンドパイプラインにのみGPT-4oを使用するセットアップは、最低性能を示すが、複雑なタスクを解決するためのマルチモーダルモデルの実現可能性を示す。
結論:最適なテキストローカライゼーションと抽出のために,オブジェクト検出モデルを微調整し,内蔵光文字認識(OCR)ソフトウェアを利用することを推奨する。
GPT-4oのような大規模言語モデルは、PHIの内容の推論と意味解析に効果的に利用することができる。
GPT-4oの視覚能力は、画像の作物を読むことを約束しているが、画像全体を持つエンドツーエンドのパイプラインアプリケーションに限られている。
関連論文リスト
- An Early Investigation into the Utility of Multimodal Large Language Models in Medical Imaging [0.3029213689620348]
医用画像解析のためのGemini(textitgemini-1.0-pro-vision-latst)モデルとGPT-4Vモデルの可能性を探る。
Gemini AIとGPT-4Vはどちらも、まず実画像と合成画像の分類に使用され、次に入力画像の解釈と解析を行う。
本研究で紹介した早期研究は,網膜眼底鏡および肺X線像の分類と解釈を支援するMLLMの可能性についての知見を提供するものである。
論文 参考訳(メタデータ) (2024-06-02T08:29:23Z) - CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios [53.94122089629544]
我々は,CT-GLIP(Grounded Language- Image Pretraining with CT scans)を導入する。
本手法は,104臓器にわたる17,702症例を対象に,44,011例の臓器レベルの視覚テキストペアからなるマルチモーダルCTデータセットを用いて訓練し,自然言語を用いて臓器と異常をゼロショットで識別できることを実証した。
論文 参考訳(メタデータ) (2024-04-23T17:59:01Z) - DetCLIPv3: Towards Versatile Generative Open-vocabulary Object Detection [111.68263493302499]
DetCLIPv3は、オープンボキャブラリオブジェクト検出と階層ラベルの両方で優れた高性能検出器である。
DetCLIPv3は,1)Versatileモデルアーキテクチャ,2)高情報密度データ,3)効率的なトレーニング戦略の3つのコア設計によって特徴付けられる。
DetCLIPv3は、GLIPv2, GroundingDINO, DetCLIPv2をそれぞれ18.0/19.6/6 APで上回り、優れたオープン語彙検出性能を示す。
論文 参考訳(メタデータ) (2024-04-14T11:01:44Z) - Enhancing Weakly Supervised 3D Medical Image Segmentation through
Probabilistic-aware Learning [52.249748801637196]
3次元医用画像のセグメンテーションは、疾患の診断と治療計画に重要な意味を持つ課題である。
近年の深層学習の進歩は、完全に教師付き医療画像のセグメンテーションを著しく強化している。
本稿では,3次元医用画像に特化して設計された,確率的適応型弱教師付き学習パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-05T00:46:53Z) - Holistic Evaluation of GPT-4V for Biomedical Imaging [113.46226609088194]
GPT-4Vはコンピュータビジョンのための人工知能の突破口である。
GPT-4Vは,放射線学,腫瘍学,眼科,病理学など16分野にまたがって評価を行った。
以上の結果より,GPT-4Vは異常や解剖学的認識に優れていたが,診断や局所化は困難であった。
論文 参考訳(メタデータ) (2023-11-10T18:40:44Z) - GPT-4V(ision) as a Generalist Evaluator for Vision-Language Tasks [70.98062518872999]
我々は,GPT-4Vの性能評価,基本画像からテキストへの合成,高レベル画像から画像への変換,複数画像からテキストへのアライメントといったタスクに対処する能力を検証する。
特に、GPT-4Vは、様々なタスクや評価方法にまたがって人間と有望な合意を示し、マルチモーダルLCMを評価対象として持つ可能性を示している。
論文 参考訳(メタデータ) (2023-11-02T16:11:09Z) - A Systematic Evaluation of GPT-4V's Multimodal Capability for Medical
Image Analysis [87.25494411021066]
医用画像解析のためのGPT-4Vのマルチモーダル機能の評価を行った。
GPT-4Vは医用画像の理解に優れ、高品質な放射線診断レポートを生成する。
医用視覚接地の性能は大幅に改善する必要があることが判明した。
論文 参考訳(メタデータ) (2023-10-31T11:39:09Z) - Transfer Learning for the Efficient Detection of COVID-19 from
Smartphone Audio Data [6.18778092044887]
スマートフォンデータから病気を検出することは、モバイル健康(m-health)システムにおけるオープンな研究課題である。
本研究は,手作りの3種類の深層学習モデルの実験的評価である。
商用モバイルデバイス上での様々なモデルのメモリフットプリントを評価する。
論文 参考訳(メタデータ) (2023-07-06T13:19:27Z) - Deep reproductive feature generation framework for the diagnosis of
COVID-19 and viral pneumonia using chest X-ray images [0.0]
最先端の8つの深層畳み込みニューラルネットワーク(CNN)とオートエンコーダを用いた2段階特徴抽出フレームワークを提案する。
X線スキャンは4つの同じ大きさのセクションに分けられ、深層学習CNNによって分析される。
隠れた3つの層を持つオートエンコーダは、CNNの出力から生殖機能を抽出するために訓練される。
論文 参考訳(メタデータ) (2023-04-20T23:52:21Z) - PACMAN: a framework for pulse oximeter digit detection and reading in a
low-resource setting [0.42897826548373363]
新型コロナウイルスのパンデミックを受けて、患者は毎日の酸素飽和度(SpO2)とパルスレート(PR)値を健康モニタリングシステムに手動で入力する必要がある。
光文字認識(OCR)を用いた捕獲画像からの生理的価値の検出の試み
本研究の目的は,低リソース深層学習型コンピュータビジョンを用いたPACMANという新しいフレームワークを提案することである。
論文 参考訳(メタデータ) (2022-12-09T16:22:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。