論文の概要: Exploring AI-based System Design for Pixel-level Protected Health Information Detection in Medical Images
- arxiv url: http://arxiv.org/abs/2501.09552v3
- Date: Tue, 29 Apr 2025 12:35:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 20:17:25.639293
- Title: Exploring AI-based System Design for Pixel-level Protected Health Information Detection in Medical Images
- Title(参考訳): 医用画像における画素レベルの保護された健康情報検出のためのAIに基づくシステム設計の探索
- Authors: Tuan Truong, Ivo M. Baltruschat, Mark Klemens, Grit Werner, Matthias Lenga,
- Abstract要約: 本稿では,テキスト検出,テキスト抽出,テキスト解析を含むPHI検出のためのAIベースのパイプラインを提案する。
YOLOv11、EasyOCR、GPT-4oの3つのモデルを、これらのコンポーネントに対応する異なる設定でベンチマークする。
テキストローカライゼーションのためのYOLOv11と、抽出と解析のためのGPT-4oを組み合わせることで、最良の結果が得られる。
- 参考スコア(独自算出の注目度): 0.5825410941577593
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: De-identification of medical images is a critical step to ensure privacy during data sharing in research and clinical settings. The initial step in this process involves detecting Protected Health Information (PHI), which can be found in image metadata or imprinted within image pixels. Despite the importance of such systems, there has been limited evaluation of existing AI-based solutions, creating barriers to the development of reliable and robust tools. In this study, we present an AI-based pipeline for PHI detection, comprising three key components: text detection, text extraction, and text analysis. We benchmark three models, YOLOv11, EasyOCR, and GPT-4o, across different setups corresponding to these components, evaluating the performance based on precision, recall, F1 score, and accuracy. All setups demonstrate excellent PHI detection, with all metrics exceeding 0.9. The combination of YOLOv11 for text localization and GPT-4o for extraction and analysis yields the best results. However, this setup incurs higher costs due to GPT-4o's token generation. Conversely, an end-to-end pipeline that relies solely on GPT-4o shows lower performance but highlights the potential of multimodal models for complex tasks. We recommend fine-tuning a dedicated object detection model and utilizing built-in OCR tools to achieve optimal performance and cost-effectiveness. Additionally, leveraging language models such as GPT-4o can facilitate thorough and flexible analysis of text content.
- Abstract(参考訳): 医療画像の非特定は、研究および臨床現場におけるデータ共有におけるプライバシーを確保するための重要なステップである。
このプロセスの最初のステップは保護された健康情報(PHI)の検出である。
このようなシステムの重要性にもかかわらず、既存のAIベースのソリューションの評価は限られており、信頼性が高く堅牢なツールの開発に障壁が生じる。
本研究では,テキスト検出,テキスト抽出,テキスト解析という,PHI検出のためのAIベースのパイプラインを提案する。
我々は、これらのコンポーネントに対応する異なるセットアップに対して、YOLOv11、EasyOCR、GPT-4oの3つのモデルをベンチマークし、精度、リコール、F1スコア、精度に基づいて性能を評価した。
すべてのセットアップは優れたPHI検出を示し、すべてのメトリクスは0.9を超えている。
テキストローカライゼーションのためのYOLOv11と、抽出と解析のためのGPT-4oを組み合わせることで、最良の結果が得られる。
しかし、このセットアップはGPT-4oのトークン生成によってコストが上昇する。
逆に、GPT-4oのみに依存するエンドツーエンドパイプラインは、パフォーマンスが低いが、複雑なタスクに対するマルチモーダルモデルの可能性を強調している。
我々は,専用オブジェクト検出モデルを微調整し,OCRツールを内蔵して最適な性能とコスト効率を実現することを推奨する。
さらに、GPT-4oのような言語モデルを活用することで、テキストコンテンツの完全かつ柔軟な分析が容易になる。
関連論文リスト
- Purifying, Labeling, and Utilizing: A High-Quality Pipeline for Small Object Detection [83.90563802153707]
PLUSNetは高品質のSmallオブジェクト検出フレームワークである。
上流の特徴を浄化するための階層的特徴(HFP)フレームワーク、中流トレーニングサンプルの品質を改善するための多重基準ラベル割り当て(MCLA)、下流タスクを達成するためにより効果的に情報を活用するための周波数分離ヘッド(FDHead)の3つのコンポーネントで構成されている。
論文 参考訳(メタデータ) (2025-04-29T10:11:03Z) - Privacy-Preserving in Medical Image Analysis: A Review of Methods and Applications [19.14185066631612]
レビューでは、医療画像分析におけるプライバシー保護技術の概要を概観している。
暗号化、差分プライバシー、同型暗号化、フェデレーション学習、および生成的敵ネットワークが含まれる。
診断,病理学,遠隔医療など,様々な医療画像解析タスクにおけるこれらの手法の適用について検討する。
論文 参考訳(メタデータ) (2024-12-05T06:56:06Z) - Clinical Evaluation of Medical Image Synthesis: A Case Study in Wireless Capsule Endoscopy [63.39037092484374]
本研究は,人工知能(AI)モデルを用いた医用合成データ生成の臨床評価に焦点を当てた。
本論文は,a) 医用専門家による合成画像の体系的評価のためのプロトコルを提示し,b) 高分解能WCE画像合成のための新しい変分オートエンコーダモデルであるTIDE-IIを評価する。
その結果、TIDE-IIは臨床的に関連性のあるWCE画像を生成し、データの不足に対処し、診断ツールの強化に役立つことがわかった。
論文 参考訳(メタデータ) (2024-10-31T19:48:50Z) - MIST: A Simple and Scalable End-To-End 3D Medical Imaging Segmentation Framework [1.4043931310479378]
医用イメージングツールキット(MIST)は、深層学習に基づく医用イメージングセグメンテーション手法の一貫性のあるトレーニング、テスト、評価を容易にするように設計されている。
MISTはデータ分析、前処理、評価パイプラインを標準化し、複数のアーキテクチャと損失関数を収容する。
論文 参考訳(メタデータ) (2024-07-31T05:17:31Z) - An Early Investigation into the Utility of Multimodal Large Language Models in Medical Imaging [0.3029213689620348]
医用画像解析のためのGemini(textitgemini-1.0-pro-vision-latst)モデルとGPT-4Vモデルの可能性を探る。
Gemini AIとGPT-4Vはどちらも、まず実画像と合成画像の分類に使用され、次に入力画像の解釈と解析を行う。
本研究で紹介した早期研究は,網膜眼底鏡および肺X線像の分類と解釈を支援するMLLMの可能性についての知見を提供するものである。
論文 参考訳(メタデータ) (2024-06-02T08:29:23Z) - DetCLIPv3: Towards Versatile Generative Open-vocabulary Object Detection [111.68263493302499]
DetCLIPv3は、オープンボキャブラリオブジェクト検出と階層ラベルの両方で優れた高性能検出器である。
DetCLIPv3は,1)Versatileモデルアーキテクチャ,2)高情報密度データ,3)効率的なトレーニング戦略の3つのコア設計によって特徴付けられる。
DetCLIPv3は、GLIPv2, GroundingDINO, DetCLIPv2をそれぞれ18.0/19.6/6 APで上回り、優れたオープン語彙検出性能を示す。
論文 参考訳(メタデータ) (2024-04-14T11:01:44Z) - Medical Image Data Provenance for Medical Cyber-Physical System [8.554664822046966]
本研究では,画像にデバイス指紋(DFP)を埋め込むための透かし技術を提案する。
DFPは、キャプチャ装置のユニークな特性と生画像を表すもので、保存前に生画像に埋め込まれる。
相互接続型医療システムにおける医用画像データの整合性を高めるため、画像認証のために堅牢な遠隔検証手法が導入された。
論文 参考訳(メタデータ) (2024-03-22T13:24:44Z) - Enhancing Weakly Supervised 3D Medical Image Segmentation through
Probabilistic-aware Learning [52.249748801637196]
3次元医用画像のセグメンテーションは、疾患の診断と治療計画に重要な意味を持つ課題である。
近年の深層学習の進歩は、完全に教師付き医療画像のセグメンテーションを著しく強化している。
本稿では,3次元医用画像に特化して設計された,確率的適応型弱教師付き学習パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-05T00:46:53Z) - RAD-DINO: Exploring Scalable Medical Image Encoders Beyond Text Supervision [43.05373341291021]
言語による事前学習は、画像から意味論的に意味のある特徴を抽出する貴重な方法であることが証明されている。
生体画像エンコーダRAD-DINOについて検討した。
論文 参考訳(メタデータ) (2024-01-19T17:02:17Z) - DeepArt: A Benchmark to Advance Fidelity Research in AI-Generated
Content [9.482738088610535]
本稿では,マルチモーダル大言語モデルであるGPT-4の画像合成機能について検討する。
GPT-4で生成した画像のテクスチャ特性の忠実度を評価するためのベンチマークを,手作業で描いた絵とそのAI生成画像から作成する。
我々は手動描画と対応するGPT-4生成画像のユニークなベンチマークをコンパイルし、AI生成コンテンツにおける忠実度研究を促進するための新しいタスクを導入した。
論文 参考訳(メタデータ) (2023-12-16T10:17:09Z) - Raising the Bar of AI-generated Image Detection with CLIP [50.345365081177555]
本研究の目的は、AI生成画像の普遍的検出のための事前学習された視覚言語モデル(VLM)の可能性を探ることである。
我々は,CLIP機能に基づく軽量な検出戦略を開発し,その性能を様々な難易度シナリオで検証する。
論文 参考訳(メタデータ) (2023-11-30T21:11:20Z) - Disruptive Autoencoders: Leveraging Low-level features for 3D Medical
Image Pre-training [51.16994853817024]
本研究は、3Dラジオグラフィ画像のための効果的な事前学習フレームワークの設計に焦点をあてる。
ローカルマスキングと低レベルの摂動の組み合わせによって生成された破壊から、オリジナルのイメージを再構築しようとする事前トレーニングフレームワークであるDisruptive Autoencodersを紹介する。
提案する事前トレーニングフレームワークは、複数のダウンストリームタスクでテストされ、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-07-31T17:59:42Z) - Transfer Learning for the Efficient Detection of COVID-19 from
Smartphone Audio Data [6.18778092044887]
スマートフォンデータから病気を検出することは、モバイル健康(m-health)システムにおけるオープンな研究課題である。
本研究は,手作りの3種類の深層学習モデルの実験的評価である。
商用モバイルデバイス上での様々なモデルのメモリフットプリントを評価する。
論文 参考訳(メタデータ) (2023-07-06T13:19:27Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - PACMAN: a framework for pulse oximeter digit detection and reading in a
low-resource setting [0.42897826548373363]
新型コロナウイルスのパンデミックを受けて、患者は毎日の酸素飽和度(SpO2)とパルスレート(PR)値を健康モニタリングシステムに手動で入力する必要がある。
光文字認識(OCR)を用いた捕獲画像からの生理的価値の検出の試み
本研究の目的は,低リソース深層学習型コンピュータビジョンを用いたPACMANという新しいフレームワークを提案することである。
論文 参考訳(メタデータ) (2022-12-09T16:22:28Z) - A Trustworthy Framework for Medical Image Analysis with Deep Learning [71.48204494889505]
TRUDLMIAは医用画像解析のための信頼できるディープラーニングフレームワークである。
新型コロナウイルス(COVID-19)などの公衆衛生危機への対応に深層学習の活用を推進していくため、研究者や臨床医を支援することが期待されている。
論文 参考訳(メタデータ) (2022-12-06T05:30:22Z) - Align, Reason and Learn: Enhancing Medical Vision-and-Language
Pre-training with Knowledge [68.90835997085557]
本稿では,3つの視点から構造化された医療知識を高めるための体系的かつ効果的なアプローチを提案する。
まず、視覚エンコーダと言語エンコーダの表現を知識を通して整列する。
次に,多モード融合モデルに知識を注入し,入力画像とテキストの補足として知識を用いた推論を可能にする。
第3に、知識によって引き起こされるプレテキストタスクを設計することで、画像やテキストの最も重要な情報に重点を置くよう、モデルを指導する。
論文 参考訳(メタデータ) (2022-09-15T08:00:01Z) - Ensemble of CNN classifiers using Sugeno Fuzzy Integral Technique for
Cervical Cytology Image Classification [1.6986898305640261]
頸がんの単細胞画像とスライド画像の分類を完全自動化するコンピュータ支援診断ツールを提案する。
我々は、Sugeno Fuzzy Integralを使用して、Inception v3、DenseNet-161、ResNet-34という3つの人気のあるディープラーニングモデルの意思決定スコアをアンサンブルする。
論文 参考訳(メタデータ) (2021-08-21T08:41:41Z) - Privacy-preserving medical image analysis [53.4844489668116]
医用画像におけるプライバシ保護機械学習(PPML)のためのソフトウェアフレームワークであるPriMIAを提案する。
集合型学習モデルの分類性能は,未発見データセットの人間専門家と比較して有意に良好である。
グラデーションベースのモデル反転攻撃に対するフレームワークのセキュリティを実証的に評価する。
論文 参考訳(メタデータ) (2020-12-10T13:56:00Z) - Explaining Clinical Decision Support Systems in Medical Imaging using
Cycle-Consistent Activation Maximization [112.2628296775395]
ディープニューラルネットワークを用いた臨床意思決定支援は、着実に関心が高まりつつあるトピックとなっている。
臨床医は、その根底にある意思決定プロセスが不透明で理解しにくいため、この技術の採用をためらうことが多い。
そこで我々は,より小さなデータセットであっても,分類器決定の高品質な可視化を生成するCycleGANアクティベーションに基づく,新たな意思決定手法を提案する。
論文 参考訳(メタデータ) (2020-10-09T14:39:27Z) - Towards High Performance Human Keypoint Detection [87.1034745775229]
文脈情報は人体構成や見えないキーポイントを推論する上で重要な役割を担っている。
そこで我々は,空間とチャネルのコンテキスト情報を効率的に統合するカスケードコンテキストミキサー(CCM)を提案する。
CCMの表現能力を最大化するために、我々は、強陰性な人検出マイニング戦略と共同訓練戦略を開発する。
検出精度を向上させるために,キーポイント予測を後処理するためのいくつかのサブピクセル改良手法を提案する。
論文 参考訳(メタデータ) (2020-02-03T02:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。