論文の概要: Towards Selection of Large Multimodal Models as Engines for Burned-in Protected Health Information Detection in Medical Images
- arxiv url: http://arxiv.org/abs/2511.02014v1
- Date: Mon, 03 Nov 2025 19:39:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:05.663772
- Title: Towards Selection of Large Multimodal Models as Engines for Burned-in Protected Health Information Detection in Medical Images
- Title(参考訳): 医療画像における焼入れ保護型健康情報検出エンジンとしての大規模マルチモーダルモデルの選択に向けて
- Authors: Tuan Truong, Guillermo Jimenez Perez, Pedro Osorio, Matthias Lenga,
- Abstract要約: 大規模マルチモーダルモデル(LMM)は,テキスト抽出と意味解析を改良する新たな機会を提供する。
その結果,LMM は従来の EasyOCR モデルに比べて優れた OCR 効果 (WER: 0.03-0.05, CER: 0.02-0.03) を示した。
- 参考スコア(独自算出の注目度): 1.2874523233023452
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The detection of Protected Health Information (PHI) in medical imaging is critical for safeguarding patient privacy and ensuring compliance with regulatory frameworks. Traditional detection methodologies predominantly utilize Optical Character Recognition (OCR) models in conjunction with named entity recognition. However, recent advancements in Large Multimodal Model (LMM) present new opportunities for enhanced text extraction and semantic analysis. In this study, we systematically benchmark three prominent closed and open-sourced LMMs, namely GPT-4o, Gemini 2.5 Flash, and Qwen 2.5 7B, utilizing two distinct pipeline configurations: one dedicated to text analysis alone and another integrating both OCR and semantic analysis. Our results indicate that LMM exhibits superior OCR efficacy (WER: 0.03-0.05, CER: 0.02-0.03) compared to conventional models like EasyOCR. However, this improvement in OCR performance does not consistently correlate with enhanced overall PHI detection accuracy. The strongest performance gains are observed on test cases with complex imprint patterns. In scenarios where text regions are well readable with sufficient contrast, and strong LMMs are employed for text analysis after OCR, different pipeline configurations yield similar results. Furthermore, we provide empirically grounded recommendations for LMM selection tailored to specific operational constraints and propose a deployment strategy that leverages scalable and modular infrastructure.
- Abstract(参考訳): 医療画像における保護健康情報(PHI)の検出は、患者のプライバシーを保護し、規制フレームワークへのコンプライアンスを確保するために重要である。
従来の検出手法は主に、名前付きエンティティ認識と合わせて光学文字認識(OCR)モデルを使用する。
しかし、LMM(Large Multimodal Model)の最近の進歩は、テキスト抽出と意味解析の強化に新たな機会をもたらす。
本研究では,GPT-4o,Gemini 2.5 Flash,Qwen 2.5 7Bの3つの著名なクローズド・オープンソースLMMを,テキスト分析専用とOCRとセマンティック分析統合の2つのパイプライン構成を用いて,系統的にベンチマークした。
その結果,LMM は従来の EasyOCR モデルに比べて優れた OCR 効果 (WER: 0.03-0.05, CER: 0.02-0.03) を示した。
しかし、このOCR性能の改善は、全体的なPHI検出精度の向上と一貫して相関しない。
複雑なインプリントパターンを持つテストケースでは,最強のパフォーマンス向上が観察される。
テキスト領域が十分なコントラストで読みやすく、OCR後のテキスト解析に強力なLMMが使用されるシナリオでは、異なるパイプライン構成が同様の結果をもたらす。
さらに、特定の運用制約に合わせたLMM選択を実証的に基礎づけたレコメンデーションを提供し、スケーラブルでモジュール化されたインフラを活用するデプロイメント戦略を提案する。
関連論文リスト
- From Promise to Practical Reality: Transforming Diffusion MRI Analysis with Fast Deep Learning Enhancement [35.368152968098194]
FastFOD-Netは、FODを優れたパフォーマンスで強化し、臨床使用のためのトレーニング/推論効率を提供するエンドツーエンドのディープラーニングフレームワークである。
この研究は、拡散MRIの強化のための深層学習に基づく手法を、より広く採用し、臨床信頼を構築することを促進する。
論文 参考訳(メタデータ) (2025-08-13T17:56:29Z) - CLARIFID: Improving Radiology Report Generation by Reinforcing Clinically Accurate Impressions and Enforcing Detailed Findings [1.515687944002438]
専門家の2段階のワークフローを反映して診断精度を直接最適化する新しいフレームワークであるCLARIFIDを提案する。
CLARIFIDは、セクション認識事前学習を通じて、FundingsからImpressionへの論理フローを学習する。
本手法は,NLGの基準値と臨床意識スコアの両方において,優れた臨床効果を達成し,既存の基準値よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-07-23T05:57:59Z) - Prompt to Polyp: Medical Text-Conditioned Image Synthesis with Diffusion Models [5.12801085802078]
テキスト記述から現実的な医療画像を生成することは、医療AIにおけるデータ不足問題に対処する大きな可能性を持っている。
本稿では,医学領域におけるテキスト・画像合成の総合的研究を行い,二つのアプローチを比較した。
臨床テキストエンコーダ,変分オートエンコーダ,クロスアテンション機構を統合したMSDMという新しいモデルを提案する。
論文 参考訳(メタデータ) (2025-05-08T18:07:16Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency [63.23935582919081]
CoT (Chain-of-Thought) は,Large Language Models (LLMs) の推論能力を大幅に向上させた。
我々は,LMMのCoT推論性能を評価する特別ベンチマークであるMME-CoTを紹介する。
我々は最先端のLMMの詳細な分析を行い、いくつかの重要な知見を明らかにした。
論文 参考訳(メタデータ) (2025-02-13T18:59:46Z) - VRPTEST: Evaluating Visual Referring Prompting in Large Multimodal
Models [19.32035955420203]
我々は,様々な視覚的参照促進戦略を用いて,LMM(Large Multimodal Models)の最初の包括的解析を行う。
人間の介入や手動ラベリングを必要とせずにLMMの精度を評価するための自動評価フレームワークを開発した。
現在のプロプライエタリモデルは一般的にオープンソースモデルよりも優れており、平均精度は22.70%向上している。
論文 参考訳(メタデータ) (2023-12-07T06:53:55Z) - Compositional Chain-of-Thought Prompting for Large Multimodal Models [46.721769077885966]
CCoT(コンポジション・チェーン・オブ・ソート)は、新規なゼロショット・オブ・ソート・プロンプト法である。
まず,Large Language Model(LLM)を用いてSGを生成し,そのSGをプロンプトに使用して応答を生成する。
提案手法は,LMMの性能向上だけでなく,一般的なマルチモーダルベンチマーク上でのLMMの性能向上にも寄与する。
論文 参考訳(メタデータ) (2023-11-27T22:23:27Z) - Lung Cancer Lesion Detection in Histopathology Images Using Graph-Based
Sparse PCA Network [93.22587316229954]
ヘマトキシリンとエオシン(H&E)で染色した組織学的肺スライドにおける癌病変の自動検出のためのグラフベーススパース成分分析(GS-PCA)ネットワークを提案する。
我々は,SVM K-rasG12D肺がんモデルから得られたH&Eスライダーの精度・リコール率,Fスコア,谷本係数,レシーバ演算子特性(ROC)の曲線下領域を用いて,提案アルゴリズムの性能評価を行った。
論文 参考訳(メタデータ) (2021-10-27T19:28:36Z) - Performance of Dual-Augmented Lagrangian Method and Common Spatial
Patterns applied in classification of Motor-Imagery BCI [68.8204255655161]
運動画像に基づく脳-コンピュータインタフェース(MI-BCI)は、神経リハビリテーションのための画期的な技術になる可能性がある。
使用する脳波信号のノイズの性質のため、信頼性の高いBCIシステムは特徴の最適化と抽出のために特別な手順を必要とする。
論文 参考訳(メタデータ) (2020-10-13T20:50:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。