論文の概要: A Hybrid AI-based and Rule-based Approach to DICOM De-identification: A Solution for the MIDI-B Challenge
- arxiv url: http://arxiv.org/abs/2509.00437v1
- Date: Sat, 30 Aug 2025 09:52:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.230956
- Title: A Hybrid AI-based and Rule-based Approach to DICOM De-identification: A Solution for the MIDI-B Challenge
- Title(参考訳): ハイブリッドAIベースとルールベースのDICOM識別アプローチ:MIDI-Bチャレンジへの解決策
- Authors: Hamideh Haghiri, Rajesh Baidya, Stefan Dvoretskii, Klaus H. Maier-Hein, Marco Nolden,
- Abstract要約: 本稿では,Digital Imaging and Communications in Medicine (DICOM)ファイルを処理するためのハイブリッド・デアイデンティティ・フレームワークを提案する。
われわれのフレームワークは、The Cancer Imaging Archive (TCIA)のベストプラクティスガイドラインで更新された、変更済みのルールベースのコンポーネントを採用している。
画像からテキストを抽出する頑健な光学文字認識(OCR)システムであるPaddleOCRと、個人識別情報(PII)と保護健康情報(PHI)を識別する微調整トランスフォーマーベースモデルであるRoBERTaが組み込まれている。
- 参考スコア(独自算出の注目度): 4.40986569501073
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ensuring the de-identification of medical imaging data is a critical step in enabling safe data sharing. This paper presents a hybrid de-identification framework designed to process Digital Imaging and Communications in Medicine (DICOM) files. Our framework adopts a modified, pre-built rule-based component, updated with The Cancer Imaging Archive (TCIA)'s best practices guidelines, as outlined in DICOM PS 3.15, for improved performance. It incorporates PaddleOCR, a robust Optical Character Recognition (OCR) system for extracting text from images, and RoBERTa, a fine-tuned transformer-based model for identifying and removing Personally Identifiable Information (PII) and Protected Health Information (PHI). Initially, the transformer-based model and the rule-based component were integrated to process for both structured data and free text. However, this coarse-grained approach did not yield optimal results. To improve performance, we refined our approach by applying the transformer model exclusively to free text, while structured data was handled only by rule-based methods. In this framework the DICOM validator dciodvfy was leveraged to ensure the integrity of DICOM files after the deID process. Through iterative refinement, including the incorporation of custom rules and private tag handling, the framework achieved a de-identification accuracy of 99.91% on the MIDI-B test dataset. The results demonstrate the effectiveness of combining rule-based compliance with AI-enabled adaptability in addressing the complex challenges of DICOM de-identification.
- Abstract(参考訳): 医療画像データの非識別化は、安全なデータ共有を可能にするための重要なステップである。
本稿では,Digital Imaging and Communications in Medicine (DICOM)ファイルを処理するためのハイブリッド・デアイデンティティ・フレームワークを提案する。
われわれのフレームワークは、DICOM PS 3.15で概説されているように、The Cancer Imaging Archive (TCIA)のベストプラクティスガイドラインを改訂した、事前構築されたルールベースのコンポーネントを採用している。
画像からテキストを抽出する堅牢な光学文字認識(OCR)システムであるPaddleOCRと、PII(Personally Identible Information)とProtected Health Information(PHI)を識別・除去する微調整トランスフォーマーベースのモデルであるRoBERTaを組み込んでいる。
当初、トランスモデルとルールベースのコンポーネントは構造化データとフリーテキストの両方を処理するために統合されていた。
しかし、この粗粒化アプローチは最適な結果には至らなかった。
提案手法は,自由テキストのみに変換器モデルを適用し,構造化データは規則に基づく手法でのみ処理する。
このフレームワークでは、DICOMバリデータdciodvfyを使用して、deIDプロセス後のDICOMファイルの整合性を保証する。
カスタムルールの導入やプライベートタグ処理を含む反復的な改良により、MIDI-Bテストデータセットで99.91%の識別精度を達成した。
その結果,規則に基づくコンプライアンスとAI対応適応性を組み合わせることで,DICOM識別の複雑な課題に対処できることが示された。
関連論文リスト
- A DICOM Image De-identification Algorithm in the MIDI-B Challenge [1.1770063763895537]
医学におけるデジタルイメージングとコミュニケーション (DICOM) フォーマットにおける医用画像の公開共有には, 脱識別が不可欠である。
MIDI-Bチャレンジは、ルールベースのDICOM画像識別アルゴリズムを、臨床用DICOM画像の大規模なデータセットを用いて評価するために編成された。
これらの標準に厳格に準拠したテストフェーズでデータセットを処理するために、ピクセルマスキング、日付シフト、日付ハッシュ、テキスト認識、テキスト置換、テキスト削除など、私たちが適用した非識別方法の詳細を説明します。
論文 参考訳(メタデータ) (2025-08-11T01:38:07Z) - Medical Image De-Identification Resources: Synthetic DICOM Data and Tools for Validation [0.10617782943195009]
患者のプライバシーを確保することは、オープンアクセスデータ共有にとって重要な課題である。
Digital Imaging and Communications in Medicine (DICOM)は、重要な臨床メタデータと広範囲に保護された健康情報(PHI)と個人識別可能な情報の両方を符号化する(PII)。
このギャップに対処するために、合成PHI/PIIを取り入れたオープンアクセス型DICOMデータセットと、画像識別のベンチマークを行うための評価フレームワークを開発した。
論文 参考訳(メタデータ) (2025-08-03T18:48:28Z) - DICOM De-Identification via Hybrid AI and Rule-Based Framework for Scalable, Uncertainty-Aware Redaction [0.0]
本稿では,ルールベースとAI駆動技術を組み合わせたハイブリッド・デアイデンティティ・フレームワークを提案する。
我々のソリューションは、医療データの特定における重要な課題に対処し、研究のための画像データのセキュアで倫理的で信頼できるリリースを支援します。
論文 参考訳(メタデータ) (2025-07-31T17:19:38Z) - Medical Image De-Identification Benchmark Challenge [1.491270549044044]
MIDI-B Challengeの目的は、DICOMイメージデIDツールのベンチマークのための標準化されたプラットフォームを提供することであった。
この課題は、PHI/PIIを挿入した、大規模で多様なマルチセンター、マルチモダリティの実際の未同定放射線画像を用いた。
10チームが挑戦のテストフェーズを完了しました。
論文 参考訳(メタデータ) (2025-07-31T14:47:20Z) - Unity in Diversity: Multi-expert Knowledge Confrontation and Collaboration for Generalizable Vehicle Re-identification [60.20318058777603]
一般化可能な車両再識別(ReID)は、微調整や再訓練を必要とせず、未知のターゲットドメインに適応可能なモデルの開発を目指している。
これまでの研究は主に、ソースドメイン間のデータ分散を調整することで、ドメイン不変の機能の抽出に重点を置いてきた。
そこで本研究では,この問題を解決するために,2段階のMulti-expert Knowledge Confrontation and Collaboration(MiKeCoCo)手法を提案する。
論文 参考訳(メタデータ) (2024-07-10T04:06:39Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。
テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2023-06-12T17:56:01Z) - Uncertainty-Aware Source-Free Adaptive Image Super-Resolution with Wavelet Augmentation Transformer [60.31021888394358]
Unsupervised Domain Adaptation (UDA)は、現実世界の超解像(SR)における領域ギャップ問題に効果的に対処できる
本稿では,画像SR(SODA-SR)のためのSOurce-free Domain Adaptationフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-31T03:14:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。