Fugu-MT 論文翻訳(概要): Exploring AI-based System Design for Pixel-level Protected Health Information Detection in Medical Images

論文の概要: Exploring AI-based System Design for Pixel-level Protected Health Information Detection in Medical Images

arxiv url: http://arxiv.org/abs/2501.09552v2
Date: Thu, 30 Jan 2025 09:31:49 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-31 18:42:09.748387
Title: Exploring AI-based System Design for Pixel-level Protected Health Information Detection in Medical Images
Title（参考訳）: 医用画像における画素レベルの保護された健康情報検出のためのAIに基づくシステム設計の探索
Authors: Tuan Truong, Ivo M. Baltruschat, Mark Klemens, Grit Werner, Matthias Lenga,
Abstract要約: 3つのビジョンと言語モデル、YOLOv11、EasyOCR、GPT-4oは、3つのキーコンポーネントに対応する異なる設定でベンチマークされる。性能は、精度、リコール、F1スコア、精度などの分類基準で評価される。
参考スコア（独自算出の注目度）: 0.5825410941577593
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Purpose: This study aims to evaluate different setups of an AI-based solution to detect Protected Health Information (PHI) in medical images. Materials and Methods: Text from eight PHI and eight non-PHI categories are simulated and incorporated into a curated dataset comprising 1,000 medical images across four modalities: CT, X-ray, bone scan, and MRI. The proposed PHI detection pipeline comprises three key components: text localization, extraction, and analysis. Three vision and language models, YOLOv11, EasyOCR, and GPT-4o, are benchmarked in different setups corresponding to three key components. The performance is evaluated with classification metrics, including precision, recall, F1 score, and accuracy. Results: All four setups demonstrate strong performance in detecting PHI imprints, with all metrics exceeding 0.9. The setup that utilizes YOLOv11 for text localization and GPT-4o for text extraction and analysis achieves the highest performance in PHI detection. However, this setup incurs the highest cost due to the increased number of generated tokens associated with GPT-4o model. Conversely, the setup using solely GPT-4o for the end-to-end pipeline exhibits the lowest performance but showcases the feasibility of multi-modal models in solving complex tasks. Conclusion: For optimal text localization and extraction, it is recommended to fine-tune an object detection model and utilize built-in Optical Character Recognition (OCR) software. Large language models like GPT-4o can be effectively leveraged to reason about and semantically analyze the PHI content. Although the vision capability of GPT-4o is promising for reading image crops, it remains limited for end-to-end pipeline applications with whole images.
Abstract（参考訳）: 目的:本研究の目的は,医療画像中の保護された健康情報(PHI)を検出するAIベースのソリューションのさまざまな設定を評価することである。材料と方法:8つのPHIと8つの非PHIカテゴリのテキストは、CT、X線、骨スキャン、MRIの4つのモードにわたる1,000の医療画像からなるキュレートされたデータセットにシミュレートされ、組み込まれている。提案するPHI検出パイプラインは,テキストのローカライゼーション,抽出,解析という3つの重要なコンポーネントから構成される。 3つのビジョンと言語モデル、YOLOv11、EasyOCR、GPT-4oは、3つのキーコンポーネントに対応する異なる設定でベンチマークされる。性能は、精度、リコール、F1スコア、精度などの分類基準で評価される。結果: PHIインプリントの検出における4つの設定はいずれも強い性能を示し, 測定値は0.9。テキストローカライゼーションにYOLOv11、テキスト抽出と解析にGPT-4oを利用するセットアップは、PHI検出において最高性能を達成する。しかし、この設定はGPT-4oモデルに付随する生成トークンの増加により、最もコストがかかる。逆に、エンドツーエンドパイプラインにのみGPT-4oを使用するセットアップは、最低性能を示すが、複雑なタスクを解決するためのマルチモーダルモデルの実現可能性を示す。結論:最適なテキストローカライゼーションと抽出のために,オブジェクト検出モデルを微調整し,内蔵光文字認識(OCR)ソフトウェアを利用することを推奨する。 GPT-4oのような大規模言語モデルは、PHIの内容の推論と意味解析に効果的に利用することができる。 GPT-4oの視覚能力は、画像の作物を読むことを約束しているが、画像全体を持つエンドツーエンドのパイプラインアプリケーションに限られている。

関連論文リスト

Purifying, Labeling, and Utilizing: A High-Quality Pipeline for Small Object Detection [83.90563802153707]
PLUSNetは高品質のSmallオブジェクト検出フレームワークである。上流の特徴を浄化するための階層的特徴(HFP)フレームワーク、中流トレーニングサンプルの品質を改善するための多重基準ラベル割り当て(MCLA)、下流タスクを達成するためにより効果的に情報を活用するための周波数分離ヘッド(FDHead)の3つのコンポーネントで構成されている。
論文参考訳（メタデータ） (2025-04-29T10:11:03Z)
Zeus: Zero-shot LLM Instruction for Union Segmentation in Multimodal Medical Imaging [4.341503087761129]
マルチモーダル学習の実行には、ソリューションとして示される視覚とテキストのモダリティが含まれるが、ペア化されたビジョン言語データセットの収集は高価で時間を要する。大規模言語モデル(LLM)における多くのクロスモーダルタスクの優れた能力に触発されて、我々はこの問題に対処する新しいビジョン・LLM統合フレームワークを提案しました。
論文参考訳（メタデータ） (2025-04-09T23:33:35Z)
M3-AGIQA: Multimodal, Multi-Round, Multi-Aspect AI-Generated Image Quality Assessment [65.3860007085689]
M3-AGIQAは、AI生成画像のより人間らしく総合的な評価を可能にする包括的なフレームワークである。モデル出力を人間の判断とより密接に整合させることで、M3-AGIQAは堅牢で解釈可能な品質スコアを提供する。
論文参考訳（メタデータ） (2025-02-21T03:05:45Z)
Fake It Till You Make It: Using Synthetic Data and Domain Knowledge for Improved Text-Based Learning for LGE Detection [11.532639713283226]
臨床報告からテキストを用いてLGE検出のモデルを訓練するために,ドメイン知識に根ざした戦略を用いる。我々は、画像の向きを解剖学的に表現した方法で標準化し、空間的特徴とテキスト的特徴のより優れたアライメントを可能にする。モデル全体の性能に対する各デザインコンポーネントの貢献を明らかにするためのアブレーション研究が実施されている。
論文参考訳（メタデータ） (2025-02-18T15:30:48Z)
Privacy-Preserving in Medical Image Analysis: A Review of Methods and Applications [19.14185066631612]
レビューでは、医療画像分析におけるプライバシー保護技術の概要を概観している。暗号化、差分プライバシー、同型暗号化、フェデレーション学習、および生成的敵ネットワークが含まれる。診断,病理学,遠隔医療など,様々な医療画像解析タスクにおけるこれらの手法の適用について検討する。
論文参考訳（メタデータ） (2024-12-05T06:56:06Z)
A Multimodal Approach Combining Structural and Cross-domain Textual Guidance for Weakly Supervised OCT Segmentation [12.948027961485536]
Weakly Supervised Semantic (WSSS) アプローチを提案する。本手法は診断精度の向上と医用画像の効率向上に資する技術である。
論文参考訳（メタデータ） (2024-11-19T16:20:27Z)
Clinical Evaluation of Medical Image Synthesis: A Case Study in Wireless Capsule Endoscopy [63.39037092484374]
本研究は,人工知能(AI)モデルを用いた医用合成データ生成の臨床評価に焦点を当てた。本論文は,a) 医用専門家による合成画像の体系的評価のためのプロトコルを提示し,b) 高分解能WCE画像合成のための新しい変分オートエンコーダモデルであるTIDE-IIを評価する。その結果、TIDE-IIは臨床的に関連性のあるWCE画像を生成し、データの不足に対処し、診断ツールの強化に役立つことがわかった。
論文参考訳（メタデータ） (2024-10-31T19:48:50Z)
MIST: A Simple and Scalable End-To-End 3D Medical Imaging Segmentation Framework [1.4043931310479378]
医用イメージングツールキット(MIST)は、深層学習に基づく医用イメージングセグメンテーション手法の一貫性のあるトレーニング、テスト、評価を容易にするように設計されている。 MISTはデータ分析、前処理、評価パイプラインを標準化し、複数のアーキテクチャと損失関数を収容する。
論文参考訳（メタデータ） (2024-07-31T05:17:31Z)
An Early Investigation into the Utility of Multimodal Large Language Models in Medical Imaging [0.3029213689620348]
医用画像解析のためのGemini(textitgemini-1.0-pro-vision-latst)モデルとGPT-4Vモデルの可能性を探る。 Gemini AIとGPT-4Vはどちらも、まず実画像と合成画像の分類に使用され、次に入力画像の解釈と解析を行う。本研究で紹介した早期研究は,網膜眼底鏡および肺X線像の分類と解釈を支援するMLLMの可能性についての知見を提供するものである。
論文参考訳（メタデータ） (2024-06-02T08:29:23Z)
DetCLIPv3: Towards Versatile Generative Open-vocabulary Object Detection [111.68263493302499]
DetCLIPv3は、オープンボキャブラリオブジェクト検出と階層ラベルの両方で優れた高性能検出器である。 DetCLIPv3は,1)Versatileモデルアーキテクチャ,2)高情報密度データ,3)効率的なトレーニング戦略の3つのコア設計によって特徴付けられる。 DetCLIPv3は、GLIPv2, GroundingDINO, DetCLIPv2をそれぞれ18.0/19.6/6 APで上回り、優れたオープン語彙検出性能を示す。
論文参考訳（メタデータ） (2024-04-14T11:01:44Z)
Plaintext-Free Deep Learning for Privacy-Preserving Medical Image Analysis via Frequency Information Embedding [9.192156293063414]
本稿では,サロゲート画像を解析に用いる新しいフレームワークを提案する。このフレームワークは、周波数領域交換スタイル融合(FESF)と呼ばれる。本フレームワークは,医療画像のプライバシを効果的に保ち,DLモデルの診断精度を比較的高いレベルで維持し,各種データセットやDLベースモデルに対して有効性を示す。
論文参考訳（メタデータ） (2024-03-25T06:56:38Z)
Medical Image Data Provenance for Medical Cyber-Physical System [8.554664822046966]
本研究では,画像にデバイス指紋(DFP)を埋め込むための透かし技術を提案する。 DFPは、キャプチャ装置のユニークな特性と生画像を表すもので、保存前に生画像に埋め込まれる。相互接続型医療システムにおける医用画像データの整合性を高めるため、画像認証のために堅牢な遠隔検証手法が導入された。
論文参考訳（メタデータ） (2024-03-22T13:24:44Z)
Enhancing Weakly Supervised 3D Medical Image Segmentation through Probabilistic-aware Learning [52.249748801637196]
3次元医用画像のセグメンテーションは、疾患の診断と治療計画に重要な意味を持つ課題である。近年の深層学習の進歩は、完全に教師付き医療画像のセグメンテーションを著しく強化している。本稿では,3次元医用画像に特化して設計された,確率的適応型弱教師付き学習パイプラインを提案する。
論文参考訳（メタデータ） (2024-03-05T00:46:53Z)
RAD-DINO: Exploring Scalable Medical Image Encoders Beyond Text Supervision [43.05373341291021]
言語による事前学習は、画像から意味論的に意味のある特徴を抽出する貴重な方法であることが証明されている。生体画像エンコーダRAD-DINOについて検討した。
論文参考訳（メタデータ） (2024-01-19T17:02:17Z)
DeepArt: A Benchmark to Advance Fidelity Research in AI-Generated Content [9.482738088610535]
本稿では,マルチモーダル大言語モデルであるGPT-4の画像合成機能について検討する。 GPT-4で生成した画像のテクスチャ特性の忠実度を評価するためのベンチマークを,手作業で描いた絵とそのAI生成画像から作成する。我々は手動描画と対応するGPT-4生成画像のユニークなベンチマークをコンパイルし、AI生成コンテンツにおける忠実度研究を促進するための新しいタスクを導入した。
論文参考訳（メタデータ） (2023-12-16T10:17:09Z)
Raising the Bar of AI-generated Image Detection with CLIP [50.345365081177555]
本研究の目的は、AI生成画像の普遍的検出のための事前学習された視覚言語モデル(VLM)の可能性を探ることである。我々は,CLIP機能に基づく軽量な検出戦略を開発し,その性能を様々な難易度シナリオで検証する。
論文参考訳（メタデータ） (2023-11-30T21:11:20Z)
Clairvoyance: A Pipeline Toolkit for Medical Time Series [95.22483029602921]
時系列学習は、データ駆動の*クリニカルな意思決定支援のパンとバターである* Clairvoyanceは、ソフトウェアツールキットとして機能する、統合されたエンドツーエンドのオートMLフレンドリなパイプラインを提案する。 Clairvoyanceは、臨床時系列MLのための包括的で自動化可能なパイプラインの生存可能性を示す最初のものである。
論文参考訳（メタデータ） (2023-10-28T12:08:03Z)
Disruptive Autoencoders: Leveraging Low-level features for 3D Medical Image Pre-training [51.16994853817024]
本研究は、3Dラジオグラフィ画像のための効果的な事前学習フレームワークの設計に焦点をあてる。ローカルマスキングと低レベルの摂動の組み合わせによって生成された破壊から、オリジナルのイメージを再構築しようとする事前トレーニングフレームワークであるDisruptive Autoencodersを紹介する。提案する事前トレーニングフレームワークは、複数のダウンストリームタスクでテストされ、最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-07-31T17:59:42Z)
Transfer Learning for the Efficient Detection of COVID-19 from Smartphone Audio Data [6.18778092044887]
スマートフォンデータから病気を検出することは、モバイル健康(m-health)システムにおけるオープンな研究課題である。本研究は,手作りの3種類の深層学習モデルの実験的評価である。商用モバイルデバイス上での様々なモデルのメモリフットプリントを評価する。
論文参考訳（メタデータ） (2023-07-06T13:19:27Z)
On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。 GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文参考訳（メタデータ） (2023-04-10T17:47:39Z)
Vision-Language Modelling For Radiological Imaging and Reports In The Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文参考訳（メタデータ） (2023-03-30T18:20:00Z)
PCRLv2: A Unified Visual Information Preservation Framework for Self-supervised Pre-training in Medical Image Analysis [56.63327669853693]
本稿では,ピクセルレベルの情報を高レベルなセマンティクスに明示的にエンコードするための画素復元タスクを提案する。また,画像理解を支援する強力なツールであるスケール情報の保存についても検討する。提案されている統合SSLフレームワークは、さまざまなタスクで自己管理されたフレームワークを超越している。
論文参考訳（メタデータ） (2023-01-02T17:47:27Z)
PACMAN: a framework for pulse oximeter digit detection and reading in a low-resource setting [0.42897826548373363]
新型コロナウイルスのパンデミックを受けて、患者は毎日の酸素飽和度(SpO2)とパルスレート(PR)値を健康モニタリングシステムに手動で入力する必要がある。光文字認識(OCR)を用いた捕獲画像からの生理的価値の検出の試み本研究の目的は,低リソース深層学習型コンピュータビジョンを用いたPACMANという新しいフレームワークを提案することである。
論文参考訳（メタデータ） (2022-12-09T16:22:28Z)
A Trustworthy Framework for Medical Image Analysis with Deep Learning [71.48204494889505]
TRUDLMIAは医用画像解析のための信頼できるディープラーニングフレームワークである。新型コロナウイルス(COVID-19)などの公衆衛生危機への対応に深層学習の活用を推進していくため、研究者や臨床医を支援することが期待されている。
論文参考訳（メタデータ） (2022-12-06T05:30:22Z)
Align, Reason and Learn: Enhancing Medical Vision-and-Language Pre-training with Knowledge [68.90835997085557]
本稿では,3つの視点から構造化された医療知識を高めるための体系的かつ効果的なアプローチを提案する。まず、視覚エンコーダと言語エンコーダの表現を知識を通して整列する。次に,多モード融合モデルに知識を注入し,入力画像とテキストの補足として知識を用いた推論を可能にする。第3に、知識によって引き起こされるプレテキストタスクを設計することで、画像やテキストの最も重要な情報に重点を置くよう、モデルを指導する。
論文参考訳（メタデータ） (2022-09-15T08:00:01Z)
Ensemble of CNN classifiers using Sugeno Fuzzy Integral Technique for Cervical Cytology Image Classification [1.6986898305640261]
頸がんの単細胞画像とスライド画像の分類を完全自動化するコンピュータ支援診断ツールを提案する。我々は、Sugeno Fuzzy Integralを使用して、Inception v3、DenseNet-161、ResNet-34という3つの人気のあるディープラーニングモデルの意思決定スコアをアンサンブルする。
論文参考訳（メタデータ） (2021-08-21T08:41:41Z)
Privacy-preserving medical image analysis [53.4844489668116]
医用画像におけるプライバシ保護機械学習(PPML)のためのソフトウェアフレームワークであるPriMIAを提案する。集合型学習モデルの分類性能は,未発見データセットの人間専門家と比較して有意に良好である。グラデーションベースのモデル反転攻撃に対するフレームワークのセキュリティを実証的に評価する。
論文参考訳（メタデータ） (2020-12-10T13:56:00Z)
Explaining Clinical Decision Support Systems in Medical Imaging using Cycle-Consistent Activation Maximization [112.2628296775395]
ディープニューラルネットワークを用いた臨床意思決定支援は、着実に関心が高まりつつあるトピックとなっている。臨床医は、その根底にある意思決定プロセスが不透明で理解しにくいため、この技術の採用をためらうことが多い。そこで我々は,より小さなデータセットであっても,分類器決定の高品質な可視化を生成するCycleGANアクティベーションに基づく,新たな意思決定手法を提案する。
論文参考訳（メタデータ） (2020-10-09T14:39:27Z)
Towards High Performance Human Keypoint Detection [87.1034745775229]
文脈情報は人体構成や見えないキーポイントを推論する上で重要な役割を担っている。そこで我々は,空間とチャネルのコンテキスト情報を効率的に統合するカスケードコンテキストミキサー(CCM)を提案する。 CCMの表現能力を最大化するために、我々は、強陰性な人検出マイニング戦略と共同訓練戦略を開発する。検出精度を向上させるために,キーポイント予測を後処理するためのいくつかのサブピクセル改良手法を提案する。
論文参考訳（メタデータ） (2020-02-03T02:24:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。