論文の概要: Multimodal system for skin cancer detection
- arxiv url: http://arxiv.org/abs/2601.14822v1
- Date: Wed, 21 Jan 2026 09:50:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.321615
- Title: Multimodal system for skin cancer detection
- Title(参考訳): 皮膚がん検出のためのマルチモーダルシステム
- Authors: Volodymyr Sydorskyi, Igor Krashenyi, Oleksii Yakubenko,
- Abstract要約: 本研究では,従来の画像を用いたマルチモーダルメラノーマ検出システムを提案する。
画像とメタデータ処理を組み合わせたマルチモーダルニューラルネットワークを採用し、メタデータの有無に関わらず2ステップモデルをサポートする。
3段階のパイプラインは、アルゴリズムの強化とパフォーマンスの向上によって予測をさらに洗練する。
- 参考スコア(独自算出の注目度): 0.764671395172401
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Melanoma detection is vital for early diagnosis and effective treatment. While deep learning models on dermoscopic images have shown promise, they require specialized equipment, limiting their use in broader clinical settings. This study introduces a multi-modal melanoma detection system using conventional photo images, making it more accessible and versatile. Our system integrates image data with tabular metadata, such as patient demographics and lesion characteristics, to improve detection accuracy. It employs a multi-modal neural network combining image and metadata processing and supports a two-step model for cases with or without metadata. A three-stage pipeline further refines predictions by boosting algorithms and enhancing performance. To address the challenges of a highly imbalanced dataset, specific techniques were implemented to ensure robust training. An ablation study evaluated recent vision architectures, boosting algorithms, and loss functions, achieving a peak Partial ROC AUC of 0.18068 (0.2 maximum) and top-15 retrieval sensitivity of 0.78371. Results demonstrate that integrating photo images with metadata in a structured, multi-stage pipeline yields significant performance improvements. This system advances melanoma detection by providing a scalable, equipment-independent solution suitable for diverse healthcare environments, bridging the gap between specialized and general clinical practices.
- Abstract(参考訳): メラノーマは早期診断と治療に不可欠である。
皮膚内視鏡画像の深層学習モデルは将来性を示しているが、専門的な機器が必要であり、より広い臨床環境での使用を制限する。
本研究では,従来の画像を用いたマルチモーダルメラノーマ検出システムを提案する。
本システムでは,画像データと患者の人口統計や病変特性などの表形式のメタデータを統合し,検出精度を向上させる。
画像とメタデータ処理を組み合わせたマルチモーダルニューラルネットワークを採用し、メタデータの有無に関わらず2ステップモデルをサポートする。
3段階のパイプラインは、アルゴリズムの強化とパフォーマンスの向上によって予測をさらに洗練する。
高度に不均衡なデータセットの課題に対処するため、堅牢なトレーニングを保証するために特定のテクニックが実装された。
アブレーション研究では、最近の視覚アーキテクチャ、強化アルゴリズム、損失関数を評価し、ピーク部分ROC AUCは0.18068(0.2max)、トップ15検索感度は0.78371に達した。
その結果、構造化されたマルチステージパイプラインに写真イメージとメタデータを統合することで、大幅なパフォーマンス向上が達成された。
このシステムは、多様な医療環境に適したスケーラブルで機器に依存しないソリューションを提供し、専門的および一般的な臨床実践のギャップを埋めることによってメラノーマの検出を促進する。
関連論文リスト
- Lightweight Relational Embedding in Task-Interpolated Few-Shot Networks for Enhanced Gastrointestinal Disease Classification [0.0]
大腸癌の検出は、患者の生存率を高めるために重要である。
大腸内視鏡は、適切な高品質の内視鏡画像を取得することに依存する。
Few-Shot Learning アーキテクチャにより、我々のモデルは、目に見えないきめ細かな内視鏡画像パターンに迅速に適応できる。
精度は90.1%,精度は0.845,リコールは0.942,F1スコアは0.891であった。
論文 参考訳(メタデータ) (2025-05-30T16:54:51Z) - Evaluation of Vision Transformers for Multimodal Image Classification: A Case Study on Brain, Lung, and Kidney Tumors [0.0]
この研究は、MRIおよびCTスキャンのいくつかのデータセットにおいて、Swin TransformerやMaxViTを含むVision Transformersアーキテクチャのパフォーマンスを評価する。
その結果、Swin Transformerは高い精度を示し、個々のデータセットの平均で99%、組み合わせたデータセットで99.4%の精度を実現した。
論文 参考訳(メタデータ) (2025-02-08T10:35:51Z) - A Unified Model for Compressed Sensing MRI Across Undersampling Patterns [69.19631302047569]
様々な計測アンサンプパターンと画像解像度に頑健な統合MRI再構成モデルを提案する。
我々のモデルは、拡散法よりも600$times$高速な推論で、最先端CNN(End-to-End VarNet)の4dBでSSIMを11%改善し、PSNRを4dB改善する。
論文 参考訳(メタデータ) (2024-10-05T20:03:57Z) - Multiscale Latent Diffusion Model for Enhanced Feature Extraction from Medical Images [5.395912799904941]
CTスキャナーモデルと取得プロトコルのバリエーションは、抽出した放射能特性に有意な変動をもたらす。
LTDiff++は医療画像の特徴抽出を強化するために設計されたマルチスケール潜在拡散モデルである。
論文 参考訳(メタデータ) (2024-10-05T02:13:57Z) - Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。
提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。
医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-19T09:28:19Z) - Rapid hyperspectral photothermal mid-infrared spectroscopic imaging from
sparse data for gynecologic cancer tissue subtyping [3.550171634694342]
ミドル赤外線(Mid-Infrared、MIR)は、ラベルなし、生化学的に定量的な技術である。
この研究は、MIR光熱画像への新しいアプローチを示し、その速度を桁違いに向上させる。
論文 参考訳(メタデータ) (2024-02-28T00:57:35Z) - Beyond Images: An Integrative Multi-modal Approach to Chest X-Ray Report
Generation [47.250147322130545]
画像からテキストまでの放射線学レポート生成は,医療画像の発見を記述した放射線学レポートを自動生成することを目的としている。
既存の方法の多くは画像データのみに焦点をあてており、他の患者情報は放射線科医に公開されていない。
胸部X線レポートを生成するための多モードディープニューラルネットワークフレームワークを,非構造的臨床ノートとともにバイタルサインや症状などの構造化された患者データを統合することで提案する。
論文 参考訳(メタデータ) (2023-11-18T14:37:53Z) - Negligible effect of brain MRI data preprocessing for tumor segmentation [36.89606202543839]
我々は3つの公開データセットの実験を行い、ディープニューラルネットワークにおける異なる前処理ステップの効果を評価する。
その結果、最も一般的な標準化手順は、ネットワーク性能に何の価値も与えないことが示されている。
画像の規格化に伴う信号分散の低減のため,画像強度正規化手法はモデル精度に寄与しない。
論文 参考訳(メタデータ) (2022-04-11T17:29:36Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。