論文の概要: MedCutMix: A Data-Centric Approach to Improve Radiology Vision-Language Pre-training with Disease Awareness
- arxiv url: http://arxiv.org/abs/2509.16673v1
- Date: Sat, 20 Sep 2025 12:51:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.916067
- Title: MedCutMix: A Data-Centric Approach to Improve Radiology Vision-Language Pre-training with Disease Awareness
- Title(参考訳): MedCutMix: 放射線ビジョン学習のためのデータ中心的アプローチ
- Authors: Sinuo Wang, Yutong Xie, Yuyuan Liu, Qi Wu,
- Abstract要約: 我々はMedCutMixを提案する。MedCutMixは、新しいマルチモーダル病中心データ拡張法である。
本手法は,4つの下流放射線診断データセットにまたがる従来の手法を超越した手法である。
- 参考スコア(独自算出の注目度): 17.016370724018557
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Pre-training (VLP) is drawing increasing interest for its ability to minimize manual annotation requirements while enhancing semantic understanding in downstream tasks. However, its reliance on image-text datasets poses challenges due to privacy concerns and the high cost of obtaining paired annotations. Data augmentation emerges as a viable strategy to address this issue, yet existing methods often fall short of capturing the subtle and complex variations in medical data due to limited diversity. To this end, we propose MedCutMix, a novel multi-modal disease-centric data augmentation method. MedCutMix performs diagnostic sentence CutMix within medical reports and establishes the cross-attention between the diagnostic sentence and medical image to guide attentive manifold mix within the imaging modality. Our approach surpasses previous methods across four downstream radiology diagnosis datasets, highlighting its effectiveness in enhancing performance and generalizability in radiology VLP.
- Abstract(参考訳): VLP(Vision-Language Pre-Training)は、下流タスクのセマンティック理解を強化しつつ、手動のアノテーション要求を最小限にする能力への関心が高まっている。
しかし、画像テキストデータセットへの依存は、プライバシの懸念とペアアノテーションの取得のコストが高いため、課題を生じさせる。
データ拡張はこの問題に対処するための実行可能な戦略として現れるが、既存の手法では、限られた多様性のために、医療データの微妙で複雑なバリエーションを捉えていないことが多い。
そこで本研究では,MedCutMixを提案する。
MedCutMixは、診断文CutMixを医療報告内で実行し、診断文と医療画像との交差注意を確立し、画像モダリティ内の注意多様体混在を誘導する。
提案手法は,4つの下流放射線診断データセットにまたがる従来の手法を超越し,ラジオグラフィVLPの性能向上と一般化性の向上に寄与する。
関連論文リスト
- Multi-Omics Fusion with Soft Labeling for Enhanced Prediction of Distant Metastasis in Nasopharyngeal Carcinoma Patients after Radiotherapy [4.971538849792411]
オミクスデータの統合で直面する課題の1つは、予測不能の存在である。
本研究の目的は,オミクスデータに固有の相違を緩和する融合手法を開発することである。
論文 参考訳(メタデータ) (2025-02-12T05:26:59Z) - Brain-Adapter: Enhancing Neurological Disorder Analysis with Adapter-Tuning Multimodal Large Language Models [30.044545011553172]
本稿では、新たな知識を学習し、元の学習済み知識に組み込むために、余分なボトルネック層を組み込んだ新しいアプローチであるBrain-Adapterを提案する。
実験では,高い計算コストを伴わずに診断精度を大幅に向上させるため,マルチモーダルデータの統合によるアプローチの有効性を実証した。
論文 参考訳(メタデータ) (2025-01-27T18:20:49Z) - Enhancing Multimodal Medical Image Classification using Cross-Graph Modal Contrastive Learning [9.902648398258117]
本稿では,医用画像分類を改善するために,マルチモーダル構造化データを対象としたクロスグラフ・モーダルコントラスト学習フレームワークを提案する。
提案手法は、パーキンソン病(PD)データセットと公共メラノーマデータセットの2つのデータセットで評価される。
以上の結果から,CGMCLは従来手法よりも精度,解釈可能性,早期疾患予測に優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-10-23T01:25:25Z) - Uncertainty-aware Medical Diagnostic Phrase Identification and Grounding [72.18719355481052]
MRG(Messical Report Grounding)と呼ばれる新しい課題について紹介する。
MRGは医療報告から診断フレーズとその対応する接地箱を直接エンドツーエンドで識別することを目的としている。
マルチモーダルな大規模言語モデルを用いて診断フレーズを予測する,堅牢で信頼性の高いフレームワークである uMedGround を提案する。
論文 参考訳(メタデータ) (2024-04-10T07:41:35Z) - Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.54680361074882]
アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。
我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文 参考訳(メタデータ) (2024-03-19T03:59:14Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - Improving Multiple Sclerosis Lesion Segmentation Across Clinical Sites:
A Federated Learning Approach with Noise-Resilient Training [75.40980802817349]
深層学習モデルは、自動的にMS病変を分節する約束を示しているが、正確な注釈付きデータの不足は、この分野の進歩を妨げている。
我々は,MS病変の不均衡分布とファジィ境界を考慮したDecoupled Hard Label Correction(DHLC)戦略を導入する。
また,集約型中央モデルを利用したCELC(Centrally Enhanced Label Correction)戦略も導入した。
論文 参考訳(メタデータ) (2023-08-31T00:36:10Z) - Robust Multimodal Brain Tumor Segmentation via Feature Disentanglement
and Gated Fusion [71.87627318863612]
画像モダリティの欠如に頑健な新しいマルチモーダルセグメンテーションフレームワークを提案する。
我々のネットワークは、入力モードをモダリティ固有の外観コードに分解するために、特徴不整合を用いる。
我々は,BRATSチャレンジデータセットを用いて,重要なマルチモーダル脳腫瘍セグメンテーション課題に対する本手法の有効性を検証した。
論文 参考訳(メタデータ) (2020-02-22T14:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。