論文の概要: On the effectiveness of multimodal privileged knowledge distillation in two vision transformer based diagnostic applications
- arxiv url: http://arxiv.org/abs/2508.06558v1
- Date: Wed, 06 Aug 2025 14:14:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.437327
- Title: On the effectiveness of multimodal privileged knowledge distillation in two vision transformer based diagnostic applications
- Title(参考訳): 2つの視覚変換器を用いた診断応用におけるマルチモーダル特権知識蒸留の有効性について
- Authors: Simon Baur, Alexandra Benova, Emilio Dolgener Cantú, Jackie Ma,
- Abstract要約: マルチモーダル特権知識蒸留(英: multimodal privileged knowledge distillation, MMPKD)は、モダリティを付加し、一様視覚モデル(unimodal vision model)を導出する訓練戦略である。
MMPKDは、入力画像中のROIをローカライズするアテンションマップのゼロショット機能を改善することができることを示す。
- 参考スコア(独自算出の注目度): 42.19559765387761
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deploying deep learning models in clinical practice often requires leveraging multiple data modalities, such as images, text, and structured data, to achieve robust and trustworthy decisions. However, not all modalities are always available at inference time. In this work, we propose multimodal privileged knowledge distillation (MMPKD), a training strategy that utilizes additional modalities available solely during training to guide a unimodal vision model. Specifically, we used a text-based teacher model for chest radiographs (MIMIC-CXR) and a tabular metadata-based teacher model for mammography (CBIS-DDSM) to distill knowledge into a vision transformer student model. We show that MMPKD can improve the resulting attention maps' zero-shot capabilities of localizing ROI in input images, while this effect does not generalize across domains, as contrarily suggested by prior research.
- Abstract(参考訳): 臨床実践でディープラーニングモデルをデプロイするには、堅牢で信頼性の高い決定を達成するために、画像、テキスト、構造化データなどの複数のデータモダリティを活用する必要があることが多い。
しかしながら、すべてのモダリティが推論時に常に利用可能であるとは限らない。
本研究では,MMPKD(Multimodal privileged knowledge distillation, MMPKD)を提案する。
具体的には,胸部X線写真用テキストベース教師モデル (MIMIC-CXR) とマンモグラフィ用表形式のメタデータベース教師モデル (CBIS-DDSM) を用いて,知識を視覚変換器の学生モデルに抽出した。
MMPKDは、入力画像中のROIをローカライズするアテンションマップのゼロショット機能を改善することができるが、この効果は、以前の研究では、ドメイン間では一般化されていない。
関連論文リスト
- Multimodal Masked Autoencoder Pre-training for 3D MRI-Based Brain Tumor Analysis with Missing Modalities [0.0]
BM-MAEはマルチモーダルMRIデータに適したマスク付き画像モデリング事前学習戦略である。
利用可能なモダリティの組み合わせにシームレスに適応し、モダリティ内情報とモダリティ間情報の両方をキャプチャするリッチな表現を抽出する。
欠落したモダリティを迅速かつ効率的に再構築し、その実用的価値を強調します。
論文 参考訳(メタデータ) (2025-05-01T14:51:30Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - HEALNet: Multimodal Fusion for Heterogeneous Biomedical Data [10.774128925670183]
本稿では,フレキシブルなマルチモーダル融合アーキテクチャであるHybrid Early-fusion Attention Learning Network (HEALNet)を提案する。
The Cancer Genome Atlas (TCGA) の4つのがんデータセットにおける全スライド画像と多モードデータを用いたマルチモーダルサバイバル解析を行った。
HEALNetは、他のエンドツーエンドの訓練された融合モデルと比較して最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-15T17:06:26Z) - Domain Generalization for Mammographic Image Analysis with Contrastive
Learning [62.25104935889111]
効果的なディープラーニングモデルのトレーニングには、さまざまなスタイルと品質を備えた大規模なデータが必要である。
より優れたスタイルの一般化能力を備えた深層学習モデルを実現するために,新しいコントラスト学習法が開発された。
提案手法は,様々なベンダスタイルドメインのマンモグラムや,いくつかのパブリックデータセットを用いて,広範囲かつ厳密に評価されている。
論文 参考訳(メタデータ) (2023-04-20T11:40:21Z) - Cross-Modal Information Maximization for Medical Imaging: CMIM [62.28852442561818]
病院では、同じ情報を異なるモダリティの下で利用できるようにする特定の情報システムにデータがサイロ化される。
これは、テスト時に常に利用できないかもしれない同じ情報の複数のビューを列車で取得し、使用するためのユニークな機会を提供する。
テスト時にモダリティの低下に耐性を持つマルチモーダル入力の優れた表現を学習することで、利用可能なデータを最大限活用する革新的なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T20:05:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。