論文の概要: Multi-head Attention-based Deep Multiple Instance Learning
- arxiv url: http://arxiv.org/abs/2404.05362v1
- Date: Mon, 8 Apr 2024 09:54:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 14:54:22.252734
- Title: Multi-head Attention-based Deep Multiple Instance Learning
- Title(参考訳): マルチヘッドアテンションに基づく深層多元学習
- Authors: Hassan Keshvarikhojasteh, Josien Pluim, Mitko Veta,
- Abstract要約: MAD-MILはマルチヘッドアテンションに基づくディープマルチインスタンス学習モデルである。
デジタル病理学において弱教師付き全スライド画像(WSI)分類のために設計されている。
MNIST-BAGSとTUPAC16, TCGA BRCA, TCGA LUNG, TCGA KIDNEYなどの公開データセットで評価を行った。
- 参考スコア(独自算出の注目度): 1.0389304366020162
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper introduces MAD-MIL, a Multi-head Attention-based Deep Multiple Instance Learning model, designed for weakly supervised Whole Slide Images (WSIs) classification in digital pathology. Inspired by the multi-head attention mechanism of the Transformer, MAD-MIL simplifies model complexity while achieving competitive results against advanced models like CLAM and DS-MIL. Evaluated on the MNIST-BAGS and public datasets, including TUPAC16, TCGA BRCA, TCGA LUNG, and TCGA KIDNEY, MAD-MIL consistently outperforms ABMIL. This demonstrates enhanced information diversity, interpretability, and efficiency in slide representation. The model's effectiveness, coupled with fewer trainable parameters and lower computational complexity makes it a promising solution for automated pathology workflows. Our code is available at https://github.com/tueimage/MAD-MIL.
- Abstract(参考訳): 本稿では,マルチヘッド・アテンションに基づく深層多元学習モデルであるMAD-MILについて紹介する。
トランスフォーマーのマルチヘッドアテンション機構にインスパイアされたMAD-MILは、CLAMやDS-MILといった先進的なモデルと競合しながら、モデルの複雑さを単純化する。
MNIST-BAGSとTUPAC16, TCGA BRCA, TCGA LUNG, TCGA KIDNEYなどの公開データセットで評価され、MAD-MILは一貫してABMILを上回っている。
これにより、スライド表現における情報多様性、解釈可能性、効率性が向上する。
このモデルの有効性は、トレーニング可能なパラメータを少なくし、計算の複雑さを小さくすることで、自動病理ワークフローにとって有望なソリューションとなる。
私たちのコードはhttps://github.com/tueimage/MAD-MILで利用可能です。
関連論文リスト
- Large Language Models for Multimodal Deformable Image Registration [50.91473745610945]
そこで本研究では,様々な医用画像からの深い特徴の整合を図るために,新しい粗いMDIRフレームワークLLM-Morphを提案する。
具体的には、まずCNNエンコーダを用いて、クロスモーダル画像ペアから深い視覚的特徴を抽出し、次に、最初のアダプタを使ってこれらのトークンを調整する。
第3に、トークンのアライメントのために、他の4つのアダプタを使用して、LLM符号化トークンをマルチスケールの視覚特徴に変換し、マルチスケールの変形場を生成し、粗いMDIRタスクを容易にする。
論文 参考訳(メタデータ) (2024-08-20T09:58:30Z) - DA-Flow: Dual Attention Normalizing Flow for Skeleton-based Video Anomaly Detection [52.74152717667157]
本稿では,DAM(Dual Attention Module)と呼ばれる軽量モジュールを提案する。
フレームアテンション機構を使用して、最も重要なフレームを識別し、スケルトンアテンション機構を使用して、最小パラメータとフロップで固定されたパーティション間の広範な関係をキャプチャする。
論文 参考訳(メタデータ) (2024-06-05T06:18:03Z) - MamMIL: Multiple Instance Learning for Whole Slide Images with State Space Models [56.37780601189795]
本稿では,WSI分析のためのフレームワークMamMILを提案する。
私たちは各WSIを非指向グラフとして表現します。
マンバが1次元シーケンスしか処理できない問題に対処するために、トポロジ対応の走査機構を提案する。
論文 参考訳(メタデータ) (2024-03-08T09:02:13Z) - SCHEME: Scalable Channel Mixer for Vision Transformers [52.605868919281086]
ビジョントランスフォーマーは多くの視覚タスクにおいて印象的なパフォーマンスを達成した。
チャネルミキサーや機能ミキシングブロック(FFNか)の研究は、はるかに少ない。
密度の高い接続は、より大きな膨張比をサポートする対角線ブロック構造に置き換えることができることを示す。
論文 参考訳(メタデータ) (2023-12-01T08:22:34Z) - MatFormer: Nested Transformer for Elastic Inference [94.1789252941718]
MatFormerは、様々なデプロイメント制約で弾力性を提供するように設計されたネストトランスフォーマーアーキテクチャである。
2.6BデコーダのみのMatFormer言語モデル(MatLM)は1.5Bから2.6Bまでの小さなモデルを抽出できることを示す。
また,MatFormerベースのViT(MatViT)エンコーダから抽出した小さなエンコーダは,適応的な大規模検索のための距離空間構造を保持する。
論文 参考訳(メタデータ) (2023-10-11T17:57:14Z) - Deformable Mixer Transformer with Gating for Multi-Task Learning of
Dense Prediction [126.34551436845133]
CNNとTransformerには独自の利点があり、MTL(Multi-task Learning)の高密度予測に広く使われている。
本稿では,変形可能なCNNと問合せベースのTransformerの長所を共用したMTLモデルを提案する。
論文 参考訳(メタデータ) (2023-08-10T17:37:49Z) - Pseudo-Bag Mixup Augmentation for Multiple Instance Learning-Based Whole
Slide Image Classification [18.679580844360615]
我々は,MILモデルのトレーニングを改善するために,Pseudo-bag Mixup (PseMix)データ拡張方式を提案する。
提案手法は,一般画像のMixup戦略を疑似バグにより特別なWSIに一般化する。
効率的で分離された手法として設計されており、時間を要する操作やMILモデルの予測に依存しない。
論文 参考訳(メタデータ) (2023-06-28T13:02:30Z) - Multi-level Multiple Instance Learning with Transformer for Whole Slide
Image Classification [32.43847786719133]
ホイルスライド画像(WSI)は、コンピュータ支援診断(CAD)において広く用いられている高解像度スキャンされた組織像の一種である。
本稿では,MIL に階層構造を導入し,多数のインスタンスを含む MIL タスクの効率的な処理を可能にするマルチレベル MIL (MMIL) 方式を提案する。
MMILに基づくMMIL-Transformerは,大規模MILタスクに対して,ウィンドウ化された正確な自己アテンションを持つ効率的なトランスフォーマーモデルである。
論文 参考訳(メタデータ) (2023-06-08T08:29:10Z) - Feature Re-calibration based MIL for Whole Slide Image Classification [7.92885032436243]
全スライド画像(WSI)分類は疾患の診断と治療の基本的な課題である。
本稿では,WSI バッグ (インスタンス) の分布を,最大インスタンス (クリティカル) 特性の統計値を用いて再校正することを提案する。
位置符号化モジュール(PEM)を用いて空間・形態情報をモデル化し,マルチヘッド自己アテンション(PSMA)をトランスフォーマーエンコーダでプーリングする。
論文 参考訳(メタデータ) (2022-06-22T07:00:39Z) - Differentiable Zooming for Multiple Instance Learning on Whole-Slide
Images [4.928363812223965]
本稿では,エンドツーエンドでマルチレベルズームを行う方法であるZoomMILを提案する。
提案手法は2つの大規模データセット上でWSI分類における最先端のMIL法より優れている。
論文 参考訳(メタデータ) (2022-04-26T17:20:50Z) - DTFD-MIL: Double-Tier Feature Distillation Multiple Instance Learning
for Histopathology Whole Slide Image Classification [18.11776334311096]
マルチプル・インスタンス・ラーニング(MIL)は、スライド画像(WSI)の病理組織学的分類において、ますます使われている。
擬似バッグの概念を導入することにより,バッグの数を事実上拡大することを提案する。
我々はまた、注目に基づくMILの枠組みに基づくインスタンス確率の導出にも貢献し、この導出を利用して提案したフレームワークの構築と分析に役立てる。
論文 参考訳(メタデータ) (2022-03-22T22:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。