論文の概要: AEM: Attention Entropy Maximization for Multiple Instance Learning based Whole Slide Image Classification
- arxiv url: http://arxiv.org/abs/2406.15303v2
- Date: Sun, 18 Aug 2024 02:48:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 02:18:57.019253
- Title: AEM: Attention Entropy Maximization for Multiple Instance Learning based Whole Slide Image Classification
- Title(参考訳): AEM:マルチインスタンス学習に基づく全スライド画像分類のための注意エントロピー最大化
- Authors: Yunlong Zhang, Zhongyi Shui, Yunxuan Sun, Honglin Li, Jingxiong Li, Chenglu Zhu, Lin Yang,
- Abstract要約: MIL(Multiple Instance Learning)は、スライド画像全体(WSI)の解析に有効であることを示した。
MILは現実世界のアプリケーション、特に過度な集中の形で、過度に適合する課題に遭遇することが多い。
本稿では,意図的エントロピー最大化(AEM)という,シンプルだが効果的な正規化を提案する。
- 参考スコア(独自算出の注目度): 8.871810446204737
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multiple Instance Learning (MIL) has demonstrated effectiveness in analyzing whole slide images (WSIs), yet it often encounters overfitting challenges in real-world applications, particularly in the form of attention over-concentration. While existing methods to alleviate this issue introduce complex modules or processing steps, such as multiple-stage training and teacher-student distillation, this paper proposes a simple yet effective regularization: Attention Entropy Maximization (AEM). Motivated by our investigation revealing a positive correlation between attention entropy and model performance, AEM incorporates a negative entropy loss for attention values into the standard MIL framework, penalizing overly concentrated attention and encouraging the model to consider a broader range of informative regions in WSIs, potentially improving its generalization capabilities. Compared to existing overfitting mitigation methods, our AEM approach offers advantages of simplicity, efficiency, and versatility. It requires no additional modules or processing steps, involves only one hyperparameter, and demonstrates compatibility with MIL frameworks and techniques. These advantages make AEM particularly attractive for practical applications. We evaluate AEM on three benchmark datasets, demonstrating consistent performance improvements over existing methods. Furthermore, AEM shows high versatility, integrating effectively with four feature extractors, two advanced MIL frameworks, three attention mechanisms, and Subsampling augmentation technique. The source code is available at \url{https://github.com/dazhangyu123/AEM}.
- Abstract(参考訳): MIL(Multiple Instance Learning)は、スライド画像全体(WSI)を解析する効果を実証している。
この問題を緩和するための既存の手法では、多段階の訓練や教師・学生の蒸留といった複雑なモジュールや処理手順が導入されたが、本研究では、シンプルながら効果的な正規化:注意エントロピー最大化(AEM)を提案する。
本研究は,注意エントロピーとモデル性能の正の相関関係を明らかにすることにより,注意値に対する負のエントロピー損失を標準MILフレームワークに含み,過度に集中した注意をペナルティ化し,WSIにおける幅広い情報領域の検討を奨励し,一般化能力の向上を図っている。
既存のオーバーフィッティング緩和手法と比較して、AEMアプローチは単純さ、効率、汎用性の利点を提供します。
追加のモジュールや処理ステップは不要で、ハイパーパラメータは1つだけで、MILフレームワークやテクニックとの互換性を示す。
これらの利点により、AEMは特に実用用途に魅力的なものとなる。
AEMを3つのベンチマークデータセットで評価し、既存の手法よりも一貫した性能改善を実証した。
さらに、4つの特徴抽出器、2つの先進的なMILフレームワーク、3つの注意機構、サブサンプリング強化技術と効果的に統合された高汎用性を示す。
ソースコードは \url{https://github.com/dazhangyu123/AEM} で公開されている。
関連論文リスト
- MAT: Multi-Range Attention Transformer for Efficient Image Super-Resolution [14.265237560766268]
多様な空間範囲にわたる注意の柔軟な統合は、大幅なパフォーマンス向上をもたらす可能性がある。
スーパーレゾリューション(SR)タスクに適したマルチランジアテンショントランス(MAT)を提案する。
MATは、様々な空間範囲にまたがる依存関係を包含し、その特徴表現の多様性と有効性を向上させる。
論文 参考訳(メタデータ) (2024-11-26T08:30:31Z) - Learn from Downstream and Be Yourself in Multimodal Large Language Model Fine-Tuning [104.27224674122313]
微調整MLLMは、特定の下流タスクのパフォーマンスを改善するための一般的なプラクティスとなっている。
一般化と特殊化のトレードオフのバランスをとるために,事前学習と微調整の両方におけるパラメータの重要度を測定することを提案する。
論文 参考訳(メタデータ) (2024-11-17T01:16:37Z) - Can MLLMs Guide Weakly-Supervised Temporal Action Localization Tasks? [6.7065734065794835]
MLLM4WTALと呼ばれる新しい学習パラダイムを導入する。
MLLMのポテンシャルを利用して、時間的アクションキーセマンティクスと完全なセマンティクスの事前を提供する。
キーセマンティックマッチング(KSM)と完全セマンティック再構成(CSR)の2つの異なるモジュールを統合することでこれを実現できる。
論文 参考訳(メタデータ) (2024-11-13T09:37:24Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - M$^2$PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning [90.75075886543404]
MLLM(Multimodal Large Language Models)は、幅広い領域にわたる顕著なパフォーマンスを示す。
本研究では,MLLMの効率的な命令チューニングのための新しいMultimodal Prompt Tuning (M$2$PT) 手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T01:40:24Z) - Fault Tolerant ML: Efficient Meta-Aggregation and Synchronous Training [8.419845742978985]
分散機械学習(ML)システムにおけるビザンチン・ロバスト学習の挑戦的枠組みについて検討する。
最初のコントリビューションは,ベースラインアグリゲータを最適なパフォーマンスレベルにアップグレードする,効率的なメタアグリゲータの導入です。
本稿では,ビザンチン・ロバスト訓練の理論的および実践的優位性,特にチューニングプロセスの簡略化について述べる。
論文 参考訳(メタデータ) (2024-05-23T16:29:30Z) - Intuition-aware Mixture-of-Rank-1-Experts for Parameter Efficient Finetuning [50.73666458313015]
大規模言語モデル(LLM)はマルチメディアアプリケーションで複数のタスクを実行する上で大きな可能性を証明している。
MoEは、効率的なタスクデカップリングのためのスパースアーキテクチャによる有望なソリューションとして登場した。
Intuition-MoR1Eは14のパブリックデータセットで優れた効率と2.15%の全体的な精度向上を実現している。
論文 参考訳(メタデータ) (2024-04-13T12:14:58Z) - CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。
本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。
ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文 参考訳(メタデータ) (2024-02-08T18:27:22Z) - Slot-Mixup with Subsampling: A Simple Regularization for WSI
Classification [13.286360560353936]
全スライド画像 (WSI) の分類は, がんの診断に関係のある症例は少ないが, 病理医には繰り返しズームイン, アウトが必要である。
パッチレベルのラベルがないため、多重インスタンス学習(MIL)はWSI分類器をトレーニングするための一般的なプラクティスである。
MIL for WSIsの課題の1つは、スライドレベルのラベルから来る弱い監督力であり、しばしば過度なオーバーフィッティングをもたらすことである。
我々のアプローチは、元のスライドの基盤となるセマンティクスを著しく変更することなく、WSIのパッチのサブセットをサンプリングすることで、トレーニングデータセットを強化します。
論文 参考訳(メタデータ) (2023-11-29T09:18:39Z) - Attention-Challenging Multiple Instance Learning for Whole Slide Image Classification [12.424186320807888]
ACMIL(Attention-Challenging MIL)を提案する。
ACMILは、注意値集中のための別個の分析に基づく2つの手法を組み合わせる。
本稿では,ACMILが注目値の集中を抑え,過度に適合する課題を克服する上で有効であることを示す。
論文 参考訳(メタデータ) (2023-11-13T07:34:53Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。