論文の概要: ADR: Attention Diversification Regularization for Mitigating Overfitting in Multiple Instance Learning based Whole Slide Image Classification
- arxiv url: http://arxiv.org/abs/2406.15303v1
- Date: Tue, 18 Jun 2024 02:01:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-24 12:53:38.499654
- Title: ADR: Attention Diversification Regularization for Mitigating Overfitting in Multiple Instance Learning based Whole Slide Image Classification
- Title(参考訳): ADR:マルチインスタンスラーニングに基づく全スライド画像分類におけるオーバフィッティングの緩和のための注意の多様化規則化
- Authors: Yunlong Zhang, Zhongyi Shui, Yunxuan Sun, Honglin Li, Jingxiong Li, Chenglu Zhu, Sunyi Zheng, Lin Yang,
- Abstract要約: MIL(Multiple Instance Learning)は、スライド画像全体(WSI)の解析に有効であることを示した。
本稿では,MILの性能と注意値のエントロピーの関係を明らかにする。
本稿では,注意値の高エントロピーを促進する手法である注意多様性規則化(ADR)を提案する。
- 参考スコア(独自算出の注目度): 8.746388561544205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multiple Instance Learning (MIL) has demonstrated effectiveness in analyzing whole slide images (WSIs), yet it often encounters overfitting challenges in real-world applications. This paper reveals the correlation between MIL's performance and the entropy of attention values. Based on this observation, we propose Attention Diversity Regularization (ADR), a simple but effective technique aimed at promoting high entropy in attention values. Specifically, ADR introduces a negative Shannon entropy loss for attention values into the regular MIL framework. Compared to existing methods aimed at alleviating overfitting, which often necessitate additional modules or processing steps, our ADR approach requires no such extras, demonstrating simplicity and efficiency. We evaluate our ADR on three WSI classification tasks. ADR achieves superior performance over the state-of-the-art on most of them. We also show that ADR can enhance heatmaps, aligning them better with pathologists' diagnostic criteria. The source code is available at \url{https://github.com/dazhangyu123/ADR}.
- Abstract(参考訳): MIL(Multiple Instance Learning)は、スライド画像全体(WSI)を解析する効果を実証しているが、現実のアプリケーションでは過度に適合する課題に遭遇することが多い。
本稿では,MILの性能と注意値のエントロピーの関係を明らかにする。
本研究は,注意値の高エントロピーを促進することを目的とした,シンプルかつ効果的な手法である注意多様性規則化(ADR)を提案する。
特に、ADRは通常のMILフレームワークに注意値に対する負のシャノンエントロピー損失を導入している。
追加モジュールや処理ステップを必要とする場合が多いオーバーフィッティングを緩和する既存の方法と比較して、ADRアプローチではそのような余分な処理は必要とせず、単純さと効率性を実証しています。
3つのWSI分類タスクでADRを評価した。
ADRは最先端技術よりも優れたパフォーマンスを実現している。
また, ADRは熱マップを向上し, 病理医の診断基準に適合することを示す。
ソースコードは \url{https://github.com/dazhangyu123/ADR} で公開されている。
関連論文リスト
- MAT: Multi-Range Attention Transformer for Efficient Image Super-Resolution [14.265237560766268]
多様な空間範囲にわたる注意の柔軟な統合は、大幅なパフォーマンス向上をもたらす可能性がある。
スーパーレゾリューション(SR)タスクに適したマルチランジアテンショントランス(MAT)を提案する。
MATは、様々な空間範囲にまたがる依存関係を包含し、その特徴表現の多様性と有効性を向上させる。
論文 参考訳(メタデータ) (2024-11-26T08:30:31Z) - Learn from Downstream and Be Yourself in Multimodal Large Language Model Fine-Tuning [104.27224674122313]
微調整MLLMは、特定の下流タスクのパフォーマンスを改善するための一般的なプラクティスとなっている。
一般化と特殊化のトレードオフのバランスをとるために,事前学習と微調整の両方におけるパラメータの重要度を測定することを提案する。
論文 参考訳(メタデータ) (2024-11-17T01:16:37Z) - Can MLLMs Guide Weakly-Supervised Temporal Action Localization Tasks? [6.7065734065794835]
MLLM4WTALと呼ばれる新しい学習パラダイムを導入する。
MLLMのポテンシャルを利用して、時間的アクションキーセマンティクスと完全なセマンティクスの事前を提供する。
キーセマンティックマッチング(KSM)と完全セマンティック再構成(CSR)の2つの異なるモジュールを統合することでこれを実現できる。
論文 参考訳(メタデータ) (2024-11-13T09:37:24Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - M$^2$PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning [90.75075886543404]
MLLM(Multimodal Large Language Models)は、幅広い領域にわたる顕著なパフォーマンスを示す。
本研究では,MLLMの効率的な命令チューニングのための新しいMultimodal Prompt Tuning (M$2$PT) 手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T01:40:24Z) - Fault Tolerant ML: Efficient Meta-Aggregation and Synchronous Training [8.419845742978985]
分散機械学習(ML)システムにおけるビザンチン・ロバスト学習の挑戦的枠組みについて検討する。
最初のコントリビューションは,ベースラインアグリゲータを最適なパフォーマンスレベルにアップグレードする,効率的なメタアグリゲータの導入です。
本稿では,ビザンチン・ロバスト訓練の理論的および実践的優位性,特にチューニングプロセスの簡略化について述べる。
論文 参考訳(メタデータ) (2024-05-23T16:29:30Z) - Intuition-aware Mixture-of-Rank-1-Experts for Parameter Efficient Finetuning [50.73666458313015]
大規模言語モデル(LLM)はマルチメディアアプリケーションで複数のタスクを実行する上で大きな可能性を証明している。
MoEは、効率的なタスクデカップリングのためのスパースアーキテクチャによる有望なソリューションとして登場した。
Intuition-MoR1Eは14のパブリックデータセットで優れた効率と2.15%の全体的な精度向上を実現している。
論文 参考訳(メタデータ) (2024-04-13T12:14:58Z) - CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。
本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。
ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文 参考訳(メタデータ) (2024-02-08T18:27:22Z) - Slot-Mixup with Subsampling: A Simple Regularization for WSI
Classification [13.286360560353936]
全スライド画像 (WSI) の分類は, がんの診断に関係のある症例は少ないが, 病理医には繰り返しズームイン, アウトが必要である。
パッチレベルのラベルがないため、多重インスタンス学習(MIL)はWSI分類器をトレーニングするための一般的なプラクティスである。
MIL for WSIsの課題の1つは、スライドレベルのラベルから来る弱い監督力であり、しばしば過度なオーバーフィッティングをもたらすことである。
我々のアプローチは、元のスライドの基盤となるセマンティクスを著しく変更することなく、WSIのパッチのサブセットをサンプリングすることで、トレーニングデータセットを強化します。
論文 参考訳(メタデータ) (2023-11-29T09:18:39Z) - Attention-Challenging Multiple Instance Learning for Whole Slide Image Classification [12.424186320807888]
ACMIL(Attention-Challenging MIL)を提案する。
ACMILは、注意値集中のための別個の分析に基づく2つの手法を組み合わせる。
本稿では,ACMILが注目値の集中を抑え,過度に適合する課題を克服する上で有効であることを示す。
論文 参考訳(メタデータ) (2023-11-13T07:34:53Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。