論文の概要: AEM: Attention Entropy Maximization for Multiple Instance Learning based Whole Slide Image Classification
- arxiv url: http://arxiv.org/abs/2406.15303v3
- Date: Mon, 30 Jun 2025 07:58:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.347936
- Title: AEM: Attention Entropy Maximization for Multiple Instance Learning based Whole Slide Image Classification
- Title(参考訳): AEM:マルチインスタンス学習に基づく全スライド画像分類のための注意エントロピー最大化
- Authors: Yunlong Zhang, Honglin Li, Yunxuan Sun, Zhongyi Shui, Jingxiong Li, Chenglu Zhu, Lin Yang,
- Abstract要約: MIL(Multiple Instance Learning)は、スライドイメージ全体を効果的に分析するが、注意過集中による過度な適合に直面している。
本稿では, 簡易かつ効果的な正則化手法である注意エントロピー最大化(AEM)を導入する。
この知見に基づいて、過度な注意集中を罰するために、AMM正規化をMILフレームワークに統合する。
- 参考スコア(独自算出の注目度): 8.871810446204737
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multiple Instance Learning (MIL) effectively analyzes whole slide images but faces overfitting due to attention over-concentration. While existing solutions rely on complex architectural modifications or additional processing steps, we introduce Attention Entropy Maximization (AEM), a simple yet effective regularization technique. Our investigation reveals the positive correlation between attention entropy and model performance. Building on this insight, we integrate AEM regularization into the MIL framework to penalize excessive attention concentration. To address sensitivity to the AEM weight parameter, we implement Cosine Weight Annealing, reducing parameter dependency. Extensive evaluations demonstrate AEM's superior performance across diverse feature extractors, MIL frameworks, attention mechanisms, and augmentation techniques. Here is our anonymous code: https://github.com/dazhangyu123/AEM.
- Abstract(参考訳): MIL(Multiple Instance Learning)は、スライドイメージ全体を効果的に分析するが、注意過集中による過度な適合に直面している。
既存のソリューションは複雑なアーキテクチャの変更や追加の処理ステップに依存していますが、AEM(Attention Entropy Maximization)を導入します。
本研究は,注意エントロピーとモデル性能の正の相関関係を明らかにする。
この知見に基づいて、過度な注意集中を罰するために、AMM正規化をMILフレームワークに統合する。
AEM重みパラメータに対する感度に対処するため,パラメータ依存性を低減したCosine Weight Annealingを実装した。
広範囲な評価は、多種多様な特徴抽出器、MILフレームワーク、注意機構、拡張技術にまたがるAEMの優れた性能を示している。
匿名のコードです。 https://github.com/dazhangyu123/AEM。
関連論文リスト
- MsaMIL-Net: An End-to-End Multi-Scale Aware Multiple Instance Learning Network for Efficient Whole Slide Image Classification [0.7510165488300369]
バグベースのMIL(Multiple Instance Learning)アプローチが、WSI(Whole Slide Image)分類の主流方法論として登場した。
本稿では,マルチスケール特徴抽出と複数インスタンス学習を統合したエンドツーエンドのWSI分類フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-11T16:16:44Z) - Keeping Yourself is Important in Downstream Tuning Multimodal Large Language Model [63.14883657299359]
MLLM(Multi-modal Large Language Models)は、視覚的および言語的推論を統合して、画像キャプションや視覚的質問応答といった複雑なタスクに対処する。
ダウンストリームタスクのためのMLLMのチューニングには,2つの重要な課題がある。タスク-Expert – 事前トレーニングとターゲットデータセット間の分散シフトによってターゲットのパフォーマンスが制限される。
論文 参考訳(メタデータ) (2025-03-06T15:29:13Z) - MAT: Multi-Range Attention Transformer for Efficient Image Super-Resolution [14.265237560766268]
多様な空間範囲にわたる注意の柔軟な統合は、大幅なパフォーマンス向上をもたらす可能性がある。
スーパーレゾリューション(SR)タスクに適したマルチランジアテンショントランス(MAT)を提案する。
MATは、様々な空間範囲にまたがる依存関係を包含し、その特徴表現の多様性と有効性を向上させる。
論文 参考訳(メタデータ) (2024-11-26T08:30:31Z) - Learn from Downstream and Be Yourself in Multimodal Large Language Model Fine-Tuning [104.27224674122313]
微調整MLLMは、特定の下流タスクのパフォーマンスを改善するための一般的なプラクティスとなっている。
一般化と特殊化のトレードオフのバランスをとるために,事前学習と微調整の両方におけるパラメータの重要度を測定することを提案する。
論文 参考訳(メタデータ) (2024-11-17T01:16:37Z) - Can MLLMs Guide Weakly-Supervised Temporal Action Localization Tasks? [6.7065734065794835]
MLLM4WTALと呼ばれる新しい学習パラダイムを導入する。
MLLMのポテンシャルを利用して、時間的アクションキーセマンティクスと完全なセマンティクスの事前を提供する。
キーセマンティックマッチング(KSM)と完全セマンティック再構成(CSR)の2つの異なるモジュールを統合することでこれを実現できる。
論文 参考訳(メタデータ) (2024-11-13T09:37:24Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - M$^2$PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning [90.75075886543404]
MLLM(Multimodal Large Language Models)は、幅広い領域にわたる顕著なパフォーマンスを示す。
本研究では,MLLMの効率的な命令チューニングのための新しいMultimodal Prompt Tuning (M$2$PT) 手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T01:40:24Z) - Fault Tolerant ML: Efficient Meta-Aggregation and Synchronous Training [8.419845742978985]
分散機械学習(ML)システムにおけるビザンチン・ロバスト学習の挑戦的枠組みについて検討する。
最初のコントリビューションは,ベースラインアグリゲータを最適なパフォーマンスレベルにアップグレードする,効率的なメタアグリゲータの導入です。
本稿では,ビザンチン・ロバスト訓練の理論的および実践的優位性,特にチューニングプロセスの簡略化について述べる。
論文 参考訳(メタデータ) (2024-05-23T16:29:30Z) - Intuition-aware Mixture-of-Rank-1-Experts for Parameter Efficient Finetuning [50.73666458313015]
大規模言語モデル(LLM)はマルチメディアアプリケーションで複数のタスクを実行する上で大きな可能性を証明している。
MoEは、効率的なタスクデカップリングのためのスパースアーキテクチャによる有望なソリューションとして登場した。
Intuition-MoR1Eは14のパブリックデータセットで優れた効率と2.15%の全体的な精度向上を実現している。
論文 参考訳(メタデータ) (2024-04-13T12:14:58Z) - CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。
本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。
ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文 参考訳(メタデータ) (2024-02-08T18:27:22Z) - Slot-Mixup with Subsampling: A Simple Regularization for WSI
Classification [13.286360560353936]
全スライド画像 (WSI) の分類は, がんの診断に関係のある症例は少ないが, 病理医には繰り返しズームイン, アウトが必要である。
パッチレベルのラベルがないため、多重インスタンス学習(MIL)はWSI分類器をトレーニングするための一般的なプラクティスである。
MIL for WSIsの課題の1つは、スライドレベルのラベルから来る弱い監督力であり、しばしば過度なオーバーフィッティングをもたらすことである。
我々のアプローチは、元のスライドの基盤となるセマンティクスを著しく変更することなく、WSIのパッチのサブセットをサンプリングすることで、トレーニングデータセットを強化します。
論文 参考訳(メタデータ) (2023-11-29T09:18:39Z) - Attention-Challenging Multiple Instance Learning for Whole Slide Image Classification [12.424186320807888]
ACMIL(Attention-Challenging MIL)を提案する。
ACMILは、注意値集中のための別個の分析に基づく2つの手法を組み合わせる。
本稿では,ACMILが注目値の集中を抑え,過度に適合する課題を克服する上で有効であることを示す。
論文 参考訳(メタデータ) (2023-11-13T07:34:53Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。