Fugu-MT 論文翻訳(概要): AEM: Attention Entropy Maximization for Multiple Instance Learning based Whole Slide Image Classification

論文の概要: AEM: Attention Entropy Maximization for Multiple Instance Learning based Whole Slide Image Classification

arxiv url: http://arxiv.org/abs/2406.15303v2
Date: Sun, 18 Aug 2024 02:48:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-21 02:18:57.019253
Title: AEM: Attention Entropy Maximization for Multiple Instance Learning based Whole Slide Image Classification
Title（参考訳）: AEM:マルチインスタンス学習に基づく全スライド画像分類のための注意エントロピー最大化
Authors: Yunlong Zhang, Zhongyi Shui, Yunxuan Sun, Honglin Li, Jingxiong Li, Chenglu Zhu, Lin Yang,
Abstract要約: MIL(Multiple Instance Learning)は、スライド画像全体(WSI)の解析に有効であることを示した。 MILは現実世界のアプリケーション、特に過度な集中の形で、過度に適合する課題に遭遇することが多い。本稿では,意図的エントロピー最大化(AEM)という,シンプルだが効果的な正規化を提案する。
参考スコア（独自算出の注目度）: 8.871810446204737
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multiple Instance Learning (MIL) has demonstrated effectiveness in analyzing whole slide images (WSIs), yet it often encounters overfitting challenges in real-world applications, particularly in the form of attention over-concentration. While existing methods to alleviate this issue introduce complex modules or processing steps, such as multiple-stage training and teacher-student distillation, this paper proposes a simple yet effective regularization: Attention Entropy Maximization (AEM). Motivated by our investigation revealing a positive correlation between attention entropy and model performance, AEM incorporates a negative entropy loss for attention values into the standard MIL framework, penalizing overly concentrated attention and encouraging the model to consider a broader range of informative regions in WSIs, potentially improving its generalization capabilities. Compared to existing overfitting mitigation methods, our AEM approach offers advantages of simplicity, efficiency, and versatility. It requires no additional modules or processing steps, involves only one hyperparameter, and demonstrates compatibility with MIL frameworks and techniques. These advantages make AEM particularly attractive for practical applications. We evaluate AEM on three benchmark datasets, demonstrating consistent performance improvements over existing methods. Furthermore, AEM shows high versatility, integrating effectively with four feature extractors, two advanced MIL frameworks, three attention mechanisms, and Subsampling augmentation technique. The source code is available at \url{https://github.com/dazhangyu123/AEM}.
Abstract（参考訳）: MIL(Multiple Instance Learning)は、スライド画像全体(WSI)を解析する効果を実証している。この問題を緩和するための既存の手法では、多段階の訓練や教師・学生の蒸留といった複雑なモジュールや処理手順が導入されたが、本研究では、シンプルながら効果的な正規化:注意エントロピー最大化(AEM)を提案する。本研究は,注意エントロピーとモデル性能の正の相関関係を明らかにすることにより,注意値に対する負のエントロピー損失を標準MILフレームワークに含み,過度に集中した注意をペナルティ化し,WSIにおける幅広い情報領域の検討を奨励し,一般化能力の向上を図っている。既存のオーバーフィッティング緩和手法と比較して、AEMアプローチは単純さ、効率、汎用性の利点を提供します。追加のモジュールや処理ステップは不要で、ハイパーパラメータは1つだけで、MILフレームワークやテクニックとの互換性を示す。これらの利点により、AEMは特に実用用途に魅力的なものとなる。 AEMを3つのベンチマークデータセットで評価し、既存の手法よりも一貫した性能改善を実証した。さらに、4つの特徴抽出器、2つの先進的なMILフレームワーク、3つの注意機構、サブサンプリング強化技術と効果的に統合された高汎用性を示す。ソースコードは \url{https://github.com/dazhangyu123/AEM} で公開されている。

関連論文リスト

MsaMIL-Net: An End-to-End Multi-Scale Aware Multiple Instance Learning Network for Efficient Whole Slide Image Classification [0.7510165488300369]
バグベースのMIL(Multiple Instance Learning)アプローチが、WSI(Whole Slide Image)分類の主流方法論として登場した。本稿では,マルチスケール特徴抽出と複数インスタンス学習を統合したエンドツーエンドのWSI分類フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-11T16:16:44Z)
Keeping Yourself is Important in Downstream Tuning Multimodal Large Language Model [63.14883657299359]
MLLM(Multi-modal Large Language Models)は、視覚的および言語的推論を統合して、画像キャプションや視覚的質問応答といった複雑なタスクに対処する。ダウンストリームタスクのためのMLLMのチューニングには,2つの重要な課題がある。タスク-Expert – 事前トレーニングとターゲットデータセット間の分散シフトによってターゲットのパフォーマンスが制限される。
論文参考訳（メタデータ） (2025-03-06T15:29:13Z)
Attention Condensation via Sparsity Induced Regularized Training [0.0]
自己注意は、コンテキストウィンドウが拡大するにつれて、トランスフォーマーの推論時間を支配する。我々は,大規模言語モデルにおける注意分散の理論的枠組みを拡張した。カスタマイズされた損失関数は、注目行列の上位要素の数を制限することで、空間性を強制するように設計されている。
論文参考訳（メタデータ） (2025-03-03T14:09:13Z)
MAT: Multi-Range Attention Transformer for Efficient Image Super-Resolution [14.265237560766268]
多様な空間範囲にわたる注意の柔軟な統合は、大幅なパフォーマンス向上をもたらす可能性がある。スーパーレゾリューション(SR)タスクに適したマルチランジアテンショントランス(MAT)を提案する。 MATは、様々な空間範囲にまたがる依存関係を包含し、その特徴表現の多様性と有効性を向上させる。
論文参考訳（メタデータ） (2024-11-26T08:30:31Z)
Learn from Downstream and Be Yourself in Multimodal Large Language Model Fine-Tuning [104.27224674122313]
微調整MLLMは、特定の下流タスクのパフォーマンスを改善するための一般的なプラクティスとなっている。一般化と特殊化のトレードオフのバランスをとるために,事前学習と微調整の両方におけるパラメータの重要度を測定することを提案する。
論文参考訳（メタデータ） (2024-11-17T01:16:37Z)
Can MLLMs Guide Weakly-Supervised Temporal Action Localization Tasks? [6.7065734065794835]
MLLM4WTALと呼ばれる新しい学習パラダイムを導入する。 MLLMのポテンシャルを利用して、時間的アクションキーセマンティクスと完全なセマンティクスの事前を提供する。キーセマンティックマッチング(KSM)と完全セマンティック再構成(CSR)の2つの異なるモジュールを統合することでこれを実現できる。
論文参考訳（メタデータ） (2024-11-13T09:37:24Z)
EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。 EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文参考訳（メタデータ） (2024-10-02T23:00:31Z)
M$^2$PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning [90.75075886543404]
MLLM(Multimodal Large Language Models)は、幅広い領域にわたる顕著なパフォーマンスを示す。本研究では,MLLMの効率的な命令チューニングのための新しいMultimodal Prompt Tuning (M$2$PT) 手法を提案する。
論文参考訳（メタデータ） (2024-09-24T01:40:24Z)
Fault Tolerant ML: Efficient Meta-Aggregation and Synchronous Training [8.419845742978985]
分散機械学習(ML)システムにおけるビザンチン・ロバスト学習の挑戦的枠組みについて検討する。最初のコントリビューションは,ベースラインアグリゲータを最適なパフォーマンスレベルにアップグレードする,効率的なメタアグリゲータの導入です。本稿では,ビザンチン・ロバスト訓練の理論的および実践的優位性,特にチューニングプロセスの簡略化について述べる。
論文参考訳（メタデータ） (2024-05-23T16:29:30Z)
Intuition-aware Mixture-of-Rank-1-Experts for Parameter Efficient Finetuning [50.73666458313015]
大規模言語モデル(LLM)はマルチメディアアプリケーションで複数のタスクを実行する上で大きな可能性を証明している。 MoEは、効率的なタスクデカップリングのためのスパースアーキテクチャによる有望なソリューションとして登場した。 Intuition-MoR1Eは14のパブリックデータセットで優れた効率と2.15%の全体的な精度向上を実現している。
論文参考訳（メタデータ） (2024-04-13T12:14:58Z)
CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文参考訳（メタデータ） (2024-02-08T18:27:22Z)
Slot-Mixup with Subsampling: A Simple Regularization for WSI Classification [13.286360560353936]
全スライド画像 (WSI) の分類は, がんの診断に関係のある症例は少ないが, 病理医には繰り返しズームイン, アウトが必要である。パッチレベルのラベルがないため、多重インスタンス学習(MIL)はWSI分類器をトレーニングするための一般的なプラクティスである。 MIL for WSIsの課題の1つは、スライドレベルのラベルから来る弱い監督力であり、しばしば過度なオーバーフィッティングをもたらすことである。我々のアプローチは、元のスライドの基盤となるセマンティクスを著しく変更することなく、WSIのパッチのサブセットをサンプリングすることで、トレーニングデータセットを強化します。
論文参考訳（メタデータ） (2023-11-29T09:18:39Z)
Attention-Challenging Multiple Instance Learning for Whole Slide Image Classification [12.424186320807888]
ACMIL(Attention-Challenging MIL)を提案する。 ACMILは、注意値集中のための別個の分析に基づく2つの手法を組み合わせる。本稿では,ACMILが注目値の集中を抑え,過度に適合する課題を克服する上で有効であることを示す。
論文参考訳（メタデータ） (2023-11-13T07:34:53Z)
Exploiting Modality-Specific Features For Multi-Modal Manipulation Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文参考訳（メタデータ） (2023-09-22T06:55:41Z)
Learning Multiscale Consistency for Self-supervised Electron Microscopy Instance Segmentation [48.267001230607306]
本稿では,EMボリュームのマルチスケール一貫性を高める事前学習フレームワークを提案する。当社のアプローチでは,強力なデータ拡張と弱いデータ拡張を統合することで,Siameseネットワークアーキテクチャを活用している。効果的にボクセルと機能の一貫性をキャプチャし、EM分析のための転送可能な表現を学習する。
論文参考訳（メタデータ） (2023-08-19T05:49:13Z)
Calibrating Undisciplined Over-Smoothing in Transformer for Weakly Supervised Semantic Segmentation [51.14107156747967]
弱教師付きセマンティックセマンティックセマンティクス(WSSS)は、完全な教師付きアプローチよりもアノテーションが少ないため、かなりの注目を集めている。本研究では,非学際的な過密化に対する深い注意を抑えるための適応的再活性化機構 (AReAM) を提案する。 AReAMは既存のWSSS手法と比較してセグメンテーション性能を大幅に改善し、ノイズを低減し、関連するセマンティック領域に焦点を絞る。
論文参考訳（メタデータ） (2023-05-04T19:11:33Z)
Towards Scale-Aware, Robust, and Generalizable Unsupervised Monocular Depth Estimation by Integrating IMU Motion Dynamics [74.1720528573331]
教師なし単眼深度と自我運動推定は近年広く研究されている。我々は、視覚情報とIMUモーションダイナミクスを統合した新しいスケールアウェアフレームワークDynaDepthを提案する。我々は、KITTIおよびMake3Dデータセット上で広範囲な実験とシミュレーションを行うことにより、DynaDepthの有効性を検証する。
論文参考訳（メタデータ） (2022-07-11T07:50:22Z)
Coarse-to-Fine Embedded PatchMatch and Multi-Scale Dynamic Aggregation for Reference-based Super-Resolution [48.093500219958834]
参照型スーパーリゾリューションのためのAMSA(Accelerated Multi-Scale Aggregation Network)を提案する。提案したAMSAは,定量評価と定性評価の両面において,最先端の手法よりも優れた性能を実現する。
論文参考訳（メタデータ） (2022-01-12T08:40:23Z)
Image-specific Convolutional Kernel Modulation for Single Image Super-resolution [85.09413241502209]
本稿では,新しい画像特異的畳み込み変調カーネル(IKM)を提案する。我々は、画像や特徴のグローバルな文脈情報を利用して、畳み込みカーネルを適応的に調整するための注意重みを生成する。単一画像超解像実験により,提案手法は最先端手法よりも優れた性能を示した。
論文参考訳（メタデータ） (2021-11-16T11:05:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。