論文の概要: Spatial Blindness in Whole-Slide Multiple Instance Learning
- arxiv url: http://arxiv.org/abs/2605.17449v1
- Date: Sun, 17 May 2026 13:47:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:48.094952
- Title: Spatial Blindness in Whole-Slide Multiple Instance Learning
- Title(参考訳): 全スライディング型複数インスタンス学習における空間的ブラインドネス
- Authors: Xiangyu Li, Ran Su,
- Abstract要約: 全スライディングのMILモデルは、グラフ、Transform ers、あるいは状態空間モジュールがパッチの埋め込みの上に置かれると、しばしばコンテキスト認識と呼ばれる。
組織構造が診断信号の一部である病理タスクでは、パッチ座標が置換された後、いくつかの強力なMILベースラインがほとんど変化のないスライドレベルAUCを維持している。
厳密な外見統計はスライドレベルの監督下で早期に学習され、疎空間関係の弱い勾配を残している。
9つのWSIベンチマークにまたがって、ResTopoMILは1.15Mパラメータによる分類と生存予測を改善し、摂動を調整する感度を回復し、より強い位置を与える。
- 参考スコア(独自算出の注目度): 4.001315295826918
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Whole-slide MIL models are often called context-aware once graphs, Transform ers, or state-space modules are placed above patch embeddings. We show that this label can be deceptive. On pathology tasks where tissue architecture is part of the diagnostic signal, several strong MIL baselines retain nearly unchanged slide level AUC after patch coordinates are permuted. Their predictions are accurate, but largely compositional. We refer to this failure mode as spatial blindness. Our explanation is optimization-based: dense appearance statistics are learned early under slide-level supervision, leaving weak gradients for sparse spatial relations. ResTopoMIL addresses the issue by first fitting a permutation-invariant prototype histogram and then freezing it while a lightweight graph branch learns the residual under a coordinate-shuffling constraint. The architecture is simple by design; the intervention is in how the spatial branch is trained. Across 9 public WSI bench marks, ResTopoMIL improves classification and survival prediction with 1.15M parameters, restores sensitivity to coordinate perturbation, and gives stronger lo calization evidence on CAMELYON-16.
- Abstract(参考訳): 全スライディングのMILモデルは、グラフ、Transform ers、あるいは状態空間モジュールがパッチの埋め込みの上に置かれると、しばしばコンテキスト認識と呼ばれる。
私たちはこのラベルが騙される可能性があることを示します。
組織構造が診断信号の一部である病理タスクでは、パッチ座標が置換された後、いくつかの強力なMILベースラインがほとんど変化のないスライドレベルAUCを維持している。
彼らの予測は正確だが、概ね構成的だ。
この障害モードを空間的盲点と呼ぶ。
厳密な外見統計はスライドレベルの監督下で早期に学習され、疎空間関係の弱い勾配を残している。
ResTopoMILは、まず置換不変のプロトタイプヒストグラムをフィッティングし、次にそれを凍結し、軽量グラフブランチは座標シャッフル制約の下で残余を学習する。
アーキテクチャは設計によって単純で、介入は空間分岐の訓練方法である。
9つのWSIベンチマークの中で、ResTopoMILは分類と生存予測を1.15Mパラメータで改善し、摂動の感度を回復し、CAMELYON-16上でより強力なロカライズ証拠を与える。
関連論文リスト
- Monitoring Neural Training with Topology: A Footprint-Predictable Collapse Index [51.56484100374058]
我々は,MHM(Modular Morse Homology maintenance)とCI(Composite Collapse Index)を併用したオンライントポロジ対応型神経表現モニタを提案する。
コンプレックスを再構築する代わりに、スパース編集を一定のスケールで適用し、離散的なモースマッチングを維持し、高速でインクリメンタルな更新をもたらす。
論文 参考訳(メタデータ) (2026-04-28T19:21:21Z) - LogitDynamics: Reliable ViT Error Detection from Layerwise Logit Trajectories [1.4610038284393168]
視覚変換器(ViT)の誤差予測に関する研究
大規模言語モデルにおける内信号幻覚検出の動機付けにより、類似の深度信号がViTに存在するかどうかを考察する。
中間層に軽量な線形ヘッドを付加することにより、予測クラスのロジットとトップK競合の両方をキャプチャする最後のL層から特徴を抽出する。
これらの特徴に基づいて訓練された線形プローブは、エラーインジケータを予測する。
論文 参考訳(メタデータ) (2026-04-12T13:43:40Z) - Jigsaw Regularization in Whole-Slide Image Classification [0.0]
計算病理学では、染色組織を連続的なパッチとして配置された数十億画素を含む全スライド画像(WSI)にデジタル化する。
WSIの統計分析は、主にマルチインスタンスラーニング(MIL)による分類に焦点を当てており、スライドレベルのラベルはラベルのないパッチから推測される。
この研究は、空間認識をMILに組み込むことを目的とした最近のグラフベースの手法に基づいている。
これらの2つの特徴を組み合わせることで、乳がん、頭頸部がん、大腸癌のベンチマークデータセットに対する最先端の注意に基づくMILアプローチの分類が大幅に改善されることがわかりました。
論文 参考訳(メタデータ) (2026-03-20T18:04:25Z) - Fake It Right: Injecting Anatomical Logic into Synthetic Supervised Pre-training for Medical Segmentation [21.75204301463342]
ビジョントランスフォーマー(ViT)は3次元の医療セグメンテーションで優れるが、大量のデータセットを必要とする。
Formula-Driven Supervised Learning (F)は、合成数学的プリミティブを事前学習することで、プライバシ保護の代替手段を提供する。
本稿では,Fの無限拡張性と解剖学的リアリズムを一体化するための注釈付きインフォームド・シンセティック・アナトロジー・プレトレーニング・フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-01T08:15:18Z) - SemaMIL: Semantic-Aware Multiple Instance Learning with Retrieval-Guided State Space Modeling for Whole Slide Images [17.674866281320046]
SemaMILは,スライド画像全体から識別特徴を抽出する適応的手法である。
セマンティックに類似したパッチを、可逆的な置換によってシーケンスでクラスタ化する。
FLOPやパラメータを少なくして最先端のサブタイプ精度を実現する。
論文 参考訳(メタデータ) (2025-08-30T10:13:18Z) - Not Everything is All You Need: Toward Low-Redundant Optimization for Large Language Model Alignment [126.34547428473968]
大規模言語モデル(LLM)は、複雑なタスクやシナリオにおいて、人間の好みに合わせるのに依然として苦労しています。
我々は、最も有用な教師付き信号を用いて、最も関連性の高いニューロンを最適化することに焦点を当てた、textbfALLOという低輝度アライメント手法を提案する。
10個のデータセットに対する実験結果から、ALLOの有効性が示された。
論文 参考訳(メタデータ) (2024-06-18T13:34:40Z) - MamMIL: Multiple Instance Learning for Whole Slide Images with State Space Models [56.37780601189795]
本稿では,WSI分析のためのフレームワークMamMILを提案する。
私たちは各WSIを非指向グラフとして表現します。
マンバが1次元シーケンスしか処理できない問題に対処するために、トポロジ対応の走査機構を提案する。
論文 参考訳(メタデータ) (2024-03-08T09:02:13Z) - TPMIL: Trainable Prototype Enhanced Multiple Instance Learning for Whole
Slide Image Classification [13.195971707693365]
我々は、弱い教師付きWSI分類のための訓練可能なプロトタイプ強化深層MILフレームワークを開発した。
本手法により, 異なる腫瘍のサブタイプ間の相関関係を明らかにすることができる。
提案手法を2つのWSIデータセット上でテストし,新たなSOTAを実現する。
論文 参考訳(メタデータ) (2023-05-01T07:39:19Z) - Hierarchical Transformer for Survival Prediction Using Multimodality
Whole Slide Images and Genomics [63.76637479503006]
下流タスクのためのギガピクセルレベルのスライド病理画像(WSI)の良質な表現を学習することが重要である。
本稿では,病理画像と対応する遺伝子間の階層的マッピングを学習する階層型マルチモーダルトランスフォーマーフレームワークを提案する。
より優れたWSI表現能力を維持しながら、ベンチマーク手法と比較してGPUリソースが少ないアーキテクチャです。
論文 参考訳(メタデータ) (2022-11-29T23:47:56Z) - Spatial-spectral Hyperspectral Image Classification via Multiple Random
Anchor Graphs Ensemble Learning [88.60285937702304]
本稿では,複数のランダムアンカーグラフアンサンブル学習(RAGE)を用いた空間スペクトルHSI分類手法を提案する。
まず、各選択されたバンドのより記述的な特徴を抽出し、局所的な構造と領域の微妙な変化を保存するローカルバイナリパターンを採用する。
次に,アンカーグラフの構成に適応隣接代入を導入し,計算複雑性を低減した。
論文 参考訳(メタデータ) (2021-03-25T09:31:41Z) - Information Bottleneck Constrained Latent Bidirectional Embedding for
Zero-Shot Learning [59.58381904522967]
本稿では,密な視覚-意味的結合制約を持つ埋め込み型生成モデルを提案する。
視覚空間と意味空間の両方の埋め込みパラメトリック分布を校正する統合潜在空間を学習する。
本手法は, 画像のラベルを生成することにより, トランスダクティブZSL設定に容易に拡張できる。
論文 参考訳(メタデータ) (2020-09-16T03:54:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。