論文の概要: THUNDER: Tile-level Histopathology image UNDERstanding benchmark
- arxiv url: http://arxiv.org/abs/2507.07860v1
- Date: Thu, 10 Jul 2025 15:41:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.46802
- Title: THUNDER: Tile-level Histopathology image UNDERstanding benchmark
- Title(参考訳): ThUNDER:Tile-level Histopathology image Understanding benchmark
- Authors: Pierre Marza, Leo Fillioux, Sofiène Boutaj, Kunal Mahatha, Christian Desrosiers, Pablo Piantanida, Jose Dolz, Stergios Christodoulidis, Maria Vakalopoulou,
- Abstract要約: THUNDERは、デジタル病理基盤モデルのタイルレベルベンチマークである。
本稿では,16種類のデータセットに対して,23の基盤モデルを包括的に比較する。
- 参考スコア(独自算出の注目度): 32.185038017473396
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Progress in a research field can be hard to assess, in particular when many concurrent methods are proposed in a short period of time. This is the case in digital pathology, where many foundation models have been released recently to serve as feature extractors for tile-level images, being used in a variety of downstream tasks, both for tile- and slide-level problems. Benchmarking available methods then becomes paramount to get a clearer view of the research landscape. In particular, in critical domains such as healthcare, a benchmark should not only focus on evaluating downstream performance, but also provide insights about the main differences between methods, and importantly, further consider uncertainty and robustness to ensure a reliable usage of proposed models. For these reasons, we introduce THUNDER, a tile-level benchmark for digital pathology foundation models, allowing for efficient comparison of many models on diverse datasets with a series of downstream tasks, studying their feature spaces and assessing the robustness and uncertainty of predictions informed by their embeddings. THUNDER is a fast, easy-to-use, dynamic benchmark that can already support a large variety of state-of-the-art foundation, as well as local user-defined models for direct tile-based comparison. In this paper, we provide a comprehensive comparison of 23 foundation models on 16 different datasets covering diverse tasks, feature analysis, and robustness. The code for THUNDER is publicly available at https://github.com/MICS-Lab/thunder.
- Abstract(参考訳): 研究分野の進歩は、特に短時間で多くの同時手法が提案される場合、評価が難しい。
これは、最近多くの基礎モデルがタイルレベルの画像の特徴抽出器としてリリースされ、タイルレベルの問題とスライドレベルの問題の両方に様々な下流タスクで使用されているデジタル病理学のケースである。
利用可能なメソッドのベンチマークは、研究状況のより明確なビューを得るために最重要になる。
特に、医療などの重要な領域では、ベンチマークは下流のパフォーマンスを評価することに集中するだけでなく、メソッドの主な違いに関する洞察を提供するべきである。
これらの理由から、デジタル病理基盤モデルのためのタイルレベルベンチマークであるTHUNDERを導入し、様々なデータセット上の多くのモデルを一連の下流タスクと効率的に比較し、特徴空間を研究し、埋め込みによって予測されるロバスト性と不確実性を評価する。
THUNDERは高速で使いやすく、ダイナミックなベンチマークで、さまざまな最先端基盤と、直接タイルベースの比較のためのローカルユーザ定義モデルをサポートしています。
本稿では, 多様なタスク, 特徴分析, 堅牢性を含む16種類のデータセットに対する23の基盤モデルを総合的に比較する。
THUNDERのコードはhttps://github.com/MICS-Lab/thunderで公開されている。
関連論文リスト
- On the Robustness of Human-Object Interaction Detection against Distribution Shift [27.40641711088878]
近年,Human-Object Interaction (HOI) 検出が大幅に進歩している。
既存の作業は、必然的な分布シフトを伴う現実的なシナリオとはかけ離れた、理想的なイメージと自然な分布を持つ標準設定に重点を置いている。
本研究では,様々な分布シフト下でのHOI検出モデルのロバスト性をベンチマークし,解析し,向上させることにより,この問題を考察する。
論文 参考訳(メタデータ) (2025-06-22T13:01:34Z) - LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。
ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2024-10-14T17:51:23Z) - On the Out of Distribution Robustness of Foundation Models in Medical
Image Segmentation [47.95611203419802]
視覚と言語の基礎は、様々な自然画像とテキストデータに基づいて事前訓練されており、有望なアプローチとして現れている。
一般化性能を,同じ分布データセット上で微調整した後,事前学習した各種モデルの未確認領域と比較した。
さらに,凍結モデルに対する新しいベイズ不確実性推定法を開発し,分布外データに基づくモデルの性能評価指標として利用した。
論文 参考訳(メタデータ) (2023-11-18T14:52:10Z) - Anchor Points: Benchmarking Models with Much Fewer Examples [88.02417913161356]
6つの人気のある言語分類ベンチマークでは、多数の点の正しいクラスに対するモデル信頼度はモデル間で強く相関している。
Anchor Point Selectionは,データセット全体にわたるモデル動作をキャプチャする,データセットの小さなサブセットを選択する手法である。
平均絶対誤差が低いデータセットの他のすべての点について、クラスごとの予測モデルを推定するために、いくつかのアンカーポイントを使用することができる。
論文 参考訳(メタデータ) (2023-09-14T17:45:51Z) - Comparing Foundation Models using Data Kernels [13.099029073152257]
基礎モデルの埋め込み空間幾何学を直接比較するための方法論を提案する。
提案手法はランダムグラフ理論に基づいており, 埋め込み類似性の有効な仮説検証を可能にする。
本稿では, 距離関数を付加したモデルの多様体が, 下流の指標と強く相関することを示す。
論文 参考訳(メタデータ) (2023-05-09T02:01:07Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。