論文の概要: Open-source framework for detecting bias and overfitting for large pathology images
- arxiv url: http://arxiv.org/abs/2503.01827v1
- Date: Mon, 03 Mar 2025 18:52:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:25:27.983318
- Title: Open-source framework for detecting bias and overfitting for large pathology images
- Title(参考訳): 大規模病理画像に対するバイアス・オーバーフィッティング検出のためのオープンソースフレームワーク
- Authors: Anders Sildnes, Nikita Shvetsov, Masoud Tafavvoghi, Vi Ngoc-Nha Tran, Kajsa Møllersen, Lill-Tove Rasmussen Busund, Thomas K. Kilvær, Lars Ailo Bongo,
- Abstract要約: 数十億のデータサンプルを持つデータセットでトレーニングされた基礎モデルでさえ、過度な適合とバイアスにつながるショートカットを発生させる可能性がある。
ディープラーニングモデルをデバッグするための一般化されたモデルに依存しないフレームワークを提案する。
私たちのフレームワークはオープンソースツールとしてGitHubで利用可能です。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Even foundational models that are trained on datasets with billions of data samples may develop shortcuts that lead to overfitting and bias. Shortcuts are non-relevant patterns in data, such as the background color or color intensity. So, to ensure the robustness of deep learning applications, there is a need for methods to detect and remove such shortcuts. Today's model debugging methods are time consuming since they often require customization to fit for a given model architecture in a specific domain. We propose a generalized, model-agnostic framework to debug deep learning models. We focus on the domain of histopathology, which has very large images that require large models - and therefore large computation resources. It can be run on a workstation with a commodity GPU. We demonstrate that our framework can replicate non-image shortcuts that have been found in previous work for self-supervised learning models, and we also identify possible shortcuts in a foundation model. Our easy to use tests contribute to the development of more reliable, accurate, and generalizable models for WSI analysis. Our framework is available as an open-source tool available on github.
- Abstract(参考訳): 数十億のデータサンプルを持つデータセットでトレーニングされた基礎モデルでさえ、過度な適合とバイアスにつながるショートカットを発生させる可能性がある。
ショートカットは、背景色や色強度など、データに関連のないパターンである。
したがって、ディープラーニングアプリケーションの堅牢性を確保するためには、そのようなショートカットを検出して削除する方法が必要である。
今日のモデルデバッギングメソッドは、特定のドメインのモデルアーキテクチャに適合するためにカスタマイズを必要とすることが多いため、時間がかかります。
ディープラーニングモデルをデバッグするための一般化されたモデルに依存しないフレームワークを提案する。
われわれは、大きなモデルを必要とする非常に大きな画像、すなわち巨大な計算資源を持つ病理学の領域に焦点を当てている。
これは、コモディティGPUを備えたワークステーションで実行することができる。
我々は,従来の自己教師型学習モデルで見出された非イメージショートカットを再現できることを示すとともに,基礎モデルで可能なショートカットを同定する。
簡単に使えるテストは、より信頼性が高く、正確で、WSI分析のための一般化可能なモデルの開発に寄与します。
私たちのフレームワークはオープンソースツールとしてgithubで利用可能です。
関連論文リスト
- Imitating the Functionality of Image-to-Image Models Using a Single Example [24.819964498441635]
入力と出力のペアを観測することで、画像から画像への変換モデルの機能を模倣する可能性について検討する。
ひとつの例でさえ、モデルの機能の模倣を学ぶのに十分であることがわかったのです。
論文 参考訳(メタデータ) (2024-06-02T18:30:41Z) - Domain Bridge: Generative model-based domain forensic for black-box
models [20.84645356097581]
我々は、一般的なデータドメインだけでなく、その特定の属性も決定する拡張されたアプローチを導入する。
本手法では,エンコーダに画像埋め込みモデル,デコーダに生成モデルを用いる。
我々のアプローチの重要な強みは、生成モデルである安定拡散をトレーニングする拡張データセットであるLAION-5Bを活用することである。
論文 参考訳(メタデータ) (2024-02-07T07:57:43Z) - Low-resource finetuning of foundation models beats state-of-the-art in
histopathology [3.4577420145036375]
病理組織学データの特徴抽出器として最も人気のある視覚基盤モデルをベンチマークする。
データセットに応じて、単一のGPU上のファンデーションモデルをわずか2時間から3日で微調整することで、最先端の機能抽出器にマッチまたは性能を向上することができる。
これは、大量のリソースとデータセットを持つ機関だけが特徴抽出器を訓練できる、現在の状態からかなり変化している。
論文 参考訳(メタデータ) (2024-01-09T18:46:59Z) - Open World Object Detection in the Era of Foundation Models [53.683963161370585]
5つの実世界のアプリケーション駆動データセットを含む新しいベンチマークを導入する。
本稿では,オープンワールドのための新しいオブジェクト検出モデル(FOMO)を提案する。
論文 参考訳(メタデータ) (2023-12-10T03:56:06Z) - A Simple and Efficient Baseline for Data Attribution on Images [107.12337511216228]
現在の最先端のアプローチでは、モデル予測を正確に評価するために、最大30万のモデルの大規模なアンサンブルが必要となる。
本研究では、自己教師付き学習によって事前訓練されたバックボーンの特徴空間を利用して、データ帰属を行うミニマリストベースラインに焦点を当てる。
提案手法はモデルに依存しず,大規模データセットに容易にスケールできる。
論文 参考訳(メタデータ) (2023-11-03T17:29:46Z) - Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。
CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。
単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:28:29Z) - DINOv2: Learning Robust Visual Features without Supervision [75.42921276202522]
この研究は、既存の事前学習手法、特に自己教師付き手法が、多様なソースから十分なキュレートされたデータで訓練すれば、そのような特徴を生み出すことができることを示している。
技術的な貢献の多くは、大規模なトレーニングを加速し、安定化することを目的としています。
データの観点からは、自己組織化されていないデータではなく、専用で多様でキュレートされた画像データセットを構築するための自動パイプラインを提案する。
論文 参考訳(メタデータ) (2023-04-14T15:12:19Z) - ImageNet-E: Benchmarking Neural Network Robustness via Attribute Editing [45.14977000707886]
ImageNetにおける高い精度は、通常、異なる汚職に対してより堅牢性をもたらす。
我々は、背景、大きさ、位置、方向の制御によるオブジェクト編集のためのツールキットを作成する。
我々は、畳み込みニューラルネットワークと視覚変換器の両方を含む現在のディープラーニングモデルの性能を評価する。
論文 参考訳(メタデータ) (2023-03-30T02:02:32Z) - InvGAN: Invertible GANs [88.58338626299837]
InvGANはInvertible GANの略で、高品質な生成モデルの潜在空間に実際の画像を埋め込むことに成功した。
これにより、画像のインペイント、マージ、オンラインデータ拡張を実行できます。
論文 参考訳(メタデータ) (2021-12-08T21:39:00Z) - Top-KAST: Top-K Always Sparse Training [50.05611544535801]
トレーニングを通して一定間隔を保存するTop-KASTを提案する。
確立したImageNetベンチマークのトレーニングモデルでは,従来の作業と同等かそれ以上に動作可能であることを示す。
ImageNetの結果に加えて、言語モデリングの分野においても、我々のアプローチを実証しています。
論文 参考訳(メタデータ) (2021-06-07T11:13:05Z) - Dynamic transformation of prior knowledge into Bayesian models for data
streams [2.294014185517203]
ストリーミング環境からベイズモデルを学ぶ際に,データを無限に,そして逐次的に学習する際に,事前知識を効果的に活用する方法を検討する。
本稿では,データストリームの基盤となるベイズモデルに,異なる形式の事前知識を組み込むことのできる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-13T05:39:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。