論文の概要: HISTAI: An Open-Source, Large-Scale Whole Slide Image Dataset for Computational Pathology
- arxiv url: http://arxiv.org/abs/2505.12120v1
- Date: Sat, 17 May 2025 18:59:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.05053
- Title: HISTAI: An Open-Source, Large-Scale Whole Slide Image Dataset for Computational Pathology
- Title(参考訳): HISTAI: 計算病理のためのオープンソースの大規模スライド画像データセット
- Authors: Dmitry Nechaev, Alexey Pchelnikov, Ekaterina Ivanova,
- Abstract要約: HISTAIは、様々な組織タイプから6万枚以上のスライドからなる、大きく、マルチモーダルでオープンアクセス可能なWSI(Whole Slide Image)コレクションである。
HISTAIデータセットの各症例には、診断、人口統計情報、詳細な病理アノテーション、標準化された診断コーディングを含む広範な臨床メタデータが添付されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in Digital Pathology (DP), particularly through artificial intelligence and Foundation Models, have underscored the importance of large-scale, diverse, and richly annotated datasets. Despite their critical role, publicly available Whole Slide Image (WSI) datasets often lack sufficient scale, tissue diversity, and comprehensive clinical metadata, limiting the robustness and generalizability of AI models. In response, we introduce the HISTAI dataset, a large, multimodal, open-access WSI collection comprising over 60,000 slides from various tissue types. Each case in the HISTAI dataset is accompanied by extensive clinical metadata, including diagnosis, demographic information, detailed pathological annotations, and standardized diagnostic coding. The dataset aims to fill gaps identified in existing resources, promoting innovation, reproducibility, and the development of clinically relevant computational pathology solutions. The dataset can be accessed at https://github.com/HistAI/HISTAI.
- Abstract(参考訳): デジタル病理学(DP)の最近の進歩、特に人工知能とファンデーションモデルにより、大規模で多様な、豊富な注釈付きデータセットの重要性が強調されている。
彼らの重要な役割にもかかわらず、一般公開されているWhole Slide Image(WSI)データセットには、十分なスケール、組織多様性、包括的な臨床メタデータが欠如しており、AIモデルの堅牢性と一般化性が制限されている。
HISTAIデータセットは,様々な組織タイプから6万枚以上のスライドからなる,大規模でマルチモーダルなオープンアクセスWSIコレクションである。
HISTAIデータセットの各症例には、診断、人口統計情報、詳細な病理アノテーション、標準化された診断コーディングを含む広範な臨床メタデータが添付されている。
このデータセットは、既存のリソースで特定されたギャップを埋め、イノベーションを促進し、再現性を高め、臨床的に関連する計算病理ソリューションを開発することを目的としている。
データセットはhttps://github.com/HistAI/HISTAIでアクセスできる。
関連論文リスト
- A Large-Scale Vision-Language Dataset Derived from Open Scientific Literature to Advance Biomedical Generalist AI [70.06771291117965]
PubMed Central Open Accessサブセットから派生したオープンソースのデータセットであるBiomedicaを紹介する。
Biomedicaには600万以上の科学論文と2400万の画像テキストペアが含まれている。
私たちは、Webサーバを通じてスケーラブルなストリーミングと検索APIを提供し、AIシステムとのシームレスな統合を容易にします。
論文 参考訳(メタデータ) (2025-03-26T05:56:46Z) - Multi-OCT-SelfNet: Integrating Self-Supervised Learning with Multi-Source Data Fusion for Enhanced Multi-Class Retinal Disease Classification [2.5091334993691206]
網膜疾患診断のための堅牢なディープラーニングモデルの開発には、トレーニングのためのかなりのデータセットが必要である。
より小さなデータセットで効果的に一般化する能力は、依然として永続的な課題である。
さまざまなデータソースを組み合わせて、パフォーマンスを改善し、新しいデータに一般化しています。
論文 参考訳(メタデータ) (2024-09-17T17:22:35Z) - Dataset Distillation for Histopathology Image Classification [46.04496989951066]
病理画像データセット(Histo-DD)に適した新しいデータセット蒸留アルゴリズムを提案する。
提案アルゴリズムの有効性を総合的に評価し, パッチレベルとスライドレベルの両方の分類タスクにおいて, 組織学的サンプルを生成する。
論文 参考訳(メタデータ) (2024-08-19T05:53:38Z) - Large-scale Long-tailed Disease Diagnosis on Radiology Images [51.453990034460304]
RadDiagは、様々なモダリティと解剖学にわたる2Dおよび3D入力をサポートする基礎モデルである。
私たちのデータセットであるRP3D-DiagDSは、5,568の障害をカバーする195,010のスキャンで40,936の症例を含む。
論文 参考訳(メタデータ) (2023-12-26T18:20:48Z) - HEALNet: Multimodal Fusion for Heterogeneous Biomedical Data [10.774128925670183]
本稿では,フレキシブルなマルチモーダル融合アーキテクチャであるHybrid Early-fusion Attention Learning Network (HEALNet)を提案する。
The Cancer Genome Atlas (TCGA) の4つのがんデータセットにおける全スライド画像と多モードデータを用いたマルチモーダルサバイバル解析を行った。
HEALNetは、他のエンドツーエンドの訓練された融合モデルと比較して最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-15T17:06:26Z) - GastroVision: A Multi-class Endoscopy Image Dataset for Computer Aided
Gastrointestinal Disease Detection [6.231109933741383]
本データセットは, 解剖学的所見, 病理所見, ポリープ除去症例, 正常所見を含む。
経験豊富なGI内科医によって注釈され、検証された。
我々のデータセットは、GI病の検出と分類のためのAIベースのアルゴリズムの開発を促進することができると信じている。
論文 参考訳(メタデータ) (2023-07-16T19:36:03Z) - CLCLSA: Cross-omics Linked embedding with Contrastive Learning and Self
Attention for multi-omics integration with incomplete multi-omics data [47.2764293508916]
不均一・高次元マルチオミクスデータの統合は、遺伝データの理解においてますます重要になっている。
マルチオミクスデータ統合を行う際に直面する障害のひとつは、機器の感度とコストによる未ペアリングマルチオミクスデータの存在である。
クロスオミクスを用いたマルチオミクス統合のための深層学習手法を提案する。
論文 参考訳(メタデータ) (2023-04-12T00:22:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。