論文の概要: Structured dataset documentation: a datasheet for CheXpert
- arxiv url: http://arxiv.org/abs/2105.03020v1
- Date: Fri, 7 May 2021 00:45:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-10 12:21:33.280469
- Title: Structured dataset documentation: a datasheet for CheXpert
- Title(参考訳): 構造化データセットドキュメント:CheXpert用のデータシート
- Authors: Christian Garbin, Pranav Rajpurkar, Jeremy Irvin, Matthew P. Lungren,
Oge Marques
- Abstract要約: 深層学習は、放射線学者が画像のトリアージと診断を助ける可能性がある。
CheXpertデータセットは、ボード認定放射線学者の参加により作成されました。
本稿では,従来のCheXpert論文を拡張し,信頼できるラベルの作成において,放射線学者が果たす重要な役割について述べる。
- 参考スコア(独自算出の注目度): 6.7784989798724435
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Billions of X-ray images are taken worldwide each year. Machine learning, and
deep learning in particular, has shown potential to help radiologists triage
and diagnose images. However, deep learning requires large datasets with
reliable labels. The CheXpert dataset was created with the participation of
board-certified radiologists, resulting in the strong ground truth needed to
train deep learning networks. Following the structured format of Datasheets for
Datasets, this paper expands on the original CheXpert paper and other sources
to show the critical role played by radiologists in the creation of reliable
labels and to describe the different aspects of the dataset composition in
detail. Such structured documentation intends to increase the awareness in the
machine learning and medical communities of the strengths, applications, and
evolution of CheXpert, thereby advancing the field of medical image analysis.
Another objective of this paper is to put forward this dataset datasheet as an
example to the community of how to create detailed and structured descriptions
of datasets. We believe that clearly documenting the creation process, the
contents, and applications of datasets accelerates the creation of useful and
reliable models.
- Abstract(参考訳): 毎年数十億枚のX線写真が世界中で撮影されている。
機械学習とディープラーニングは、放射線学者が画像のトリアージと診断を助ける可能性がある。
しかし、ディープラーニングは信頼できるラベルを持つ大規模なデータセットを必要とする。
CheXpertデータセットは、ボード認証された放射線学者の参加によって作成された。
本論文は,データセット用データシートの構造化形式に倣って,従来のCheXpert論文や他の資料を拡張し,信頼性ラベルの作成において放射線学者が果たす重要な役割を明らかにし,データセット構成の異なる側面を詳細に記述する。
このような構造化ドキュメンテーションは、CheXpertの強み、応用、進化に対する機械学習と医療コミュニティの認識を高め、医療画像分析の分野を前進させることを目的としている。
本論文のもう一つの目的は、データセットの詳細な構造記述を作成するためのコミュニティの例として、このデータセットデータシートを提出することである。
データセットの作成プロセス、内容、アプリケーションを明確に文書化することで、有用で信頼性の高いモデルの作成が促進されると考えている。
関連論文リスト
- SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents [49.54155332262579]
我々は,科学論文のデータセット,メソッド,タスクに関連するエンティティに対して,新たなエンティティと関係抽出データセットをリリースする。
我々のデータセットには、24k以上のエンティティと12kの関係を持つ106の注釈付きフルテキストの科学出版物が含まれています。
論文 参考訳(メタデータ) (2024-10-28T15:56:49Z) - RadEx: A Framework for Structured Information Extraction from Radiology Reports based on Large Language Models [0.0]
30億回以上の放射線検査とコンピュータ断層撮影の結果、主に自由テキストを含む非構造化の放射線学レポートが得られた。
構造化レポートの潜在的な利点にもかかわらず、その採用は確立されたプロセス、リソースの制約、潜在的な情報の喪失によって制限される。
本研究では,放射線学報告から自動情報抽出を行うシステムを開発するためのエンドツーエンドフレームワークであるRadExを紹介する。
論文 参考訳(メタデータ) (2024-06-14T08:17:44Z) - HoneyBee: A Scalable Modular Framework for Creating Multimodal Oncology Datasets with Foundational Embedding Models [16.567468717846676]
HoneyBeeは、マルチモーダルオンコロジーデータセットを構築するためのスケーラブルなモジュラーフレームワークである。
生の医療データに欠かせない特徴や関係を捉えた埋め込みを生成する。
HoneyBeeは、現在進行中のオープンソース活動であり、コード、データセット、モデルは、プロジェクトリポジトリで利用可能である。
論文 参考訳(メタデータ) (2024-05-13T04:35:14Z) - Interactive Distillation of Large Single-Topic Corpora of Scientific
Papers [1.2954493726326113]
より堅牢だが時間を要するアプローチは、主題の専門家が文書を手書きするデータセットを構成的に構築することである。
ここでは,学術文献のターゲットデータセットを構築的に生成するための,機械学習に基づく新しいツールを紹介する。
論文 参考訳(メタデータ) (2023-09-19T17:18:36Z) - Dynamic Graph Enhanced Contrastive Learning for Chest X-ray Report
Generation [92.73584302508907]
コントラスト学習を用いた医療レポート作成を支援するために,動的構造とノードを持つ知識グラフを提案する。
詳しくは、グラフの基本構造は一般知識から事前構築される。
各イメージ機能は、レポート生成のためにデコーダモジュールに入力する前に、独自の更新グラフに統合される。
論文 参考訳(メタデータ) (2023-03-18T03:53:43Z) - Data Cards: Purposeful and Transparent Dataset Documentation for
Responsible AI [0.0]
我々は、データセットの透明性、目的、人間中心のドキュメンテーションを促進するためのデータカードを提案する。
データカードは、利害関係者が必要とするMLデータセットのさまざまな側面に関する重要な事実の要約である。
実世界のユーティリティと人間中心性にデータカードを基盤とするフレームワークを提示する。
論文 参考訳(メタデータ) (2022-04-03T13:49:36Z) - Neural Content Extraction for Poster Generation of Scientific Papers [84.30128728027375]
科学論文のポスター生成の問題は未解明である。
これまでの研究は主にポスターレイアウトとパネル構成に重点を置いていたが、コンテンツ抽出の重要性は無視された。
ポスターパネルのテキスト要素と視覚要素の両方を得るために,紙セクションのテキスト,図形,テーブルを同時に抽出するニューラル抽出モデルを提案する。
論文 参考訳(メタデータ) (2021-12-16T01:19:37Z) - Creation and Validation of a Chest X-Ray Dataset with Eye-tracking and
Report Dictation for AI Development [47.1152650685625]
我々は、人工知能の研究者を支援するために、チェストX線(CXR)画像の豊富なデータセットを開発した。
データはアイトラッキングシステムを用いて収集され、放射線学者は1,083 CXR画像でレビューし報告した。
論文 参考訳(メタデータ) (2020-09-15T23:12:49Z) - Learning Invariant Feature Representation to Improve Generalization
across Chest X-ray Datasets [55.06983249986729]
我々は、トレーニングデータと同じデータセットでテストすると、ディープラーニングモデルが、異なるソースからデータセットでテストされると、パフォーマンスが低下し始めることを示す。
対戦型トレーニング戦略を用いることで、ネットワークはソース不変表現を学習せざるを得ないことを示す。
論文 参考訳(メタデータ) (2020-08-04T07:41:15Z) - Deep Mining External Imperfect Data for Chest X-ray Disease Screening [57.40329813850719]
我々は、外部のCXRデータセットを組み込むことで、不完全なトレーニングデータにつながると論じ、課題を提起する。
本研究は,多ラベル病分類問題を重み付き独立二分課題として分類する。
我々のフレームワークは、ドメインとラベルの相違を同時にモデル化し、対処し、優れた知識マイニング能力を実現する。
論文 参考訳(メタデータ) (2020-06-06T06:48:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。