論文の概要: Ground Truth Or Dare: Factors Affecting The Creation Of Medical Datasets
For Training AI
- arxiv url: http://arxiv.org/abs/2309.12327v1
- Date: Sat, 12 Aug 2023 13:15:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 07:00:40.245003
- Title: Ground Truth Or Dare: Factors Affecting The Creation Of Medical Datasets
For Training AI
- Title(参考訳): AIトレーニングのための医療データセット作成に影響を及ぼす要因
- Authors: Hubert D. Zaj\k{a}c, Natalia R. Avlona, Tariq O. Andersen, Finn
Kensing, Irina Shklovski
- Abstract要約: アノテーションが作成される前に、医療領域におけるデータセット作成に関わる課題について説明する。
3つの保健医療機関での作業に基づいて、医療データセット作成プロセスを規定する5つの外部および内部要因について説明する。
- 参考スコア(独自算出の注目度): 5.0560627648135785
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: One of the core goals of responsible AI development is ensuring high-quality
training datasets. Many researchers have pointed to the importance of the
annotation step in the creation of high-quality data, but less attention has
been paid to the work that enables data annotation. We define this work as the
design of ground truth schema and explore the challenges involved in the
creation of datasets in the medical domain even before any annotations are
made. Based on extensive work in three health-tech organisations, we describe
five external and internal factors that condition medical dataset creation
processes. Three external factors include regulatory constraints, the context
of creation and use, and commercial and operational pressures. These factors
condition medical data collection and shape the ground truth schema design. Two
internal factors include epistemic differences and limits of labelling. These
directly shape the design of the ground truth schema. Discussions of what
constitutes high-quality data need to pay attention to the factors that shape
and constrain what is possible to be created, to ensure responsible AI design.
- Abstract(参考訳): 責任あるAI開発におけるコア目標の1つは、高品質なトレーニングデータセットの確保である。
多くの研究者は、高品質なデータを作成する上でのアノテーションステップの重要性を指摘しているが、データアノテーションを可能にする仕事にはあまり注意が払われていない。
我々は、この作業をグランド・トゥルート・スキーマの設計と定義し、アノテーションが作成される前にも医療領域におけるデータセットの作成に関わる課題を探求する。
3つの保健医療機関における広範な研究に基づいて、医療データセット作成プロセスの条件となる5つの外部および内部要因について述べる。
3つの外部要因には、規制の制約、作成と使用のコンテキスト、商業および運用上のプレッシャーが含まれる。
これらの要因は、医療データ収集を条件とし、基底真理スキーマ設計を形作る。
2つの内的要因は認識差とラベリングの限界である。
これらは、基底真理スキーマの設計を直接形成する。
高品質なデータを構成するものに関する議論は、責任あるai設計を確実にするために、何が作成可能かを形作り、制約する要素に注意を払う必要がある。
関連論文リスト
- Datasheets for Healthcare AI: A Framework for Transparency and Bias Mitigation [0.0]
トレーニングデータセットにおけるバイアス、データ不完全性、不正確性は、不公平な結果をもたらし、既存の格差を増幅する。
透明性を促進し,規制要件との整合性を確保するためのデータセットドキュメンテーションフレームワークを提案する。
この発見は、責任あるAI開発を促進する上で、データセットドキュメンテーションの重要性を強調している。
論文 参考訳(メタデータ) (2025-01-09T23:36:34Z) - TrialBench: Multi-Modal Artificial Intelligence-Ready Clinical Trial Datasets [57.067409211231244]
本稿では,マルチモーダルデータ(例えば,薬物分子,疾患コード,テキスト,分類・数値的特徴)と臨床治験設計における8つの重要な予測課題をカバーするAIreadyデータセットを精巧にキュレートした。
データセットのユーザビリティと信頼性を確保するため、各タスクに基本的な検証方法を提供する。
このようなオープンアクセスデータセットが利用可能になることは、臨床試験設計のための高度なAIアプローチの開発を促進することを期待する。
論文 参考訳(メタデータ) (2024-06-30T09:13:10Z) - Promoting the Responsible Development of Speech Datasets for Mental Health and Neurological Disorders Research [10.939564452457896]
我々は、メンタルヘルスや神経疾患のための音声データセットの展望をグラフ化する。
我々は、より責任ある研究を促進するために、倫理的な懸念に焦点を当てた実行可能なチェックリストにそれを蒸留する。
論文 参考訳(メタデータ) (2024-06-06T14:36:07Z) - Clairvoyance: A Pipeline Toolkit for Medical Time Series [95.22483029602921]
時系列学習は、データ駆動の*クリニカルな意思決定支援のパンとバターである*
Clairvoyanceは、ソフトウェアツールキットとして機能する、統合されたエンドツーエンドのオートMLフレンドリなパイプラインを提案する。
Clairvoyanceは、臨床時系列MLのための包括的で自動化可能なパイプラインの生存可能性を示す最初のものである。
論文 参考訳(メタデータ) (2023-10-28T12:08:03Z) - Explainable, Domain-Adaptive, and Federated Artificial Intelligence in
Medicine [5.126042819606137]
我々は、AIによる医療意思決定における特定の課題に対処する3つの主要な方法論的アプローチに焦点を当てる。
ドメイン適応と転送学習により、AIモデルをトレーニングし、複数のドメインにわたって適用することができる。
フェデレーテッド・ラーニングは、機密性の高い個人情報を漏らさずに大規模なモデルを学習することを可能にする。
論文 参考訳(メタデータ) (2022-11-17T03:32:00Z) - Do Deep Neural Networks Always Perform Better When Eating More Data? [82.6459747000664]
Identically Independent Distribution(IID)とOut of Distribution(OOD)による実験を設計する。
IID条件下では、情報の量は各サンプルの効果度、サンプルの寄与度、クラス間の差がクラス情報の量を決定する。
OOD条件下では、試料のクロスドメイン度が寄与を決定づけ、無関係元素によるバイアス適合はクロスドメインの重要な要素である。
論文 参考訳(メタデータ) (2022-05-30T15:40:33Z) - StyleGAN-Human: A Data-Centric Odyssey of Human Generation [96.7080874757475]
この研究は、データ中心の観点から、"データエンジニアリング"における複数の重要な側面を調査します。
さまざまなポーズやテクスチャを抽出した230万以上のサンプルで、大規模な人間の画像データセットを収集し、注釈付けします。
本稿では,データサイズ,データ分布,データアライメントといった,スタイルGANに基づく人為的生成のためのデータ工学における3つの重要な要素について精査する。
論文 参考訳(メタデータ) (2022-04-25T17:55:08Z) - Healthsheet: Development of a Transparency Artifact for Health Datasets [13.57051456780329]
健康に配慮したアンケートデータシートであるHealthsheetを紹介した。
ケーススタディとして、公開可能な3つの医療データセットと連携しています。
論文 参考訳(メタデータ) (2022-02-26T01:05:55Z) - Deep Mining External Imperfect Data for Chest X-ray Disease Screening [57.40329813850719]
我々は、外部のCXRデータセットを組み込むことで、不完全なトレーニングデータにつながると論じ、課題を提起する。
本研究は,多ラベル病分類問題を重み付き独立二分課題として分類する。
我々のフレームワークは、ドメインとラベルの相違を同時にモデル化し、対処し、優れた知識マイニング能力を実現する。
論文 参考訳(メタデータ) (2020-06-06T06:48:40Z) - DeepCoDA: personalized interpretability for compositional health data [58.841559626549376]
解釈可能性により、ドメインエキスパートはモデルの妥当性と信頼性を評価することができる。
医療の分野では、解釈可能なモデルは、技術的な要因とは無関係に、関連する生物学的メカニズムを含意すべきである。
我々は、パーソナライズされた解釈可能性について、サンプル固有の特徴属性の尺度として定義する。
論文 参考訳(メタデータ) (2020-06-02T05:14:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。