論文の概要: Is dataset condensation a silver bullet for healthcare data sharing?
- arxiv url: http://arxiv.org/abs/2305.03711v1
- Date: Fri, 5 May 2023 17:51:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-08 12:53:09.220524
- Title: Is dataset condensation a silver bullet for healthcare data sharing?
- Title(参考訳): データセット凝縮は医療データ共有の銀の弾丸か?
- Authors: Yujiang Wang, Anshul Thakur, Mingzhi Dong, Pingchuan Ma, Stavros
Petridis, Li Shang, Tingting Zhu, David Clifton
- Abstract要約: 我々は、AI研究のための医療データ共有において、最近のディープラーニングの出現、データセット凝縮(DC)の展望について研究する。
凝縮されたデータは、元の記録を抽象化し、個人レベルの知識を不可逆的に隠蔽して、ボナフェイドの識別を解除する。
PhysioNet-2012では、20のサンプルからなる凝縮データセットが80.3%のAUCで死亡予測を行うことができる。
- 参考スコア(独自算出の注目度): 27.88462381595931
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safeguarding personal information is paramount for healthcare data sharing, a
challenging issue without any silver bullet thus far. We study the prospect of
a recent deep-learning advent, dataset condensation (DC), in sharing healthcare
data for AI research, and the results are promising. The condensed data
abstracts original records and irreversibly conceals individual-level knowledge
to achieve a bona fide de-identification, which permits free sharing. Moreover,
the original deep-learning utilities are well preserved in the condensed data
with compressed volume and accelerated model convergences. In PhysioNet-2012, a
condensed dataset of 20 samples can orient deep models attaining 80.3% test AUC
of mortality prediction (versus 85.8% of 5120 original records), an inspiring
discovery generalised to MIMIC-III and Coswara datasets. We also interpret the
inhere privacy protections of DC through theoretical analysis and empirical
evidence. Dataset condensation opens a new gate to sharing healthcare data for
AI research with multiple desirable traits.
- Abstract(参考訳): 個人情報の保護は、医療データ共有にとって重要な課題だ。
我々は、AI研究のための医療データ共有において、近年のディープラーニングの出現、データセット凝縮(DC)の展望を調査し、その結果が期待できる。
凝縮されたデータはオリジナルの記録を抽象化し、個々のレベルの知識を不可逆的に隠蔽し、自由な共有を可能にするボナフェイドの非識別を実現する。
さらに、元のディープラーニングユーティリティは圧縮体積と加速モデル収束を伴う凝縮データによく保存されている。
physionet-2012では、20のサンプルからなる凝縮されたデータセットは、死亡予測の80.3%のテストauc(5120のオリジナルレコードのうち85.8%)を達成する深層モデルの向き付けが可能である。
我々はまた、理論分析と実証的な証拠を通じてdcのプライバシー保護を解釈する。
Dataset Condensationは、AI研究のための医療データを複数の望ましい特徴で共有する新たな門を開く。
関連論文リスト
- TrialBench: Multi-Modal Artificial Intelligence-Ready Clinical Trial Datasets [57.067409211231244]
本稿では,マルチモーダルデータ(例えば,薬物分子,疾患コード,テキスト,分類・数値的特徴)と臨床治験設計における8つの重要な予測課題をカバーするAIreadyデータセットを精巧にキュレートした。
データセットのユーザビリティと信頼性を確保するため、各タスクに基本的な検証方法を提供する。
このようなオープンアクセスデータセットが利用可能になることは、臨床試験設計のための高度なAIアプローチの開発を促進することを期待する。
論文 参考訳(メタデータ) (2024-06-30T09:13:10Z) - Balancing Privacy and Progress in Artificial Intelligence: Anonymization
in Histopathology for Biomedical Research and Education [1.8078387709049526]
医療データを“可能な限りオープン”に転送することは、患者のプライバシにリスクをもたらす。
既存の規制は、再識別リスクを避けるため、医療データを「必要に応じてクローズド」し続けるよう推進している。
本稿では,医療データ共有に関する法的規制と用語について考察する。
論文 参考訳(メタデータ) (2023-07-18T16:53:07Z) - Human-Centric Multimodal Machine Learning: Recent Advances and Testbed
on AI-based Recruitment [66.91538273487379]
人間中心のアプローチでAIアプリケーションを開発する必要性には、ある程度のコンセンサスがある。
i)ユーティリティと社会的善、(ii)プライバシとデータ所有、(iii)透明性と説明責任、(iv)AIによる意思決定プロセスの公正性。
異種情報ソースに基づく現在のマルチモーダルアルゴリズムは、データ中の機密要素や内部バイアスによってどのように影響を受けるかを検討する。
論文 参考訳(メタデータ) (2023-02-13T16:44:44Z) - Non-Imaging Medical Data Synthesis for Trustworthy AI: A Comprehensive
Survey [6.277848092408045]
データ品質は、医療において信頼できるAIを開発する上で重要な要素である。
高品質なデータセットへのアクセスは、データ取得の技術的困難によって制限される。
医療データの大規模な共有は、厳格な倫理的制約によって妨げられている。
論文 参考訳(メタデータ) (2022-09-17T13:34:17Z) - Why patient data cannot be easily forgotten? [18.089204090335667]
患者データのモデル性能への影響について検討し, 患者データに対する2つの仮説を定式化する。
そこで我々は,患者を意識した「忘れる」アプローチを提案する。
論文 参考訳(メタデータ) (2022-06-29T11:36:49Z) - When Accuracy Meets Privacy: Two-Stage Federated Transfer Learning
Framework in Classification of Medical Images on Limited Data: A COVID-19
Case Study [77.34726150561087]
新型コロナウイルスのパンデミックが急速に広がり、世界の医療資源が不足している。
CNNは医療画像の解析に広く利用され、検証されている。
論文 参考訳(メタデータ) (2022-03-24T02:09:41Z) - How to Leverage Multimodal EHR Data for Better Medical Predictions? [13.401754962583771]
電子健康記録(EHR)データの複雑さは、ディープラーニングの適用の課題である。
本稿では,まずEHRから臨床ノートを抽出し,これらのデータを統合する方法を提案する。
2つの医療予測タスクの結果、異なるデータを持つ融合モデルが最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-10-29T13:26:05Z) - FLOP: Federated Learning on Medical Datasets using Partial Networks [84.54663831520853]
新型コロナウイルスの感染拡大で医療資源が不足している。
新型コロナウイルスの診断を緩和するために、さまざまなデータ駆動型ディープラーニングモデルが開発されている。
患者のプライバシー上の懸念から、データそのものはまだ乏しい。
我々は、textbfPartial Networks (FLOP) を用いた、シンプルで効果的な textbfFederated textbfL textbfon Medical データセットを提案する。
論文 参考訳(メタデータ) (2021-02-10T01:56:58Z) - Uncovering the structure of clinical EEG signals with self-supervised
learning [64.4754948595556]
教師付き学習パラダイムは、しばしば利用可能なラベル付きデータの量によって制限される。
この現象は脳波(EEG)などの臨床関連データに特に問題となる。
ラベルのないデータから情報を抽出することで、ディープニューラルネットワークとの競合性能に到達することができるかもしれない。
論文 参考訳(メタデータ) (2020-07-31T14:34:47Z) - A new paradigm for accelerating clinical data science at Stanford
Medicine [1.3814679165245243]
Stanford Medicineは、私たちの学術研究コミュニティがより良い臨床データサイエンスを行うための、新しいデータプラットフォームを構築している。
病院には大量の患者データがあり、研究者はそのデータとAIアプローチを再利用できることを実証している。
私たちは、データにアクセスし分析する時間を短縮することを目的とした、新しいセキュアなビッグデータプラットフォームを構築しています。
論文 参考訳(メタデータ) (2020-03-17T16:21:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。