論文の概要: Data-Effective Learning: A Comprehensive Medical Benchmark
- arxiv url: http://arxiv.org/abs/2401.17542v1
- Date: Wed, 31 Jan 2024 02:09:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 15:51:26.708371
- Title: Data-Effective Learning: A Comprehensive Medical Benchmark
- Title(参考訳): データ影響学習: 総合的な医療ベンチマーク
- Authors: Wenxuan Yang, Weimin Tan, Yuqi Sun, Bo Yan
- Abstract要約: データ効率のよい学習は、AIモデルをトレーニングするための最も影響力のある方法でデータを使用することを目的としている。
標準の欠如と総合的なベンチマークのため、医療データ有効学習の研究は不十分である。
このベンチマークには、31の医療センターから数百万のデータサンプルを含むデータセットが含まれている。
- 参考スコア(独自算出の注目度): 16.04573678594975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data-effective learning aims to use data in the most impactful way to train
AI models, which involves strategies that focus on data quality rather than
quantity, ensuring the data used for training has high informational value.
Data-effective learning plays a profound role in accelerating AI training,
reducing computational costs, and saving data storage, which is very important
as the volume of medical data in recent years has grown beyond many people's
expectations. However, due to the lack of standards and comprehensive
benchmark, research on medical data-effective learning is poorly studied. To
address this gap, our paper introduces a comprehensive benchmark specifically
for evaluating data-effective learning in the medical field. This benchmark
includes a dataset with millions of data samples from 31 medical centers
(DataDEL), a baseline method for comparison (MedDEL), and a new evaluation
metric (NormDEL) to objectively measure data-effective learning performance.
Our extensive experimental results show the baseline MedDEL can achieve
performance comparable to the original large dataset with only 5% of the data.
Establishing such an open data-effective learning benchmark is crucial for the
medical AI research community because it facilitates efficient data use,
promotes collaborative breakthroughs, and fosters the development of
cost-effective, scalable, and impactful healthcare solutions. The project can
be accessed at
https://github.com/shadow2469/Data-Effective-Learning-A-Comprehensive-Medical-Benchmark.git.
- Abstract(参考訳): データ効率のよい学習は、AIモデルをトレーニングするための最も影響力のある方法でデータを使用することを目的としている。
データ効率のよい学習は、AIトレーニングの加速、計算コストの削減、データストレージの保存において重要な役割を担っている。
しかし、基準の欠如と総合的なベンチマークのため、医学データ有効学習の研究は不十分である。
そこで本研究では,医療分野におけるデータ有効学習を評価するための総合ベンチマークを提案する。
このベンチマークには、31の医療センター(DataDEL)からの数百万のデータサンプル、比較のためのベースライン手法(MedDEL)、データ有効学習性能を客観的に測定する新たな評価指標(NormDEL)を含む。
広範な実験結果から,meddelのベースラインは,データの5%に留まらず,オリジナルの大規模データセットに匹敵するパフォーマンスを実現することができた。
このようなオープンデータ効率の学習ベンチマークの確立は、効率的なデータ利用を促進し、協調的なブレークスルーを促進し、コスト効率、スケーラブル、影響力のある医療ソリューションの開発を促進するため、医療ai研究コミュニティにとって極めて重要である。
このプロジェクトはhttps://github.com/shadow2469/Data-Effective-Learning-A-Comprehensive-Medical-Benchmark.gitでアクセスできる。
関連論文リスト
- LESS: Selecting Influential Data for Targeted Instruction Tuning [69.50855460630105]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - How Good Are Synthetic Medical Images? An Empirical Study with Lung
Ultrasound [0.3312417881789094]
生成モデルを使用して合成トレーニングデータを追加することで、データの不足に対処するための低コストな方法が提供される。
合成データと実データの両方によるトレーニングは、実データのみによるトレーニングよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-05T15:42:53Z) - Medical Federated Model with Mixture of Personalized and Sharing
Components [31.068735334318088]
本稿では,その問題に対処するための新しい個人化学習フレームワークを提案する。
ローカルデータ間の類似性を認識したパーソナライズされたモデルが得られる。
また,計算効率を大幅に向上させる効率的な計算コスト削減手法を提案する。
論文 参考訳(メタデータ) (2023-06-26T07:50:32Z) - Textual Data Augmentation for Patient Outcomes Prediction [67.72545656557858]
本稿では,患者の電子カルテに人工的な臨床ノートを作成するための新しいデータ拡張手法を提案する。
生成言語モデルGPT-2を微調整し、ラベル付きテキストを元のトレーニングデータで合成する。
今回,最も多い患者,すなわち30日間の寛解率について検討した。
論文 参考訳(メタデータ) (2022-11-13T01:07:23Z) - Efficient Medical Image Assessment via Self-supervised Learning [27.969767956918503]
高性能なディープラーニング手法は通常、大きな注釈付きトレーニングデータセットに依存する。
本稿では,未ラベルの医用画像データの品質をランク付けするための,新規で効率的なデータアセスメント戦略を提案する。
SSL埋め込み空間の理論的な意味から,我々はMasked Autoencoderを用いて特徴抽出を行う。
論文 参考訳(メタデータ) (2022-09-28T21:39:00Z) - BERT WEAVER: Using WEight AVERaging to enable lifelong learning for
transformer-based models in biomedical semantic search engines [49.75878234192369]
We present WEAVER, a simple, yet efficient post-processing method that infuse old knowledge into the new model。
WEAVERを逐次的に適用すると、同じ単語の埋め込み分布が、一度にすべてのデータに対する総合的なトレーニングとして得られることを示す。
論文 参考訳(メタデータ) (2022-02-21T10:34:41Z) - How to Leverage Multimodal EHR Data for Better Medical Predictions? [13.401754962583771]
電子健康記録(EHR)データの複雑さは、ディープラーニングの適用の課題である。
本稿では,まずEHRから臨床ノートを抽出し,これらのデータを統合する方法を提案する。
2つの医療予測タスクの結果、異なるデータを持つ融合モデルが最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-10-29T13:26:05Z) - A Real Use Case of Semi-Supervised Learning for Mammogram Classification
in a Local Clinic of Costa Rica [0.5541644538483946]
ディープラーニングモデルのトレーニングには、かなりの量のラベル付きイメージが必要です。
多くの公開データセットが、さまざまな病院や診療所のデータで構築されている。
ラベルなしデータを利用した半教師付き深層学習手法であるMixMatchを提案し評価した。
論文 参考訳(メタデータ) (2021-07-24T22:26:50Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Dual-Teacher: Integrating Intra-domain and Inter-domain Teachers for
Annotation-efficient Cardiac Segmentation [65.81546955181781]
本稿では,新しい半教師付きドメイン適応手法,すなわちDual-Teacherを提案する。
学生モデルは、2つの教師モデルによってラベル付けされていない対象データとラベル付けされた情報源データの知識を学習する。
提案手法では, ラベルなしデータとモダリティ間データとを並列に利用でき, 性能が向上することを示した。
論文 参考訳(メタデータ) (2020-07-13T10:00:44Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。