Fugu-MT 論文翻訳(概要): Data-Effective Learning: A Comprehensive Medical Benchmark

論文の概要: Data-Effective Learning: A Comprehensive Medical Benchmark

arxiv url: http://arxiv.org/abs/2401.17542v1
Date: Wed, 31 Jan 2024 02:09:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-01 15:51:26.708371
Title: Data-Effective Learning: A Comprehensive Medical Benchmark
Title（参考訳）: データ影響学習: 総合的な医療ベンチマーク
Authors: Wenxuan Yang, Weimin Tan, Yuqi Sun, Bo Yan
Abstract要約: データ効率のよい学習は、AIモデルをトレーニングするための最も影響力のある方法でデータを使用することを目的としている。標準の欠如と総合的なベンチマークのため、医療データ有効学習の研究は不十分である。このベンチマークには、31の医療センターから数百万のデータサンプルを含むデータセットが含まれている。
参考スコア（独自算出の注目度）: 16.04573678594975
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Data-effective learning aims to use data in the most impactful way to train AI models, which involves strategies that focus on data quality rather than quantity, ensuring the data used for training has high informational value. Data-effective learning plays a profound role in accelerating AI training, reducing computational costs, and saving data storage, which is very important as the volume of medical data in recent years has grown beyond many people's expectations. However, due to the lack of standards and comprehensive benchmark, research on medical data-effective learning is poorly studied. To address this gap, our paper introduces a comprehensive benchmark specifically for evaluating data-effective learning in the medical field. This benchmark includes a dataset with millions of data samples from 31 medical centers (DataDEL), a baseline method for comparison (MedDEL), and a new evaluation metric (NormDEL) to objectively measure data-effective learning performance. Our extensive experimental results show the baseline MedDEL can achieve performance comparable to the original large dataset with only 5% of the data. Establishing such an open data-effective learning benchmark is crucial for the medical AI research community because it facilitates efficient data use, promotes collaborative breakthroughs, and fosters the development of cost-effective, scalable, and impactful healthcare solutions. The project can be accessed at https://github.com/shadow2469/Data-Effective-Learning-A-Comprehensive-Medical-Benchmark.git.
Abstract（参考訳）: データ効率のよい学習は、AIモデルをトレーニングするための最も影響力のある方法でデータを使用することを目的としている。データ効率のよい学習は、AIトレーニングの加速、計算コストの削減、データストレージの保存において重要な役割を担っている。しかし、基準の欠如と総合的なベンチマークのため、医学データ有効学習の研究は不十分である。そこで本研究では,医療分野におけるデータ有効学習を評価するための総合ベンチマークを提案する。このベンチマークには、31の医療センター(DataDEL)からの数百万のデータサンプル、比較のためのベースライン手法(MedDEL)、データ有効学習性能を客観的に測定する新たな評価指標(NormDEL)を含む。広範な実験結果から,meddelのベースラインは,データの5%に留まらず,オリジナルの大規模データセットに匹敵するパフォーマンスを実現することができた。このようなオープンデータ効率の学習ベンチマークの確立は、効率的なデータ利用を促進し、協調的なブレークスルーを促進し、コスト効率、スケーラブル、影響力のある医療ソリューションの開発を促進するため、医療ai研究コミュニティにとって極めて重要である。このプロジェクトはhttps://github.com/shadow2469/Data-Effective-Learning-A-Comprehensive-Medical-Benchmark.gitでアクセスできる。

関連論文リスト

Data Efficacy for Language Model Training [29.901090317084005]
データは言語モデル(LM)の訓練の基礎となる。近年の研究では、トレーニングデータの最小または最適サブセットを選択することで、パフォーマンスを最大化することを目的としている。本研究は、LMトレーニングにおけるデータの有効性を検討するための一般的なパラダイムであるDELTを紹介する。
論文参考訳（メタデータ） (2025-06-26T17:59:07Z)
Towards Data-Efficient Pretraining for Atomic Property Prediction [51.660835328611626]
タスク関連データセットでの事前トレーニングは、大規模な事前トレーニングと一致するか、あるいは超える可能性があることを示す。本稿では,コンピュータビジョンのFr'echet Inception Distanceにインスパイアされた,化学類似度指数(CSI)を紹介する。
論文参考訳（メタデータ） (2025-02-16T11:46:23Z)
A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-15T03:00:58Z)
An Efficient Contrastive Unimodal Pretraining Method for EHR Time Series Data [35.943089444017666]
本稿では,長期臨床経過データに適した比較事前学習法を提案する。本モデルでは, 臨床医が患者の症状についてより深い知見を得られるように, 欠損測定をインプットする能力を示す。
論文参考訳（メタデータ） (2024-10-11T19:05:25Z)
Data Proportion Detection for Optimized Data Management for Large Language Models [32.62631669919273]
我々は,事前学習データの割合の自動推定を可能にする新しいトピック,textitdata proportion Detectionを導入する。データ比例検出のための厳密な理論的証明、実用的なアルゴリズム、予備実験結果を提供する。
論文参考訳（メタデータ） (2024-09-26T04:30:32Z)
Controllable Synthetic Clinical Note Generation with Privacy Guarantees [7.1366477372157995]
本稿では、PHI(Personal Health Information)を含む「クローン」データセットに対する新しい手法を提案する。我々のアプローチは、クローン化されたデータセットが患者のプライバシを損なうことなく、元のデータの本質的な特性と有用性を保っていることを保証します。クローン化されたデータセットでトレーニングされた機械学習モデルの性能を評価するために,ユーティリティテストを実施している。
論文参考訳（メタデータ） (2024-09-12T07:38:34Z)
Optimizing V-information for Self-Supervised Pre-training Data-Effective Medical Foundation Models [15.413974936297082]
大規模データセット上での自己教師付き事前トレーニング医療基盤モデルは、例外的なパフォーマンスを示す。基礎モデル事前学習のための貴重なサンプルを選択するために、データ効率のよい学習手法が導入された。実世界の医療領域におけるV情報の最適化のための最適なデータ効率学習手法を開発した。
論文参考訳（メタデータ） (2024-08-13T10:28:54Z)
Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文参考訳（メタデータ） (2024-06-16T17:09:24Z)
Proper Dataset Valuation by Pointwise Mutual Information [26.693741797887643]
データキュレーション手法を評価するための情報理論フレームワークを提案する。評価データとテストデータのシャノン相互情報による情報性の比較を行った。実世界のデータを用いた実験により、我々の相互情報に基づく評価は、データキュレーション戦略に適切に低いスコアを割り当てることを示した。
論文参考訳（メタデータ） (2024-05-28T15:04:17Z)
Textual Data Augmentation for Patient Outcomes Prediction [67.72545656557858]
本稿では,患者の電子カルテに人工的な臨床ノートを作成するための新しいデータ拡張手法を提案する。生成言語モデルGPT-2を微調整し、ラベル付きテキストを元のトレーニングデータで合成する。今回,最も多い患者,すなわち30日間の寛解率について検討した。
論文参考訳（メタデータ） (2022-11-13T01:07:23Z)
Efficient Medical Image Assessment via Self-supervised Learning [27.969767956918503]
高性能なディープラーニング手法は通常、大きな注釈付きトレーニングデータセットに依存する。本稿では,未ラベルの医用画像データの品質をランク付けするための,新規で効率的なデータアセスメント戦略を提案する。 SSL埋め込み空間の理論的な意味から,我々はMasked Autoencoderを用いて特徴抽出を行う。
論文参考訳（メタデータ） (2022-09-28T21:39:00Z)
Improved Fine-tuning by Leveraging Pre-training Data: Theory and Practice [52.11183787786718]
対象データに事前学習されたモデルを微調整することは、多くのディープラーニングアプリケーションで広く利用されている。近年の研究では、スクラッチからのトレーニングが、この事前トレーニング戦略に比較して、最終的なパフォーマンスを示すことが実証されている。本稿では,対象タスクの一般化を改善するために,事前学習データからサブセットを選択する新しい選択戦略を提案する。
論文参考訳（メタデータ） (2021-11-24T06:18:32Z)
Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文参考訳（メタデータ） (2020-05-18T09:36:51Z)
DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文参考訳（メタデータ） (2019-12-27T02:05:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。