論文の概要: Preventing dataset shift from breaking machine-learning biomarkers
- arxiv url: http://arxiv.org/abs/2107.09947v1
- Date: Wed, 21 Jul 2021 08:54:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-22 14:01:20.695072
- Title: Preventing dataset shift from breaking machine-learning biomarkers
- Title(参考訳): 機械学習バイオマーカーの破壊からデータセットシフトの防止
- Authors: J\'ero\^ome Dock\`es, Ga\"el Varoquaux (PARIETAL), Jean-Baptiste
Poline
- Abstract要約: 良いバイオマーカーは、対応する条件を確実に検出するものである。
バイオマーカーは、しばしば標的個体群とは異なるコホートから抽出される。
このようなミスマッチはデータセットシフトと呼ばれ、新しい個人へのバイオマーカーの適用を損なう可能性がある。
- 参考スコア(独自算出の注目度): 0.6138671548064355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning brings the hope of finding new biomarkers extracted from
cohorts with rich biomedical measurements. A good biomarker is one that gives
reliable detection of the corresponding condition. However, biomarkers are
often extracted from a cohort that differs from the target population. Such a
mismatch, known as a dataset shift, can undermine the application of the
biomarker to new individuals. Dataset shifts are frequent in biomedical
research, e.g. because of recruitment biases. When a dataset shift occurs,
standard machine-learning techniques do not suffice to extract and validate
biomarkers. This article provides an overview of when and how dataset shifts
breaks machine-learning extracted biomarkers, as well as detection and
correction strategies.
- Abstract(参考訳): 機械学習は、豊富なバイオメディカル測定でコホートから抽出された新しいバイオマーカーを見つけるという希望をもたらす。
良いバイオマーカーは、対応する条件を確実に検出するものである。
しかし、バイオマーカーはしばしば標的個体群とは異なるコホートから抽出される。
このようなミスマッチはデータセットシフトと呼ばれ、新しい個人へのバイオマーカーの適用を損なう可能性がある。
データセットシフトは、例えば、生物医学研究において頻繁に発生する。
採用バイアスのせいでした
データセットのシフトが発生すると、標準的な機械学習技術はバイオマーカーの抽出と検証に十分ではない。
この記事では、データセットが機械学習で抽出されたバイオマーカーを壊す時期と方法の概要と、検出と修正戦略について説明する。
関連論文リスト
- Deep Learning Predicts Biomarker Status and Discovers Related
Histomorphology Characteristics for Low-Grade Glioma [21.281553456323998]
低次グリオーマ(LGG)の診断と治療にはバイオマーカー検出が不可欠である
ヘマトキシリンとエオシンを含む全スライド画像とスライドレベルのバイオマーカーステータスラベルを用いて,LGGの5つのバイオマーカーの状態を予測するための解釈可能なディープラーニングパイプラインを提案する。
我々のパイプラインはバイオマーカー予測の新しいアプローチを提供するだけでなく、LGG患者に対する分子治療の適用性を高めるだけでなく、分子機能とLGGの進行の新たなメカニズムの発見を促進する。
論文 参考訳(メタデータ) (2023-10-11T13:05:33Z) - BioAug: Conditional Generation based Data Augmentation for Low-Resource
Biomedical NER [52.79573512427998]
低リソースBioNERのための新しいデータ拡張フレームワークであるBioAugを紹介する。
BioAugは、選択的マスキングと知識増強に基づく新しいテキスト再構築タスクを解決するために訓練されている。
5つのベンチマークBioNERデータセットに対するBioAugの有効性を示す。
論文 参考訳(メタデータ) (2023-05-18T02:04:38Z) - Regression-based Deep-Learning predicts molecular biomarkers from
pathology slides [40.24757332810004]
我々は,画像から直接バイオマーカーを予測する自己監督型弱教師付き回帰手法を開発し,評価した。
回帰を用いて、バイオマーカー予測の精度を著しく向上させ、また、分類よりも結果の解釈可能性を向上させる。
我々のオープンソースレグレッションアプローチは、計算病理学における連続バイオマーカー解析に有望な代替手段を提供する。
論文 参考訳(メタデータ) (2023-04-11T11:43:51Z) - Studying Limits of Explainability by Integrated Gradients for Gene
Expression Models [3.220287168504093]
重要度によるランク付け機能は,バイオマーカーの同定に十分ではないことを示す。
バイオマーカーが真理を知らないままに関係する原因を反映しているかどうかを評価することは難しいため、階層的モデルを提案することで遺伝子発現データをシミュレートする。
論文 参考訳(メタデータ) (2023-03-19T19:54:15Z) - Clinical Contrastive Learning for Biomarker Detection [15.510581400494207]
臨床とバイオマーカーデータの関係を利用して,バイオマーカー分類の性能を向上する。
これは、バイオマーカーラベルを使わずに、大量の臨床データを擬似ラベルとして活用することで達成される。
本手法は, バイオマーカー検出の精度を最大5%向上させることで, 自己監督手法の精度を最大で5%向上させることを示した。
論文 参考訳(メタデータ) (2022-11-09T18:29:56Z) - BioGPT: Generative Pre-trained Transformer for Biomedical Text
Generation and Mining [140.61707108174247]
本稿では,大規模生物医学文献に基づいて事前学習したドメイン固有生成型トランスフォーマー言語モデルであるBioGPTを提案する。
BC5CDRでは44.98%、38.42%、40.76%のF1スコア、KD-DTIとDDIの関係抽出タスクでは78.2%、PubMedQAでは78.2%の精度が得られた。
論文 参考訳(メタデータ) (2022-10-19T07:17:39Z) - Label scarcity in biomedicine: Data-rich latent factor discovery
enhances phenotype prediction [102.23901690661916]
低次元の埋め込み空間は、健康指標、ライフスタイル、および人口動態の予測をデータスカース化するために、英国バイオバンクの人口データセットから導出することができる。
半超越的アプローチによるパフォーマンス向上は、おそらく様々な医学データサイエンス応用にとって重要な要素となるだろう。
論文 参考訳(メタデータ) (2021-10-12T16:25:50Z) - MIIDL: a Python package for microbial biomarkers identification powered
by interpretable deep learning [5.749346757892117]
我々は,解釈可能な深層学習に基づく微生物バイオマーカーの同定のためのPythonパッケージMIIDLを提案する。
MIIDLは、畳み込みニューラルネットワーク、様々な解釈可能性アルゴリズム、および多くの事前処理手法を革新的に応用し、高次元およびスパースデータセットから微生物バイオマーカーを識別するためのワンストップで堅牢なパイプラインを提供する。
論文 参考訳(メタデータ) (2021-09-24T21:30:10Z) - Cancer Gene Profiling through Unsupervised Discovery [49.28556294619424]
低次元遺伝子バイオマーカーを発見するための,新しい,自動かつ教師なしのフレームワークを提案する。
本手法は,高次元中心型非監視クラスタリングアルゴリズムLP-Stabilityアルゴリズムに基づく。
私達の署名は免疫炎症および免疫砂漠の腫瘍の区別の有望な結果報告します。
論文 参考訳(メタデータ) (2021-02-11T09:04:45Z) - G-MIND: An End-to-End Multimodal Imaging-Genetics Framework for
Biomarker Identification and Disease Classification [49.53651166356737]
診断によって誘導される画像データと遺伝データを統合し、解釈可能なバイオマーカーを提供する新しいディープニューラルネットワークアーキテクチャを提案する。
2つの機能的MRI(fMRI)パラダイムとSingle Nucleotide Polymorphism (SNP)データを含む統合失調症の集団研究で本モデルを評価した。
論文 参考訳(メタデータ) (2021-01-27T19:28:04Z) - Automatic image-based identification and biomass estimation of
invertebrates [70.08255822611812]
時間を要する分類と分類は、どれだけの昆虫を処理できるかに強い制限を課す。
我々は、人間の専門家による分類と識別の標準的な手動アプローチを、自動画像ベース技術に置き換えることを提案する。
分類タスクには最先端のResnet-50とInceptionV3 CNNを使用する。
論文 参考訳(メタデータ) (2020-02-05T21:38:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。