論文の概要: Preventing dataset shift from breaking machine-learning biomarkers
- arxiv url: http://arxiv.org/abs/2107.09947v1
- Date: Wed, 21 Jul 2021 08:54:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-22 14:01:20.695072
- Title: Preventing dataset shift from breaking machine-learning biomarkers
- Title(参考訳): 機械学習バイオマーカーの破壊からデータセットシフトの防止
- Authors: J\'ero\^ome Dock\`es, Ga\"el Varoquaux (PARIETAL), Jean-Baptiste
Poline
- Abstract要約: 良いバイオマーカーは、対応する条件を確実に検出するものである。
バイオマーカーは、しばしば標的個体群とは異なるコホートから抽出される。
このようなミスマッチはデータセットシフトと呼ばれ、新しい個人へのバイオマーカーの適用を損なう可能性がある。
- 参考スコア(独自算出の注目度): 0.6138671548064355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning brings the hope of finding new biomarkers extracted from
cohorts with rich biomedical measurements. A good biomarker is one that gives
reliable detection of the corresponding condition. However, biomarkers are
often extracted from a cohort that differs from the target population. Such a
mismatch, known as a dataset shift, can undermine the application of the
biomarker to new individuals. Dataset shifts are frequent in biomedical
research, e.g. because of recruitment biases. When a dataset shift occurs,
standard machine-learning techniques do not suffice to extract and validate
biomarkers. This article provides an overview of when and how dataset shifts
breaks machine-learning extracted biomarkers, as well as detection and
correction strategies.
- Abstract(参考訳): 機械学習は、豊富なバイオメディカル測定でコホートから抽出された新しいバイオマーカーを見つけるという希望をもたらす。
良いバイオマーカーは、対応する条件を確実に検出するものである。
しかし、バイオマーカーはしばしば標的個体群とは異なるコホートから抽出される。
このようなミスマッチはデータセットシフトと呼ばれ、新しい個人へのバイオマーカーの適用を損なう可能性がある。
データセットシフトは、例えば、生物医学研究において頻繁に発生する。
採用バイアスのせいでした
データセットのシフトが発生すると、標準的な機械学習技術はバイオマーカーの抽出と検証に十分ではない。
この記事では、データセットが機械学習で抽出されたバイオマーカーを壊す時期と方法の概要と、検出と修正戦略について説明する。
関連論文リスト
- Revolutionizing Biomarker Discovery: Leveraging Generative AI for Bio-Knowledge-Embedded Continuous Space Exploration [20.419747013569268]
本稿では,2つの重要なモジュールを持つバイオマーカー識別フレームワークを提案する。
第1モジュールはマルチエージェントシステムを使用して,バイオマーカーサブセットのペアと,それに対応する予測精度をトレーニングデータとして自動収集する。
第2のモジュールは、収集したデータの知識を連続的な空間に圧縮するために、エンコーダ-評価器-デコーダ学習パラダイムを使用する。
論文 参考訳(メタデータ) (2024-09-23T23:36:30Z) - BioDiscoveryAgent: An AI Agent for Designing Genetic Perturbation Experiments [112.25067497985447]
そこで,BioDiscoveryAgentを紹介した。このエージェントは,新しい実験を設計し,その結果の理由を明らかにし,仮説空間を効率的にナビゲートし,望ましい解に到達させる。
BioDiscoveryAgentは、機械学習モデルをトレーニングすることなく、新しい実験を独自に設計することができる。
6つのデータセットで関連する遺伝的摂動を予測することで、平均21%の改善が達成されている。
論文 参考訳(メタデータ) (2024-05-27T19:57:17Z) - Machine Learning Driven Biomarker Selection for Medical Diagnosis [1.10252115875756]
実験手法の最近の進歩により、研究者は何千もの分析物のデータを同時に収集できるようになった。
これは、アルツハイマー病、肝臓がん、胃癌などの疾患と分子測定を関連付ける相関研究につながった。
分析物から選択された何千ものバイオマーカーの使用は、現実の診断には実用的ではなく、潜在的に形成される急激な相関のために望ましくない可能性がある。
論文 参考訳(メタデータ) (2024-05-16T01:30:47Z) - BioAug: Conditional Generation based Data Augmentation for Low-Resource
Biomedical NER [52.79573512427998]
低リソースBioNERのための新しいデータ拡張フレームワークであるBioAugを紹介する。
BioAugは、選択的マスキングと知識増強に基づく新しいテキスト再構築タスクを解決するために訓練されている。
5つのベンチマークBioNERデータセットに対するBioAugの有効性を示す。
論文 参考訳(メタデータ) (2023-05-18T02:04:38Z) - Regression-based Deep-Learning predicts molecular biomarkers from
pathology slides [40.24757332810004]
我々は,画像から直接バイオマーカーを予測する自己監督型弱教師付き回帰手法を開発し,評価した。
回帰を用いて、バイオマーカー予測の精度を著しく向上させ、また、分類よりも結果の解釈可能性を向上させる。
我々のオープンソースレグレッションアプローチは、計算病理学における連続バイオマーカー解析に有望な代替手段を提供する。
論文 参考訳(メタデータ) (2023-04-11T11:43:51Z) - Clinical Contrastive Learning for Biomarker Detection [15.510581400494207]
臨床とバイオマーカーデータの関係を利用して,バイオマーカー分類の性能を向上する。
これは、バイオマーカーラベルを使わずに、大量の臨床データを擬似ラベルとして活用することで達成される。
本手法は, バイオマーカー検出の精度を最大5%向上させることで, 自己監督手法の精度を最大で5%向上させることを示した。
論文 参考訳(メタデータ) (2022-11-09T18:29:56Z) - BioGPT: Generative Pre-trained Transformer for Biomedical Text
Generation and Mining [140.61707108174247]
本稿では,大規模生物医学文献に基づいて事前学習したドメイン固有生成型トランスフォーマー言語モデルであるBioGPTを提案する。
BC5CDRでは44.98%、38.42%、40.76%のF1スコア、KD-DTIとDDIの関係抽出タスクでは78.2%、PubMedQAでは78.2%の精度が得られた。
論文 参考訳(メタデータ) (2022-10-19T07:17:39Z) - Label scarcity in biomedicine: Data-rich latent factor discovery
enhances phenotype prediction [102.23901690661916]
低次元の埋め込み空間は、健康指標、ライフスタイル、および人口動態の予測をデータスカース化するために、英国バイオバンクの人口データセットから導出することができる。
半超越的アプローチによるパフォーマンス向上は、おそらく様々な医学データサイエンス応用にとって重要な要素となるだろう。
論文 参考訳(メタデータ) (2021-10-12T16:25:50Z) - MIIDL: a Python package for microbial biomarkers identification powered
by interpretable deep learning [5.749346757892117]
我々は,解釈可能な深層学習に基づく微生物バイオマーカーの同定のためのPythonパッケージMIIDLを提案する。
MIIDLは、畳み込みニューラルネットワーク、様々な解釈可能性アルゴリズム、および多くの事前処理手法を革新的に応用し、高次元およびスパースデータセットから微生物バイオマーカーを識別するためのワンストップで堅牢なパイプラインを提供する。
論文 参考訳(メタデータ) (2021-09-24T21:30:10Z) - G-MIND: An End-to-End Multimodal Imaging-Genetics Framework for
Biomarker Identification and Disease Classification [49.53651166356737]
診断によって誘導される画像データと遺伝データを統合し、解釈可能なバイオマーカーを提供する新しいディープニューラルネットワークアーキテクチャを提案する。
2つの機能的MRI(fMRI)パラダイムとSingle Nucleotide Polymorphism (SNP)データを含む統合失調症の集団研究で本モデルを評価した。
論文 参考訳(メタデータ) (2021-01-27T19:28:04Z) - Automatic image-based identification and biomass estimation of
invertebrates [70.08255822611812]
時間を要する分類と分類は、どれだけの昆虫を処理できるかに強い制限を課す。
我々は、人間の専門家による分類と識別の標準的な手動アプローチを、自動画像ベース技術に置き換えることを提案する。
分類タスクには最先端のResnet-50とInceptionV3 CNNを使用する。
論文 参考訳(メタデータ) (2020-02-05T21:38:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。