論文の概要: SpanSeq: Similarity-based sequence data splitting method for improved
development and assessment of deep learning projects
- arxiv url: http://arxiv.org/abs/2402.14482v1
- Date: Thu, 22 Feb 2024 12:15:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 15:25:28.169757
- Title: SpanSeq: Similarity-based sequence data splitting method for improved
development and assessment of deep learning projects
- Title(参考訳): SpanSeq:ディープラーニングプロジェクトの開発と評価のための類似性に基づくシーケンスデータ分割手法
- Authors: Alfred Ferrer Florensa, Jose Juan Almagro Armenteros, Henrik Nielsen,
Frank M{\o}ller Aarestrup, Philip Thomas Lanken Conradsen Clausen
- Abstract要約: 本稿では,ほとんどの生物学的シーケンスにスケール可能な機械学習のためのデータベース分割手法であるSpanSeqを提案する。
また,最新のDeepLocモデルの開発を再現することにより,集合間の類似性を抑える効果についても検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The use of deep learning models in computational biology has increased
massively in recent years, and is expected to do so further with the current
advances in fields like Natural Language Processing. These models, although
able to draw complex relations between input and target, are also largely
inclined to learn noisy deviations from the pool of data used during their
development. In order to assess their performance on unseen data (their
capacity to generalize), it is common to randomly split the available data in
development (train/validation) and test sets. This procedure, although
standard, has lately been shown to produce dubious assessments of
generalization due to the existing similarity between samples in the databases
used. In this work, we present SpanSeq, a database partition method for machine
learning that can scale to most biological sequences (genes, proteins and
genomes) in order to avoid data leakage between sets. We also explore the
effect of not restraining similarity between sets by reproducing the
development of the state-of-the-art model DeepLoc, not only confirming the
consequences of randomly splitting databases on the model assessment, but
expanding those repercussions to the model development. SpanSeq is available
for downloading and installing at
https://github.com/genomicepidemiology/SpanSeq.
- Abstract(参考訳): 近年, 計算生物学におけるディープラーニングモデルの利用が大幅に増加しており, 自然言語処理などの分野の進歩とともに, さらなる発展が期待されている。
これらのモデルは、入力とターゲットの間の複雑な関係を描画できるが、開発時に使用されるデータのプールからノイズの偏差を学習する傾向が強い。
目に見えないデータ(一般化する能力)の性能を評価するために、利用可能なデータ(トレイン/バリデーション)とテストセットをランダムに分割することが一般的である。
この手法は, 標準ではあるが, 既存のデータベースにおけるサンプル間の類似性から, 一般化に関する疑わしい評価がされている。
本研究では,データセット間のデータ漏洩を回避するために,ほとんどの生物配列(遺伝子,タンパク質,ゲノム)にスケール可能な,機械学習のためのデータベース分割手法であるspanseqを提案する。
また,集合間の類似性を抑制することなく,最先端モデルdeeplocの開発を再現し,ランダムに分割したデータベースがモデル評価に与える影響を確認するだけでなく,その影響をモデル開発に拡大する効果についても検討した。
SpanSeqはhttps://github.com/genomicepidemiology/SpanSeqでダウンロードできる。
関連論文リスト
- An improved tabular data generator with VAE-GMM integration [9.4491536689161]
本稿では,現在のアプローチの限界に対処する新しい変分オートエンコーダ(VAE)モデルを提案する。
本手法は,TVAEモデルにインスパイアされたベイジアン・ガウス混合モデル(BGM)をVAEアーキテクチャに組み込む。
我々は,2つの医療関連データセットを含む混合データ型を持つ実世界の3つのデータセットに対して,我々のモデルを徹底的に検証する。
論文 参考訳(メタデータ) (2024-04-12T12:31:06Z) - Unlearning Spurious Correlations in Chest X-ray Classification [4.039245878626345]
我々は、Covid-19胸部X線データセットを用いてディープラーニングモデルをトレーニングする。
このデータセットが、意図しない境界領域によって、どのようにして急激な相関をもたらすかを示す。
XBLは、モデル説明を利用して、対話的に引き起こされる突発的相関を利用して、解釈可能性を超えたディープラーニングアプローチである。
論文 参考訳(メタデータ) (2023-08-02T12:59:10Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - VertiBayes: Learning Bayesian network parameters from vertically partitioned data with missing values [2.9707233220536313]
フェデレーション学習は、分散データに基づいて機械学習モデルをトレーニングすることを可能にする。
本稿では,垂直分割データ上でベイズネットワークを学習するためのVertiBayesという新しい手法を提案する。
提案手法は,従来のアルゴリズムを用いて学習したモデルに匹敵するモデルを生成する。
論文 参考訳(メタデータ) (2022-10-31T11:13:35Z) - Data-IQ: Characterizing subgroups with heterogeneous outcomes in tabular
data [81.43750358586072]
本稿では,サンプルをサブグループに体系的に階層化するフレームワークであるData-IQを提案する。
実世界の4つの医療データセットに対するData-IQの利点を実験的に実証した。
論文 参考訳(メタデータ) (2022-10-24T08:57:55Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Time-Varying Propensity Score to Bridge the Gap between the Past and Present [104.46387765330142]
本稿では,データ分布の段階的変化を検出するための時間変化確率スコアを提案する。
実装のさまざまな方法を示し、さまざまな問題について評価する。
論文 参考訳(メタデータ) (2022-10-04T07:21:49Z) - Amortized Inference for Causal Structure Learning [72.84105256353801]
因果構造を学習することは、通常、スコアまたは独立テストを使用して構造を評価することを伴う探索問題を引き起こす。
本研究では,観測・干渉データから因果構造を予測するため,変分推論モデルを訓練する。
我々のモデルは、実質的な分布シフトの下で頑健な一般化能力を示す。
論文 参考訳(メタデータ) (2022-05-25T17:37:08Z) - Supervised Learning and Model Analysis with Compositional Data [4.082799056366927]
KernelBiomeはカーネルベースの非パラメトリック回帰分類フレームワークである。
我々は、最先端の機械学習手法と比較して、同等または改善された性能を示す。
論文 参考訳(メタデータ) (2022-05-15T12:33:43Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - Harmonization with Flow-based Causal Inference [12.739380441313022]
本稿では, 医療データを調和させる構造因果モデル (SCM) に対して, 反実的推論を行う正規化フローに基づく手法を提案する。
我々は,この手法が最先端のアルゴリズムよりもドメイン間一般化に寄与することを示すために,複数の,大規模な実世界の医療データセットを評価した。
論文 参考訳(メタデータ) (2021-06-12T19:57:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。