論文の概要: SpanSeq: Similarity-based sequence data splitting method for improved development and assessment of deep learning projects
- arxiv url: http://arxiv.org/abs/2402.14482v3
- Date: Fri, 13 Sep 2024 09:54:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-16 23:37:02.470345
- Title: SpanSeq: Similarity-based sequence data splitting method for improved development and assessment of deep learning projects
- Title(参考訳): SpanSeq:ディープラーニングプロジェクトの開発と評価のための類似性に基づくシーケンスデータ分割手法
- Authors: Alfred Ferrer Florensa, Jose Juan Almagro Armenteros, Henrik Nielsen, Frank Møller Aarestrup, Philip Thomas Lanken Conradsen Clausen,
- Abstract要約: 計算生物学におけるディープラーニングモデルは、開発中に使用されるデータのプールからノイズの多い偏差を学ぶ傾向にある。
利用可能なデータを開発(トレイン/バリデーション)とテストセットにランダムに分割することが一般的である。
本稿では,ほとんどの生物学的シーケンスにスケール可能な機械学習のためのデータベース分割手法であるSpanSeqを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The use of deep learning models in computational biology has increased massively in recent years, and it is expected to continue with the current advances in the fields such as Natural Language Processing. These models, although able to draw complex relations between input and target, are also inclined to learn noisy deviations from the pool of data used during their development. In order to assess their performance on unseen data (their capacity to generalize), it is common to split the available data randomly into development (train/validation) and test sets. This procedure, although standard, has been shown to produce dubious assessments of generalization due to the existing similarity between samples in the databases used. In this work, we present SpanSeq, a database partition method for machine learning that can scale to most biological sequences (genes, proteins and genomes) in order to avoid data leakage between sets. We also explore the effect of not restraining similarity between sets by reproducing the development of two state-of-the-art models on bioinformatics, not only confirming the consequences of randomly splitting databases on the model assessment, but expanding those repercussions to the model development. SpanSeq is available at https://github.com/genomicepidemiology/SpanSeq.
- Abstract(参考訳): 近年, 計算生物学におけるディープラーニングモデルの利用が急速に増加しており, 自然言語処理などの分野での進歩が進むことが期待されている。
これらのモデルは、入力とターゲットの間の複雑な関係を引き出すことができるが、開発中に使用されるデータのプールからノイズの多い偏差を学習する傾向にある。
目に見えないデータ(一般化する能力)の性能を評価するために、利用可能なデータをランダムに開発(トレイン/バリデーション)とテストセットに分割することが一般的である。
この手法は標準的ではあるが、使用したデータベースのサンプル間の既存の類似性から、一般化に関する疑わしい評価を導出することが示されている。
本研究では、データセット間のデータ漏洩を回避するため、ほとんどの生物学的配列(遺伝子、タンパク質、ゲノム)にスケール可能な機械学習のためのデータベース分割手法であるSpanSeqを提案する。
また,2つの最先端モデルの開発をバイオインフォマティクスに再現することで,集合間の類似性を抑える効果についても検討し,ランダムに分割したデータベースがモデル評価に与える影響を確認するとともに,それらの影響をモデル開発に拡大する。
SpanSeqはhttps://github.com/genomicepidemiology/SpanSeqで入手できる。
関連論文リスト
- Diffusion posterior sampling for simulation-based inference in tall data settings [53.17563688225137]
シミュレーションベース推論(SBI)は、入力パラメータを所定の観測に関連付ける後部分布を近似することができる。
本研究では、モデルのパラメータをより正確に推測するために、複数の観測値が利用できる、背の高いデータ拡張について考察する。
提案手法を,最近提案した各種数値実験の競合手法と比較し,数値安定性と計算コストの観点から,その優位性を実証した。
論文 参考訳(メタデータ) (2024-04-11T09:23:36Z) - FissionFusion: Fast Geometric Generation and Hierarchical Souping for Medical Image Analysis [0.7751705157998379]
十分に注釈付けされた医療データセットの不足は、ImageNetのような広範なデータセットやCLIPのような事前訓練されたモデルからの移行学習を活用する必要がある。
モデルスープは、In-Domain(ID)タスクのパフォーマンスを改善し、out-of-Distribution(OOD)データセットに対する堅牢性を高めることを目的とした、複数の微調整されたモデルの平均である。
本稿では,様々なレベルのモデルの局所的および大域的集約を伴う階層的統合手法を提案する。
論文 参考訳(メタデータ) (2024-03-20T06:48:48Z) - Learning Discretized Bayesian Networks with GOMEA [0.0]
我々は、可変離散化を共同学習するために、既存の最先端構造学習アプローチを拡張した。
これにより、専門家の知識をユニークな洞察に富んだ方法で組み込むことができ、複雑性、正確性、および事前に決定された専門家ネットワークとの差異をトレードオフする複数のDBNを見つけることができることを示す。
論文 参考訳(メタデータ) (2024-02-19T14:29:35Z) - Deep Ensembles Meets Quantile Regression: Uncertainty-aware Imputation
for Time Series [49.992908221544624]
時系列データは、しばしば多くの欠落した値を示し、これは時系列計算タスクである。
従来の深層学習法は時系列計算に有効であることが示されている。
本研究では,不確実性のある高精度な計算を行う非生成時系列計算法を提案する。
論文 参考訳(メタデータ) (2023-12-03T05:52:30Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Learning to Jump: Thinning and Thickening Latent Counts for Generative
Modeling [69.60713300418467]
ジャンプの学習は、様々な種類のデータの生成モデリングのための一般的なレシピである。
ジャンプの学習が、デノゼの学習と相容れないパフォーマンスを期待される場合と、より良いパフォーマンスを期待される場合を実証する。
論文 参考訳(メタデータ) (2023-05-28T05:38:28Z) - VertiBayes: Learning Bayesian network parameters from vertically partitioned data with missing values [2.9707233220536313]
フェデレーション学習は、分散データに基づいて機械学習モデルをトレーニングすることを可能にする。
本稿では,垂直分割データ上でベイズネットワークを学習するためのVertiBayesという新しい手法を提案する。
提案手法は,従来のアルゴリズムを用いて学習したモデルに匹敵するモデルを生成する。
論文 参考訳(メタデータ) (2022-10-31T11:13:35Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Bayesian predictive modeling of multi-source multi-way data [0.0]
初期鉄欠乏症 (ID) の予測因子として, 複数のオミクス源から得られた分子データについて検討した。
係数に低ランク構造を持つ線形モデルを用いて多方向依存を捕捉する。
本モデルでは, 誤分類率と推定係数と真の係数との相関から, 期待通りの性能を示すことを示す。
論文 参考訳(メタデータ) (2022-08-05T21:58:23Z) - Empirical evaluation of shallow and deep learning classifiers for Arabic
sentiment analysis [1.1172382217477126]
本研究は、アラビア語レビューの感情分析のためのディープラーニングモデルの性能を詳細に比較したものである。
この研究で使用されるデータセットは、アラビア語のホテルと本レビューデータセットである。
その結果,2次・複数ラベル分類では深層学習が浅層学習より優れており,文献で報告された同様の研究結果とは対照的であった。
論文 参考訳(メタデータ) (2021-12-01T14:45:43Z) - On the Discrepancy between Density Estimation and Sequence Generation [92.70116082182076]
log-likelihoodは、同じファミリー内のモデルを考えるとき、BLEUと非常に相関している。
異なる家族間でのモデルランキングの相関はみられない。
論文 参考訳(メタデータ) (2020-02-17T20:13:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。