論文の概要: SpanSeq: Similarity-based sequence data splitting method for improved
development and assessment of deep learning projects
- arxiv url: http://arxiv.org/abs/2402.14482v1
- Date: Thu, 22 Feb 2024 12:15:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 15:25:28.169757
- Title: SpanSeq: Similarity-based sequence data splitting method for improved
development and assessment of deep learning projects
- Title(参考訳): SpanSeq:ディープラーニングプロジェクトの開発と評価のための類似性に基づくシーケンスデータ分割手法
- Authors: Alfred Ferrer Florensa, Jose Juan Almagro Armenteros, Henrik Nielsen,
Frank M{\o}ller Aarestrup, Philip Thomas Lanken Conradsen Clausen
- Abstract要約: 本稿では,ほとんどの生物学的シーケンスにスケール可能な機械学習のためのデータベース分割手法であるSpanSeqを提案する。
また,最新のDeepLocモデルの開発を再現することにより,集合間の類似性を抑える効果についても検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The use of deep learning models in computational biology has increased
massively in recent years, and is expected to do so further with the current
advances in fields like Natural Language Processing. These models, although
able to draw complex relations between input and target, are also largely
inclined to learn noisy deviations from the pool of data used during their
development. In order to assess their performance on unseen data (their
capacity to generalize), it is common to randomly split the available data in
development (train/validation) and test sets. This procedure, although
standard, has lately been shown to produce dubious assessments of
generalization due to the existing similarity between samples in the databases
used. In this work, we present SpanSeq, a database partition method for machine
learning that can scale to most biological sequences (genes, proteins and
genomes) in order to avoid data leakage between sets. We also explore the
effect of not restraining similarity between sets by reproducing the
development of the state-of-the-art model DeepLoc, not only confirming the
consequences of randomly splitting databases on the model assessment, but
expanding those repercussions to the model development. SpanSeq is available
for downloading and installing at
https://github.com/genomicepidemiology/SpanSeq.
- Abstract(参考訳): 近年, 計算生物学におけるディープラーニングモデルの利用が大幅に増加しており, 自然言語処理などの分野の進歩とともに, さらなる発展が期待されている。
これらのモデルは、入力とターゲットの間の複雑な関係を描画できるが、開発時に使用されるデータのプールからノイズの偏差を学習する傾向が強い。
目に見えないデータ(一般化する能力)の性能を評価するために、利用可能なデータ(トレイン/バリデーション)とテストセットをランダムに分割することが一般的である。
この手法は, 標準ではあるが, 既存のデータベースにおけるサンプル間の類似性から, 一般化に関する疑わしい評価がされている。
本研究では,データセット間のデータ漏洩を回避するために,ほとんどの生物配列(遺伝子,タンパク質,ゲノム)にスケール可能な,機械学習のためのデータベース分割手法であるspanseqを提案する。
また,集合間の類似性を抑制することなく,最先端モデルdeeplocの開発を再現し,ランダムに分割したデータベースがモデル評価に与える影響を確認するだけでなく,その影響をモデル開発に拡大する効果についても検討した。
SpanSeqはhttps://github.com/genomicepidemiology/SpanSeqでダウンロードできる。
関連論文リスト
- Diffusion posterior sampling for simulation-based inference in tall data settings [53.17563688225137]
シミュレーションベース推論(SBI)はこの文脈で際立っているのは、深層生成モデルのトレーニングにシミュレーションのデータセットを必要とすることである。
本研究では,複数の観測値が利用可能であり,それらの共有情報を活用してモデルのパラメータをよりよく推測することのできる,背の高いデータ拡張について考察する。
提案手法は,近年盛んに行われているスコアベース拡散文学の成果に基づいて構築され,個々の観測に基づいて学習したスコアネットワークの情報を用いて,高度データ後部分布を推定することができる。
論文 参考訳(メタデータ) (2024-04-11T09:23:36Z) - FissionFusion: Fast Geometric Generation and Hierarchical Souping for Medical Image Analysis [0.7751705157998379]
十分に注釈付けされた医療データセットの不足は、ImageNetのような広範なデータセットやCLIPのような事前訓練されたモデルからの移行学習を活用する必要がある。
モデルスープは、In-Domain(ID)タスクのパフォーマンスを改善し、out-of-Distribution(OOD)データセットに対する堅牢性を高めることを目的とした、複数の微調整されたモデルの平均である。
本稿では,様々なレベルのモデルの局所的および大域的集約を伴う階層的統合手法を提案する。
論文 参考訳(メタデータ) (2024-03-20T06:48:48Z) - Learning Discretized Bayesian Networks with GOMEA [0.0]
我々は、可変離散化を共同学習するために、既存の最先端構造学習アプローチを拡張した。
これにより、専門家の知識をユニークな洞察に富んだ方法で組み込むことができ、複雑性、正確性、および事前に決定された専門家ネットワークとの差異をトレードオフする複数のDBNを見つけることができることを示す。
論文 参考訳(メタデータ) (2024-02-19T14:29:35Z) - Deep Ensembles Meets Quantile Regression: Uncertainty-aware Imputation
for Time Series [49.992908221544624]
時系列データは、しばしば多くの欠落した値を示し、これは時系列計算タスクである。
従来の深層学習法は時系列計算に有効であることが示されている。
本研究では,不確実性のある高精度な計算を行う非生成時系列計算法を提案する。
論文 参考訳(メタデータ) (2023-12-03T05:52:30Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Learning to Jump: Thinning and Thickening Latent Counts for Generative
Modeling [69.60713300418467]
ジャンプの学習は、様々な種類のデータの生成モデリングのための一般的なレシピである。
ジャンプの学習が、デノゼの学習と相容れないパフォーマンスを期待される場合と、より良いパフォーマンスを期待される場合を実証する。
論文 参考訳(メタデータ) (2023-05-28T05:38:28Z) - VertiBayes: Learning Bayesian network parameters from vertically
partitioned data with missing values [0.649970685896541]
フェデレーション学習は、分散データに基づいて機械学習モデルをトレーニングすることを可能にする。
本稿では,垂直分割データ上でベイズネットワークを学習するためのVertiBayesという新しい手法を提案する。
提案手法は,従来のアルゴリズムを用いて学習したモデルに匹敵するモデルを生成する。
論文 参考訳(メタデータ) (2022-10-31T11:13:35Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Bayesian predictive modeling of multi-source multi-way data [0.0]
初期鉄欠乏症 (ID) の予測因子として, 複数のオミクス源から得られた分子データについて検討した。
係数に低ランク構造を持つ線形モデルを用いて多方向依存を捕捉する。
本モデルでは, 誤分類率と推定係数と真の係数との相関から, 期待通りの性能を示すことを示す。
論文 参考訳(メタデータ) (2022-08-05T21:58:23Z) - Empirical evaluation of shallow and deep learning classifiers for Arabic
sentiment analysis [1.1172382217477126]
本研究は、アラビア語レビューの感情分析のためのディープラーニングモデルの性能を詳細に比較したものである。
この研究で使用されるデータセットは、アラビア語のホテルと本レビューデータセットである。
その結果,2次・複数ラベル分類では深層学習が浅層学習より優れており,文献で報告された同様の研究結果とは対照的であった。
論文 参考訳(メタデータ) (2021-12-01T14:45:43Z) - On the Discrepancy between Density Estimation and Sequence Generation [92.70116082182076]
log-likelihoodは、同じファミリー内のモデルを考えるとき、BLEUと非常に相関している。
異なる家族間でのモデルランキングの相関はみられない。
論文 参考訳(メタデータ) (2020-02-17T20:13:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。