Fugu-MT 論文翻訳(概要): SpanSeq: Similarity-based sequence data splitting method for improved development and assessment of deep learning projects

論文の概要: SpanSeq: Similarity-based sequence data splitting method for improved development and assessment of deep learning projects

arxiv url: http://arxiv.org/abs/2402.14482v1
Date: Thu, 22 Feb 2024 12:15:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-23 15:25:28.169757
Title: SpanSeq: Similarity-based sequence data splitting method for improved development and assessment of deep learning projects
Title（参考訳）: SpanSeq:ディープラーニングプロジェクトの開発と評価のための類似性に基づくシーケンスデータ分割手法
Authors: Alfred Ferrer Florensa, Jose Juan Almagro Armenteros, Henrik Nielsen, Frank M{\o}ller Aarestrup, Philip Thomas Lanken Conradsen Clausen
Abstract要約: 本稿では,ほとんどの生物学的シーケンスにスケール可能な機械学習のためのデータベース分割手法であるSpanSeqを提案する。また,最新のDeepLocモデルの開発を再現することにより,集合間の類似性を抑える効果についても検討する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The use of deep learning models in computational biology has increased massively in recent years, and is expected to do so further with the current advances in fields like Natural Language Processing. These models, although able to draw complex relations between input and target, are also largely inclined to learn noisy deviations from the pool of data used during their development. In order to assess their performance on unseen data (their capacity to generalize), it is common to randomly split the available data in development (train/validation) and test sets. This procedure, although standard, has lately been shown to produce dubious assessments of generalization due to the existing similarity between samples in the databases used. In this work, we present SpanSeq, a database partition method for machine learning that can scale to most biological sequences (genes, proteins and genomes) in order to avoid data leakage between sets. We also explore the effect of not restraining similarity between sets by reproducing the development of the state-of-the-art model DeepLoc, not only confirming the consequences of randomly splitting databases on the model assessment, but expanding those repercussions to the model development. SpanSeq is available for downloading and installing at https://github.com/genomicepidemiology/SpanSeq.
Abstract（参考訳）: 近年, 計算生物学におけるディープラーニングモデルの利用が大幅に増加しており, 自然言語処理などの分野の進歩とともに, さらなる発展が期待されている。これらのモデルは、入力とターゲットの間の複雑な関係を描画できるが、開発時に使用されるデータのプールからノイズの偏差を学習する傾向が強い。目に見えないデータ(一般化する能力)の性能を評価するために、利用可能なデータ(トレイン/バリデーション)とテストセットをランダムに分割することが一般的である。この手法は, 標準ではあるが, 既存のデータベースにおけるサンプル間の類似性から, 一般化に関する疑わしい評価がされている。本研究では,データセット間のデータ漏洩を回避するために,ほとんどの生物配列(遺伝子,タンパク質,ゲノム)にスケール可能な,機械学習のためのデータベース分割手法であるspanseqを提案する。また,集合間の類似性を抑制することなく,最先端モデルdeeplocの開発を再現し,ランダムに分割したデータベースがモデル評価に与える影響を確認するだけでなく,その影響をモデル開発に拡大する効果についても検討した。 SpanSeqはhttps://github.com/genomicepidemiology/SpanSeqでダウンロードできる。

関連論文リスト

Mambular: A Sequential Model for Tabular Deep Learning [0.7184556517162347]
本稿では,グラフデータに対する自己回帰状態空間モデルの利用について検討する。既存のベンチマークモデルと比較する。その結果,特徴をシーケンスとして解釈して処理することで,大幅な性能向上が期待できることがわかった。
論文参考訳（メタデータ） (2024-08-12T16:57:57Z)
An improved tabular data generator with VAE-GMM integration [9.4491536689161]
本稿では,現在のアプローチの限界に対処する新しい変分オートエンコーダ(VAE)モデルを提案する。本手法は,TVAEモデルにインスパイアされたベイジアン・ガウス混合モデル(BGM)をVAEアーキテクチャに組み込む。我々は,2つの医療関連データセットを含む混合データ型を持つ実世界の3つのデータセットに対して,我々のモデルを徹底的に検証する。
論文参考訳（メタデータ） (2024-04-12T12:31:06Z)
Unlearning Spurious Correlations in Chest X-ray Classification [4.039245878626345]
我々は、Covid-19胸部X線データセットを用いてディープラーニングモデルをトレーニングする。このデータセットが、意図しない境界領域によって、どのようにして急激な相関をもたらすかを示す。 XBLは、モデル説明を利用して、対話的に引き起こされる突発的相関を利用して、解釈可能性を超えたディープラーニングアプローチである。
論文参考訳（メタデータ） (2023-08-02T12:59:10Z)
Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文参考訳（メタデータ） (2023-06-03T20:12:27Z)
VertiBayes: Learning Bayesian network parameters from vertically partitioned data with missing values [2.9707233220536313]
フェデレーション学習は、分散データに基づいて機械学習モデルをトレーニングすることを可能にする。本稿では,垂直分割データ上でベイズネットワークを学習するためのVertiBayesという新しい手法を提案する。提案手法は,従来のアルゴリズムを用いて学習したモデルに匹敵するモデルを生成する。
論文参考訳（メタデータ） (2022-10-31T11:13:35Z)
Data-IQ: Characterizing subgroups with heterogeneous outcomes in tabular data [81.43750358586072]
本稿では,サンプルをサブグループに体系的に階層化するフレームワークであるData-IQを提案する。実世界の4つの医療データセットに対するData-IQの利点を実験的に実証した。
論文参考訳（メタデータ） (2022-10-24T08:57:55Z)
Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文参考訳（メタデータ） (2022-10-05T09:17:27Z)
Time-Varying Propensity Score to Bridge the Gap between the Past and Present [104.46387765330142]
本稿では,データ分布の段階的変化を検出するための時間変化確率スコアを提案する。実装のさまざまな方法を示し、さまざまな問題について評価する。
論文参考訳（メタデータ） (2022-10-04T07:21:49Z)
Amortized Inference for Causal Structure Learning [72.84105256353801]
因果構造を学習することは、通常、スコアまたは独立テストを使用して構造を評価することを伴う探索問題を引き起こす。本研究では,観測・干渉データから因果構造を予測するため,変分推論モデルを訓練する。我々のモデルは、実質的な分布シフトの下で頑健な一般化能力を示す。
論文参考訳（メタデータ） (2022-05-25T17:37:08Z)
Supervised Learning and Model Analysis with Compositional Data [4.082799056366927]
KernelBiomeはカーネルベースの非パラメトリック回帰分類フレームワークである。我々は、最先端の機械学習手法と比較して、同等または改善された性能を示す。
論文参考訳（メタデータ） (2022-05-15T12:33:43Z)
Equivariance Allows Handling Multiple Nuisance Variables When Analyzing Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文参考訳（メタデータ） (2022-03-29T04:54:06Z)
Harmonization with Flow-based Causal Inference [12.739380441313022]
本稿では, 医療データを調和させる構造因果モデル (SCM) に対して, 反実的推論を行う正規化フローに基づく手法を提案する。我々は,この手法が最先端のアルゴリズムよりもドメイン間一般化に寄与することを示すために,複数の,大規模な実世界の医療データセットを評価した。
論文参考訳（メタデータ） (2021-06-12T19:57:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。