論文の概要: Revealing data leakage in protein interaction benchmarks
- arxiv url: http://arxiv.org/abs/2404.10457v1
- Date: Tue, 16 Apr 2024 10:54:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 17:13:30.375274
- Title: Revealing data leakage in protein interaction benchmarks
- Title(参考訳): タンパク質相互作用ベンチマークにおけるデータ漏洩の解明
- Authors: Anton Bushuiev, Roman Bushuiev, Jiri Sedlar, Tomas Pluskal, Jiri Damborsky, Stanislav Mazurenko, Josef Sivic,
- Abstract要約: 機械学習手法のさらなる開発は、既存の列車-テスト分割の品質に支障をきたす可能性があることを実証する。
タンパク質の配列やメタデータの類似性に基づくタンパク質複合体の分割戦略は, 大規模なデータ漏洩を引き起こしている。
データ漏洩を克服するため、タンパク質-タンパク質界面の3次元構造的類似性に基づいてデータ分割を構築することを推奨し、対応するアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 17.25465230860335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, there has been remarkable progress in machine learning for protein-protein interactions. However, prior work has predominantly focused on improving learning algorithms, with less attention paid to evaluation strategies and data preparation. Here, we demonstrate that further development of machine learning methods may be hindered by the quality of existing train-test splits. Specifically, we find that commonly used splitting strategies for protein complexes, based on protein sequence or metadata similarity, introduce major data leakage. This may result in overoptimistic evaluation of generalization, as well as unfair benchmarking of the models, biased towards assessing their overfitting capacity rather than practical utility. To overcome the data leakage, we recommend constructing data splits based on 3D structural similarity of protein-protein interfaces and suggest corresponding algorithms. We believe that addressing the data leakage problem is critical for further progress in this research area.
- Abstract(参考訳): 近年,タンパク質-タンパク質相互作用における機械学習の進歩が目覚ましい。
しかし、先行研究は主に学習アルゴリズムの改善に焦点を当てており、評価戦略やデータ準備にはあまり注意が払われていない。
ここでは、既存の列車-テスト分割の品質によって、機械学習手法のさらなる開発が妨げられる可能性があることを実証する。
具体的には、タンパク質の配列やメタデータの類似性に基づくタンパク質複合体の分割戦略が、大きなデータ漏洩をもたらすことを明らかにする。
これは、一般化の過度な最適化評価とモデルの不公平なベンチマークの結果となり、実用性よりも過度に適合する能力を評価することに偏っている。
データ漏洩を克服するため、タンパク質-タンパク質界面の3次元構造的類似性に基づいてデータ分割を構築することを推奨し、対応するアルゴリズムを提案する。
この研究領域のさらなる進展には,データ漏洩問題への対処が重要であると我々は信じている。
関連論文リスト
- ProtIR: Iterative Refinement between Retrievers and Predictors for
Protein Function Annotation [38.019425619750265]
本稿では,タンパク質間類似性モデリングを取り入れた関数予測器の改良を目的とした,新しい変分擬似類似性フレームワークProtIRを提案する。
ProtIRは、バニラ予測に基づく手法よりも約10%改善されている。
タンパク質言語モデルに基づく手法と同等の性能を発揮するが、大規模な事前学習は必要としない。
論文 参考訳(メタデータ) (2024-02-10T17:31:46Z) - Deep Manifold Transformation for Protein Representation Learning [42.43017670985785]
ユニバーサルアンダーラインタンパク質アンダーライン変換(DMTPRL)のための新しいアンダーラインディープアンダーラインマンフォールドアンダーライントランスアプローチを提案する。
学習した埋め込みの品質と適応性を改善するために、多様体学習戦略を採用している。
DMTPRL法は、一般的なデータセットをまたいだ様々な下流タスクにおける最先端のベースラインよりも優れている。
論文 参考訳(メタデータ) (2024-01-12T18:38:14Z) - TRIAGE: Characterizing and auditing training data for improved
regression [80.11415390605215]
TRIAGEは回帰タスクに適した新しいデータキャラクタリゼーションフレームワークで、広範囲の回帰器と互換性がある。
TRIAGEは、共形予測分布を利用して、モデルに依存しないスコアリング方法、TRIAGEスコアを提供する。
TRIAGEの特徴は一貫性があり、複数の回帰設定においてデータの彫刻/フィルタリングによるパフォーマンス向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-10-29T10:31:59Z) - DeepGATGO: A Hierarchical Pretraining-Based Graph-Attention Model for
Automatic Protein Function Prediction [4.608328575930055]
自動タンパク質機能予測(AFP)は大規模多ラベル分類問題に分類される。
現在、一般的な手法は主にタンパク質関連情報と遺伝子オントロジー(GO)の用語を組み合わせて、最終的な機能予測を生成する。
本稿では,タンパク質配列とGO項ラベルを階層的に処理するシークエンスベースの階層予測手法であるDeepGATGOを提案する。
論文 参考訳(メタデータ) (2023-07-24T07:01:32Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - DC-BENCH: Dataset Condensation Benchmark [79.18718490863908]
この研究は、データセットの凝縮に関する最初の大規模標準ベンチマークを提供する。
それは、凝縮法の生成可能性と有効性を包括的に反映する一連の評価から成り立っている。
ベンチマークライブラリは、将来の研究とアプリケーションを容易にするためにオープンソース化されている。
論文 参考訳(メタデータ) (2022-07-20T03:54:05Z) - Improving robustness of jet tagging algorithms with adversarial training [56.79800815519762]
本研究では,フレーバータグ付けアルゴリズムの脆弱性について,敵攻撃による検証を行った。
シミュレーション攻撃の影響を緩和する対人訓練戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T19:57:19Z) - Nonparametric Estimation of Heterogeneous Treatment Effects: From Theory
to Learning Algorithms [91.3755431537592]
プラグイン推定と擬似出力回帰に依存する4つの幅広いメタ学習戦略を解析する。
この理論的推論を用いて、アルゴリズム設計の原則を導出し、分析を実践に翻訳する方法について強調する。
論文 参考訳(メタデータ) (2021-01-26T17:11:40Z) - Bayesian neural network with pretrained protein embedding enhances
prediction accuracy of drug-protein interaction [3.499870393443268]
ディープラーニングのアプローチは、人間による試行錯誤なしに薬物とタンパク質の相互作用を予測できる。
本稿では,小さなラベル付きデータセットで優れた性能を示すディープラーニングフレームワークを構築するための2つの手法を提案する。
論文 参考訳(メタデータ) (2020-12-15T10:24:34Z) - Intrinsic-Extrinsic Convolution and Pooling for Learning on 3D Protein
Structures [18.961218808251076]
大規模タンパク質データの深部3次元解析を可能にする2つの新しい学習操作を提案する。
まず、内在的(タンパク質の折り畳みの下での不変)と外因的(結合下での不変)の両方を考慮する新しい畳み込み演算子を導入する。
第2に、階層的なプーリング演算子を導入し、タンパク質がアミノ酸の有限組の再結合であるという事実を活用することにより、マルチスケールのタンパク質分析を可能にする。
論文 参考訳(メタデータ) (2020-07-13T09:02:40Z) - Novel Human-Object Interaction Detection via Adversarial Domain
Generalization [103.55143362926388]
本研究では,新たな人-物間相互作用(HOI)検出の問題点を考察し,モデルの一般化能力を向上させることを目的とした。
この課題は、主に対象と述語の大きな構成空間に起因し、全ての対象と述語の組み合わせに対する十分な訓練データが欠如している。
本稿では,予測のためのオブジェクト指向不変の特徴を学習するために,対数領域の一般化の統一的な枠組みを提案する。
論文 参考訳(メタデータ) (2020-05-22T22:02:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。