Fugu-MT 論文翻訳(概要): Revealing data leakage in protein interaction benchmarks

論文の概要: Revealing data leakage in protein interaction benchmarks

arxiv url: http://arxiv.org/abs/2404.10457v1
Date: Tue, 16 Apr 2024 10:54:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-17 17:13:30.375274
Title: Revealing data leakage in protein interaction benchmarks
Title（参考訳）: タンパク質相互作用ベンチマークにおけるデータ漏洩の解明
Authors: Anton Bushuiev, Roman Bushuiev, Jiri Sedlar, Tomas Pluskal, Jiri Damborsky, Stanislav Mazurenko, Josef Sivic,
Abstract要約: 機械学習手法のさらなる開発は、既存の列車-テスト分割の品質に支障をきたす可能性があることを実証する。タンパク質の配列やメタデータの類似性に基づくタンパク質複合体の分割戦略は, 大規模なデータ漏洩を引き起こしている。データ漏洩を克服するため、タンパク質-タンパク質界面の3次元構造的類似性に基づいてデータ分割を構築することを推奨し、対応するアルゴリズムを提案する。
参考スコア（独自算出の注目度）: 17.25465230860335
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In recent years, there has been remarkable progress in machine learning for protein-protein interactions. However, prior work has predominantly focused on improving learning algorithms, with less attention paid to evaluation strategies and data preparation. Here, we demonstrate that further development of machine learning methods may be hindered by the quality of existing train-test splits. Specifically, we find that commonly used splitting strategies for protein complexes, based on protein sequence or metadata similarity, introduce major data leakage. This may result in overoptimistic evaluation of generalization, as well as unfair benchmarking of the models, biased towards assessing their overfitting capacity rather than practical utility. To overcome the data leakage, we recommend constructing data splits based on 3D structural similarity of protein-protein interfaces and suggest corresponding algorithms. We believe that addressing the data leakage problem is critical for further progress in this research area.
Abstract（参考訳）: 近年,タンパク質-タンパク質相互作用における機械学習の進歩が目覚ましい。しかし、先行研究は主に学習アルゴリズムの改善に焦点を当てており、評価戦略やデータ準備にはあまり注意が払われていない。ここでは、既存の列車-テスト分割の品質によって、機械学習手法のさらなる開発が妨げられる可能性があることを実証する。具体的には、タンパク質の配列やメタデータの類似性に基づくタンパク質複合体の分割戦略が、大きなデータ漏洩をもたらすことを明らかにする。これは、一般化の過度な最適化評価とモデルの不公平なベンチマークの結果となり、実用性よりも過度に適合する能力を評価することに偏っている。データ漏洩を克服するため、タンパク質-タンパク質界面の3次元構造的類似性に基づいてデータ分割を構築することを推奨し、対応するアルゴリズムを提案する。この研究領域のさらなる進展には,データ漏洩問題への対処が重要であると我々は信じている。

関連論文リスト

S$^2$Drug: Bridging Protein Sequence and 3D Structure in Contrastive Representation Learning for Virtual Screening [72.89086338778098]
タンパク質リガンドコントラスト表現学習のための2段階フレームワークを提案する。最初の段階では、ESM2ベースのバックボーンを用いて、ChemBLでタンパク質配列を事前訓練する。第2段階では、残基レベルゲーティングモジュールを介して配列と構造情報を融合することでPDBBindを微調整する。この補助的なタスクは、モデルを誘導し、タンパク質配列内の結合残基を正確に局在させ、それらの3次元空間配列をキャプチャする。
論文参考訳（メタデータ） (2025-11-10T11:57:47Z)
Rethinking Text-based Protein Understanding: Retrieval or LLM? [26.278517638774005]
タンパク質テキストモデルは、タンパク質の生成と理解において大きな注目を集めている。現在のアプローチでは、タンパク質関連の知識を、継続した事前学習とマルチモーダルアライメントを通じて、大きな言語モデルに統合することに重点を置いている。そこで本研究では,タンパク質間テキスト生成のための微調整LDMを著しく上回り,学習不要シナリオにおける精度と効率性を示す検索強化手法を提案する。
論文参考訳（メタデータ） (2025-05-26T06:25:43Z)
DUPRE: Data Utility Prediction for Efficient Data Valuation [49.60564885180563]
Data Shapleyのような協調ゲーム理論に基づくデータ評価では、データユーティリティを評価し、複数のデータサブセットに対してMLモデルを再トレーニングする必要がある。我々のフレームワークである textttDUPRE は、モデル再学習による評価ではなく、データユーティリティを予測することによって、サブセット評価当たりのコストを削減できる代替手法を採用しています。具体的には、いくつかのデータサブセットのデータユーティリティを評価すると、textttDUPREは、他のすべてのデータサブセットの有用性を予測するために、emphGaussianプロセス(GP)回帰モデルに適合する。
論文参考訳（メタデータ） (2025-02-22T08:53:39Z)
Accelerated Methods with Compressed Communications for Distributed Optimization Problems under Data Similarity [55.03958223190181]
本稿では,データ類似性の下での非バイアス圧縮とバイアス圧縮を利用した,理論上初めての高速化アルゴリズムを提案する。我々の結果は、異なる平均損失とデータセットに関する実験によって記録され、確認されています。
論文参考訳（メタデータ） (2024-12-21T00:40:58Z)
ProtIR: Iterative Refinement between Retrievers and Predictors for Protein Function Annotation [38.019425619750265]
本稿では,タンパク質間類似性モデリングを取り入れた関数予測器の改良を目的とした,新しい変分擬似類似性フレームワークProtIRを提案する。 ProtIRは、バニラ予測に基づく手法よりも約10%改善されている。タンパク質言語モデルに基づく手法と同等の性能を発揮するが、大規模な事前学習は必要としない。
論文参考訳（メタデータ） (2024-02-10T17:31:46Z)
Deep Manifold Transformation for Protein Representation Learning [42.43017670985785]
ユニバーサルアンダーラインタンパク質アンダーライン変換(DMTPRL)のための新しいアンダーラインディープアンダーラインマンフォールドアンダーライントランスアプローチを提案する。学習した埋め込みの品質と適応性を改善するために、多様体学習戦略を採用している。 DMTPRL法は、一般的なデータセットをまたいだ様々な下流タスクにおける最先端のベースラインよりも優れている。
論文参考訳（メタデータ） (2024-01-12T18:38:14Z)
TRIAGE: Characterizing and auditing training data for improved regression [80.11415390605215]
TRIAGEは回帰タスクに適した新しいデータキャラクタリゼーションフレームワークで、広範囲の回帰器と互換性がある。 TRIAGEは、共形予測分布を利用して、モデルに依存しないスコアリング方法、TRIAGEスコアを提供する。 TRIAGEの特徴は一貫性があり、複数の回帰設定においてデータの彫刻/フィルタリングによるパフォーマンス向上に有効であることを示す。
論文参考訳（メタデータ） (2023-10-29T10:31:59Z)
DeepGATGO: A Hierarchical Pretraining-Based Graph-Attention Model for Automatic Protein Function Prediction [4.608328575930055]
自動タンパク質機能予測(AFP)は大規模多ラベル分類問題に分類される。現在、一般的な手法は主にタンパク質関連情報と遺伝子オントロジー(GO)の用語を組み合わせて、最終的な機能予測を生成する。本稿では,タンパク質配列とGO項ラベルを階層的に処理するシークエンスベースの階層予測手法であるDeepGATGOを提案する。
論文参考訳（メタデータ） (2023-07-24T07:01:32Z)
Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文参考訳（メタデータ） (2023-07-19T04:07:33Z)
DC-BENCH: Dataset Condensation Benchmark [79.18718490863908]
この研究は、データセットの凝縮に関する最初の大規模標準ベンチマークを提供する。それは、凝縮法の生成可能性と有効性を包括的に反映する一連の評価から成り立っている。ベンチマークライブラリは、将来の研究とアプリケーションを容易にするためにオープンソース化されている。
論文参考訳（メタデータ） (2022-07-20T03:54:05Z)
Improving robustness of jet tagging algorithms with adversarial training [56.79800815519762]
本研究では,フレーバータグ付けアルゴリズムの脆弱性について,敵攻撃による検証を行った。シミュレーション攻撃の影響を緩和する対人訓練戦略を提案する。
論文参考訳（メタデータ） (2022-03-25T19:57:19Z)
Nonparametric Estimation of Heterogeneous Treatment Effects: From Theory to Learning Algorithms [91.3755431537592]
プラグイン推定と擬似出力回帰に依存する4つの幅広いメタ学習戦略を解析する。この理論的推論を用いて、アルゴリズム設計の原則を導出し、分析を実践に翻訳する方法について強調する。
論文参考訳（メタデータ） (2021-01-26T17:11:40Z)
Bayesian neural network with pretrained protein embedding enhances prediction accuracy of drug-protein interaction [3.499870393443268]
ディープラーニングのアプローチは、人間による試行錯誤なしに薬物とタンパク質の相互作用を予測できる。本稿では,小さなラベル付きデータセットで優れた性能を示すディープラーニングフレームワークを構築するための2つの手法を提案する。
論文参考訳（メタデータ） (2020-12-15T10:24:34Z)
Intrinsic-Extrinsic Convolution and Pooling for Learning on 3D Protein Structures [18.961218808251076]
大規模タンパク質データの深部3次元解析を可能にする2つの新しい学習操作を提案する。まず、内在的(タンパク質の折り畳みの下での不変)と外因的(結合下での不変)の両方を考慮する新しい畳み込み演算子を導入する。第2に、階層的なプーリング演算子を導入し、タンパク質がアミノ酸の有限組の再結合であるという事実を活用することにより、マルチスケールのタンパク質分析を可能にする。
論文参考訳（メタデータ） (2020-07-13T09:02:40Z)
Novel Human-Object Interaction Detection via Adversarial Domain Generalization [103.55143362926388]
本研究では,新たな人-物間相互作用(HOI)検出の問題点を考察し,モデルの一般化能力を向上させることを目的とした。この課題は、主に対象と述語の大きな構成空間に起因し、全ての対象と述語の組み合わせに対する十分な訓練データが欠如している。本稿では,予測のためのオブジェクト指向不変の特徴を学習するために,対数領域の一般化の統一的な枠組みを提案する。
論文参考訳（メタデータ） (2020-05-22T22:02:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。