論文の概要: Data Leakage and Redundancy in the LIT-PCBA Benchmark
- arxiv url: http://arxiv.org/abs/2507.21404v1
- Date: Tue, 29 Jul 2025 00:23:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:55.452528
- Title: Data Leakage and Redundancy in the LIT-PCBA Benchmark
- Title(参考訳): LIT-PCBAベンチマークにおけるデータ漏洩と冗長性
- Authors: Amber Huang, Ian Scott Knight, Slava Naprienko,
- Abstract要約: LIT-PCBAは仮想スクリーニングのベンチマークとして広く使われているが、監査の結果、基本的には妥協されていることが判明した。
トレーニングと検証セット間で複製された2,491個の非アクティブを識別し、個々のデータ分割の中でさらに数千回繰り返します。
調査の結果は,ベンチマークが意図した目的に適さないことを示し,その使用によって以前の結果に疑問を呈するものである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LIT-PCBA is a widely used benchmark for virtual screening, but our audit reveals it is fundamentally compromised. The dataset suffers from egregious data leakage, rampant duplication, and pervasive analog redundancy -- flaws that invalidate its use for fair model evaluation. Notably, we identify 2,491 inactives duplicated across training and validation sets, and thousands more repeated within individual data splits (2,945 in training, 789 in validation). Critically, three ligands in the query set -- meant to represent unseen test cases -- are leaked: two appear in the training set, one in validation. Structural redundancy compounds these issues: for some targets, over 80% of query ligands are near duplicates, with Tanimoto similarity >= 0.9. In ALDH1 alone, we find 323 highly similar active pairs between training and validation sets, invalidating claims of chemical diversity. These and other flaws collectively cause models trained on LIT-PCBA to memorize rather than generalize. To demonstrate the consequences of these data integrity failures, we implement a trivial memorization-based baseline -- using no learning, no physics, and no modeling -- that outperforms state-of-the-art models, including deep neural networks like CHEESE, on LIT-PCBA simply by exploiting these artifacts. Our findings render the benchmark unfit for its intended purpose and call into question previous results based on its use. We share this audit to raise awareness and provide tooling to help the community develop more rigorous and reliable datasets going forward. All scripts necessary to reproduce our audit and the baseline implementation are available at: https://github.com/sievestack/LIT-PCBA-audit
- Abstract(参考訳): LIT-PCBAは仮想スクリーニングのベンチマークとして広く使われているが、監査の結果、基本的には妥協されていることが判明した。
データセットは、厳格なデータ漏洩、急激な重複、そして広範囲にわたるアナログ冗長性 -- 公正モデル評価に使用を無効にする欠陥に悩まされている。特に、トレーニングと検証セット間で重複する2,491個の非アクティブを識別し、個々のデータ分割(トレーニングで2,945個、バリデーションで789個)でさらに数千回繰り返している。批判的に、クエリセットの3つのリガンド -- 目に見えないテストケースを表すことを目的とした -- がリークされる。トレーニングセットに2つ、検証中に1つが現れる。
いくつかのターゲットでは、クエリリガンドの80%以上がほぼ重複しており、Tanimoto >= 0.9 である。
ALDH1単独では、トレーニングと検証セットの間に323の非常によく似た活性対が存在し、化学多様性の主張は無効である。
これらの欠陥やその他の欠陥は、LIT-PCBAで訓練されたモデルを一般化するのではなく記憶させる。
これらのデータ完全性障害の結果を示すために、我々は、簡単な記憶ベースのベースライン(学習なし、物理学なし、モデリングなし)を実装し、これらのアーティファクトを単純に活用することで、CHEESEのようなディープニューラルネットワークを含む最先端のモデルよりも優れたパフォーマンスを実現します。
調査の結果は,ベンチマークが意図した目的に適さないことを示し,その使用によって以前の結果に疑問を呈するものである。
私たちはこの監査を共有して、認識を高め、コミュニティがより厳格で信頼性の高いデータセットを今後開発するのに役立つツールを提供しています。
監査とベースライン実装を再現するために必要なすべてのスクリプトは、https://github.com/sievestack/LIT-PCBA-audit.comで入手できる。
関連論文リスト
- Unlocking Post-hoc Dataset Inference with Synthetic Data [11.886166976507711]
トレーニングデータセットは、データ所有者の知的財産権を尊重することなく、しばしばインターネットから取り除かれる。
推論(DI)は、被疑者データセットがトレーニングに使用されたかどうかを特定することで潜在的な治療を提供する。
既存のDIメソッドでは、妥協したデータセットの分布と密接に一致するトレーニングを欠くために、プライベートな設定を必要とします。
本研究では,必要なホールドアウト集合を合成的に生成することで,この問題に対処する。
論文 参考訳(メタデータ) (2025-06-18T08:46:59Z) - Effective Data Pruning through Score Extrapolation [40.61665742457229]
少数のデータのみをトレーニングする必要のある,新たな重要スコア外挿フレームワークを導入する。
このフレームワークでは,この最小限のサブセットから学習したパターンを用いて,データセット全体のサンプル重要度を正確に予測する2つの初期アプローチを提案する。
以上の結果から,スコアの補間は,プルーニングやデータ属性,その他のタスクなど,高価なスコア計算手法をスケールする上で有望な方向であることが示唆された。
論文 参考訳(メタデータ) (2025-06-10T17:38:49Z) - When Simple Model Just Works: Is Network Traffic Classification in Crisis? [0.0]
パケットシーケンスメタデータを用いた単純なk-NNベースラインは、より複雑な手法より優れていることを示す。
我々は、NLPやコンピュータビジョンのようなドメインに適応した標準的な機械学習の実践は、ネットワークトラフィックの分類に不適であると主張している。
論文 参考訳(メタデータ) (2025-06-10T10:11:05Z) - Project-Probe-Aggregate: Efficient Fine-Tuning for Group Robustness [53.96714099151378]
画像テキスト基礎モデルのパラメータ効率向上のための3段階のアプローチを提案する。
本手法は, マイノリティ標本同定とロバストトレーニングアルゴリズムの2つの重要な要素を改良する。
我々の理論分析は,PPAが少数群の識別を向上し,バランスの取れたグループエラーを最小限に抑えるためにベイズが最適であることを示している。
論文 参考訳(メタデータ) (2025-03-12T15:46:12Z) - Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。
本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。
次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文 参考訳(メタデータ) (2024-03-27T15:15:14Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - Reliable validation of Reinforcement Learning Benchmarks [1.2031796234206134]
強化学習(Reinforcement Learning, RL)は、ゲームAIとAI全般において、最もダイナミックな研究分野の1つである。
Atariのような異なるアルゴリズムを比較するためにスコアが使用されるベンチマーク環境はたくさんあります。
実験結果の検証を行うために,元の実験データへのアクセスを提供することにより,この状況を改善することを提案する。
論文 参考訳(メタデータ) (2022-03-02T12:55:27Z) - Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。
入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。
分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-14T05:39:09Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。