論文の概要: Data Leakage and Redundancy in the LIT-PCBA Benchmark
- arxiv url: http://arxiv.org/abs/2507.21404v2
- Date: Thu, 07 Aug 2025 01:10:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 14:01:13.975402
- Title: Data Leakage and Redundancy in the LIT-PCBA Benchmark
- Title(参考訳): LIT-PCBAベンチマークにおけるデータ漏洩と冗長性
- Authors: Amber Huang, Ian Scott Knight, Slava Naprienko,
- Abstract要約: LIT-PCBAは仮想スクリーニングモデルのベンチマークに広く使われている。
データ漏洩と分子の冗長性は、そのモデルにまたがっている。
LIT-PCBAで公表された結果のほとんどすべてが弱体化されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LIT-PCBA is widely used to benchmark virtual screening models, but our audit reveals that it is fundamentally compromised. We find extensive data leakage and molecular redundancy across its splits, including 2D-identical ligands within and across partitions, pervasive analog overlap, and low-diversity query sets. In ALDH1 alone, for instance, 323 active training -- validation analog pairs occur at ECFP4 Tanimoto similarity $\geq 0.6$; across all targets, 2,491 2D-identical inactives appear in both training and validation, with very few corresponding actives. These overlaps allow models to succeed through scaffold memorization rather than generalization, inflating enrichment factors and AUROC scores. These flaws are not incidental -- they are so severe that a trivial memorization-based baseline with no learnable parameters can exploit them to match or exceed the reported performance of state-of-the-art deep learning and 3D-similarity models. As a result, nearly all published results on LIT-PCBA are undermined. Even models evaluated in "zero-shot" mode are affected by analog leakage into the query set, weakening claims of generalization. In its current form, the benchmark does not measure a model's ability to recover novel chemotypes and should not be taken as evidence of methodological progress. All code, data, and baseline implementations are available at: https://github.com/sievestack/LIT-PCBA-audit
- Abstract(参考訳): LIT-PCBAは、仮想スクリーニングモデルのベンチマークに広く使用されているが、監査の結果、それが根本的に侵害されていることが明らかになった。
分割中の2次元識別リガンド、広範囲なアナログ重なり合い、低多様性クエリセットなど、データ漏洩と分子冗長性について調べる。
例えばALDH1だけでは、323のアクティブトレーニング -- バリデーションアナログペアはEDFP4のTanimoto類似度$\geq 0.6$で発生し、すべてのターゲットにおいて2,491の2D-ID不活性がトレーニングとバリデーションの両方に現れる。
これらの重なり合いにより、モデルは一般化よりも足場記憶により成功し、拡張係数とAUROCスコアを膨らませる。
これらの欠陥は偶然ではなく、非常に深刻であり、学習可能なパラメータを持たない自明な暗記ベースのベースラインは、最先端のディープラーニングモデルと3D類似性モデルの報告されたパフォーマンスに適合または超えるためにそれらを利用することができる。
その結果、LIT-PCBAで公表されたほぼ全ての結果が損なわれている。
ゼロショット」モードで評価されたモデルでさえ、クエリセットへのアナログリークの影響を受け、一般化の主張が弱まる。
現在の形では、このベンチマークは、新しい化学タイプを回復するモデルの能力を測定しておらず、方法論的な進歩の証拠として捉えてはならない。
すべてのコード、データ、ベースラインの実装は、https://github.com/sievestack/LIT-PCBA-auditで利用可能である。
関連論文リスト
- Unlocking Post-hoc Dataset Inference with Synthetic Data [11.886166976507711]
トレーニングデータセットは、データ所有者の知的財産権を尊重することなく、しばしばインターネットから取り除かれる。
推論(DI)は、被疑者データセットがトレーニングに使用されたかどうかを特定することで潜在的な治療を提供する。
既存のDIメソッドでは、妥協したデータセットの分布と密接に一致するトレーニングを欠くために、プライベートな設定を必要とします。
本研究では,必要なホールドアウト集合を合成的に生成することで,この問題に対処する。
論文 参考訳(メタデータ) (2025-06-18T08:46:59Z) - Effective Data Pruning through Score Extrapolation [40.61665742457229]
少数のデータのみをトレーニングする必要のある,新たな重要スコア外挿フレームワークを導入する。
このフレームワークでは,この最小限のサブセットから学習したパターンを用いて,データセット全体のサンプル重要度を正確に予測する2つの初期アプローチを提案する。
以上の結果から,スコアの補間は,プルーニングやデータ属性,その他のタスクなど,高価なスコア計算手法をスケールする上で有望な方向であることが示唆された。
論文 参考訳(メタデータ) (2025-06-10T17:38:49Z) - When Simple Model Just Works: Is Network Traffic Classification in Crisis? [0.0]
パケットシーケンスメタデータを用いた単純なk-NNベースラインは、より複雑な手法より優れていることを示す。
我々は、NLPやコンピュータビジョンのようなドメインに適応した標準的な機械学習の実践は、ネットワークトラフィックの分類に不適であると主張している。
論文 参考訳(メタデータ) (2025-06-10T10:11:05Z) - Unlearning Isn't Deletion: Investigating Reversibility of Machine Unlearning in LLMs [19.525112900768534]
モデルはしばしば忘れられるが、元の動作は最小限の微調整で迅速に復元できる。
そこで本研究では,PCAに基づく類似性とシフト,カーネルアライメント中心,フィッシャー情報を用いた表現レベル評価フレームワークを提案する。
このツールキットを6つの未学習の手法、3つのドメイン(テキスト、コード、数学)、そして2つのオープンソース LLM に適用することにより、可逆性と不可逆性(inversible)な忘れの区別を明らかにする。
論文 参考訳(メタデータ) (2025-05-22T16:02:10Z) - Project-Probe-Aggregate: Efficient Fine-Tuning for Group Robustness [53.96714099151378]
画像テキスト基礎モデルのパラメータ効率向上のための3段階のアプローチを提案する。
本手法は, マイノリティ標本同定とロバストトレーニングアルゴリズムの2つの重要な要素を改良する。
我々の理論分析は,PPAが少数群の識別を向上し,バランスの取れたグループエラーを最小限に抑えるためにベイズが最適であることを示している。
論文 参考訳(メタデータ) (2025-03-12T15:46:12Z) - Scaling Sparse and Dense Retrieval in Decoder-Only LLMs [20.173669986209024]
大規模言語モデル(LLM)のスケーリングは,検索モデルの性能向上に大きな可能性を示している。
従来の研究は、比較損失(CL)を訓練した高密度な検索に重点を置いてきた。
スパース検索モデルは、インドメイン(MSMARCO, TREC DL)とアウト・オブ・ドメイン(BEIR)ベンチマークの両方において、密集検索を一貫して上回っている。
論文 参考訳(メタデータ) (2025-02-21T15:28:26Z) - Scaling Test-Time Compute Without Verification or RL is Suboptimal [70.28430200655919]
RL法や検索法に基づく検証器ベース (VB) 手法による微調整は, 一定量の計算・データ予算を条件として, 蒸留・クローニングに基づく検証器フリー (VF) 手法よりもはるかに優れていることを示す。
我々は,3/8Bの事前学習型LLMのドクティクスと数学推論の両問題に対して,我々の理論を実証的に相関させ,テスト時間計算のスケーリングには検証が不可欠であることを確認した。
論文 参考訳(メタデータ) (2025-02-17T18:43:24Z) - Investigating the Robustness of Counterfactual Learning to Rank Models: A Reproducibility Study [61.64685376882383]
ランク付け学習(CLTR: Counterfactual Learning to rank)は、IRコミュニティにおいて、ログ化された大量のユーザインタラクションデータを活用してランキングモデルをトレーニングする能力において、大きな注目を集めている。
本稿では,複雑かつ多様な状況における既存のCLTRモデルのロバスト性について検討する。
その結果, DLAモデルとIPS-DCMは, PS-PBMやPSSよりも, オフラインの確率推定による堅牢性が高いことがわかった。
論文 参考訳(メタデータ) (2024-04-04T10:54:38Z) - Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。
本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。
次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文 参考訳(メタデータ) (2024-03-27T15:15:14Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - Mitigating Spurious Correlations in Multi-modal Models during
Fine-tuning [18.45898471459533]
モデル一般化を低下させたり、間違った理由でモデルが正しいことを導いたという豪華な相関は、現実世界のデプロイメントにおいて大きな堅牢性に関する懸念の1つです。
本稿では,特定の関心領域の微調整において,刺激的な相関に対処する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-04-08T05:20:33Z) - Few-Shot Non-Parametric Learning with Deep Latent Variable Model [50.746273235463754]
遅延変数を用いた圧縮による非パラメトリック学習(NPC-LV)を提案する。
NPC-LVは、ラベルなしデータが多いがラベル付きデータはほとんどないデータセットの学習フレームワークである。
我々は,NPC-LVが低データ構造における画像分類における3つのデータセットの教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-23T09:35:03Z) - Reliable validation of Reinforcement Learning Benchmarks [1.2031796234206134]
強化学習(Reinforcement Learning, RL)は、ゲームAIとAI全般において、最もダイナミックな研究分野の1つである。
Atariのような異なるアルゴリズムを比較するためにスコアが使用されるベンチマーク環境はたくさんあります。
実験結果の検証を行うために,元の実験データへのアクセスを提供することにより,この状況を改善することを提案する。
論文 参考訳(メタデータ) (2022-03-02T12:55:27Z) - Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。
入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。
分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-14T05:39:09Z) - Training image classifiers using Semi-Weak Label Data [26.04162590798731]
多重インスタンス学習(MIL)では、弱ラベルがバッグレベルで提供され、存在/存在情報のみが知られる。
本稿では,この問題を軽減するため,新たな半弱ラベル学習パラダイムを提案する。
半弱ラベルから学習する問題に対処する2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-19T03:06:07Z) - Unsupervised Feature Learning by Cross-Level Instance-Group
Discrimination [68.83098015578874]
我々は、インスタンスグループ化ではなく、クロスレベルな識別によって、インスタンス間の類似性を対照的な学習に統合する。
CLDは、教師なし学習を、自然データや現実世界のアプリケーションに効果的に近づける。
セルフスーパービジョン、セミスーパービジョン、トランスファーラーニングベンチマークに関する新たな最先端技術は、報告されたすべてのパフォーマンスでMoCo v2とSimCLRを上回っている。
論文 参考訳(メタデータ) (2020-08-09T21:13:13Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。