論文の概要: Lo-Hi: Practical ML Drug Discovery Benchmark
- arxiv url: http://arxiv.org/abs/2310.06399v1
- Date: Tue, 10 Oct 2023 08:06:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-11 18:21:33.735049
- Title: Lo-Hi: Practical ML Drug Discovery Benchmark
- Title(参考訳): Lo-Hi: MLドラッグ発見ベンチマーク
- Authors: Simon Steshin
- Abstract要約: 薬物発見の望みの1つは、機械学習モデルを使用して分子特性を予測することである。
既存の分子特性予測のベンチマークは非現実的であり、実際にモデルを適用することとは相容れない。
我々は、実薬発見プロセスに対応する、新しい実践的なemphLo-Hiベンチマークを作成しました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Finding new drugs is getting harder and harder. One of the hopes of drug
discovery is to use machine learning models to predict molecular properties.
That is why models for molecular property prediction are being developed and
tested on benchmarks such as MoleculeNet. However, existing benchmarks are
unrealistic and are too different from applying the models in practice. We have
created a new practical \emph{Lo-Hi} benchmark consisting of two tasks: Lead
Optimization (Lo) and Hit Identification (Hi), corresponding to the real drug
discovery process. For the Hi task, we designed a novel molecular splitting
algorithm that solves the Balanced Vertex Minimum $k$-Cut problem. We tested
state-of-the-art and classic ML models, revealing which works better under
practical settings. We analyzed modern benchmarks and showed that they are
unrealistic and overoptimistic.
Review: https://openreview.net/forum?id=H2Yb28qGLV
Lo-Hi benchmark: https://github.com/SteshinSS/lohi_neurips2023
Lo-Hi splitter library: https://github.com/SteshinSS/lohi_splitter
- Abstract(参考訳): 新しい薬を見つけるのはますます難しくなっている。
薬物発見の望みの1つは、機械学習モデルを使用して分子特性を予測することである。
そのため、分子特性予測モデルが開発され、MoreculeNetなどのベンチマークでテストされている。
しかし、既存のベンチマークは非現実的であり、実際にモデルを適用することとはあまりにも異なる。
我々は, 実薬発見プロセスに対応するリード最適化 (Lo) とヒット同定 (Hi) の2つのタスクからなる, 実用的 \emph{Lo-Hi} ベンチマークを作成した。
hiタスクのために、バランスのとれた頂点最小のk$-cut問題を解く新しい分子分割アルゴリズムを設計した。
我々は最先端のMLモデルと古典的なMLモデルをテストし、実践的な設定でよりうまく機能することを示した。
最新のベンチマークを分析し、非現実的で過度に最適化されていることを示した。
レビュー: https://openreview.net/forum?
id=H2Yb28qGLV Lo-Hi benchmark: https://github.com/SteshinSS/lohi_neurips2023 Lo-Hi splitter library: https://github.com/SteshinSS/lohi_splitter
関連論文リスト
- PMLBmini: A Tabular Classification Benchmark Suite for Data-Scarce Applications [2.3700911865675187]
PMLBminiは、サンプルサイズが$leq$500の44のバイナリ分類データセットのベンチマークスイートである。
当社のスイートを使用して、現在の自動機械学習(AutoML)フレームワークを徹底的に評価しています。
我々の分析によると、最先端のAutoMLとディープラーニングのアプローチは、単純なロジスティック回帰ベースラインでさえ、良好に上回らないことが多い。
論文 参考訳(メタデータ) (2024-09-03T06:13:03Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - GLBench: A Comprehensive Benchmark for Graph with Large Language Models [41.89444363336435]
GLBenchは、教師付きシナリオとゼロショットシナリオの両方でGraphLLMメソッドを評価するための最初の包括的なベンチマークである。
GLBenchはグラフニューラルネットワークのような従来のベースラインとともに、GraphLLMメソッドのさまざまなカテゴリを公平かつ徹底的に評価する。
論文 参考訳(メタデータ) (2024-07-10T08:20:47Z) - Language models scale reliably with over-training and on downstream tasks [121.69867718185125]
スケーリング法則は、高価なトレーニング実行を引き出すための有用なガイドである。
しかし、現在の研究と言語モデルがどのように訓練されているかには差がある。
対照的に、スケーリング法則は主に推論における損失を予測するが、モデルは通常下流のタスクのパフォーマンスで比較される。
論文 参考訳(メタデータ) (2024-03-13T13:54:00Z) - Augmented Memory: Capitalizing on Experience Replay to Accelerate De
Novo Molecular Design [0.0]
分子生成モデルは、最小限のオラクル評価の下で望ましい目的を満たすことを学ばなければならない。
本稿では,データ拡張と体験再生を組み合わせたAugmented Memoryという新しいアルゴリズムを提案する。
オラクルコールから得られたスコアを再利用してモデルを複数回更新できることを示す。
論文 参考訳(メタデータ) (2023-05-10T14:00:50Z) - nanoLM: an Affordable LLM Pre-training Benchmark via Accurate Loss Prediction across Scales [65.01417261415833]
我々は,最大更新パラメトリゼーション(muP)がスケーリング法則の正確な適合を可能にするという観測に基づいて,事前学習損失を予測する手法を提案する。
トレーニング前コストの約14%で、52Bまでのモデルの損失を正確に予測できる。
NanoLMのゴールは、限られた資源を持つ研究者が大きなモデルで有意義な結論に達することを可能にすることです。
論文 参考訳(メタデータ) (2023-04-14T00:45:01Z) - MolGraph: a Python package for the implementation of molecular graphs
and graph neural networks with TensorFlow and Keras [51.92255321684027]
MolGraphは、分子機械学習(ML)のためのグラフニューラルネットワーク(GNN)パッケージである
MolGraphは、分子ML問題を解決するためにGNNアルゴリズムに渡すことができる小さな分子グラフを生成するための化学モジュールを実装している。
GNNは分子識別に有用であり,クロマトグラフィー保持時間データの解釈性が向上した。
論文 参考訳(メタデータ) (2022-08-21T18:37:41Z) - Minimax Optimal Quantization of Linear Models: Information-Theoretic
Limits and Efficient Algorithms [59.724977092582535]
測定から学習した線形モデルの定量化の問題を考える。
この設定の下では、ミニマックスリスクに対する情報理論の下限を導出する。
本稿では,2層ReLUニューラルネットワークに対して,提案手法と上界を拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-02-23T02:39:04Z) - MIMOSA: Multi-constraint Molecule Sampling for Molecule Optimization [51.00815310242277]
生成モデルと強化学習アプローチは、最初の成功をおさめたが、複数の薬物特性を同時に最適化する上で、依然として困難に直面している。
本稿では,MultI-Constraint MOlecule SAmpling (MIMOSA)アプローチ,初期推定として入力分子を用いるサンプリングフレームワーク,ターゲット分布からのサンプル分子を提案する。
論文 参考訳(メタデータ) (2020-10-05T20:18:42Z) - Continuous Optimization Benchmarks by Simulation [0.0]
最適化アルゴリズムのテスト、比較、チューニング、理解にはベンチマーク実験が必要である。
以前の評価から得られたデータは、ベンチマークに使用される代理モデルのトレーニングに使用することができる。
本研究では,スペクトルシミュレーションにより連続最適化問題のシミュレーションが可能であることを示す。
論文 参考訳(メタデータ) (2020-08-14T08:50:57Z) - We Should at Least Be Able to Design Molecules That Dock Well [5.751280593108197]
そこで本研究では,タンパク質への分子結合を評価する一般的な計算手法であるドッキングに基づくベンチマークを提案する。
グラフベース生成モデルでは,ドッキングスコアの高い分子を現実的な大きさのトレーニングセットを用いて学習すると生成できないことが観察された。
本稿では,簡易なスコアリング関数に基づくベンチマークの簡易版を提案し,テストしたモデルで部分的に解けることを示す。
論文 参考訳(メタデータ) (2020-06-20T16:40:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。