Fugu-MT 論文翻訳(概要): Lo-Hi: Practical ML Drug Discovery Benchmark

論文の概要: Lo-Hi: Practical ML Drug Discovery Benchmark

arxiv url: http://arxiv.org/abs/2310.06399v1
Date: Tue, 10 Oct 2023 08:06:32 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-11 18:21:33.735049
Title: Lo-Hi: Practical ML Drug Discovery Benchmark
Title（参考訳）: Lo-Hi: MLドラッグ発見ベンチマーク
Authors: Simon Steshin
Abstract要約: 薬物発見の望みの1つは、機械学習モデルを使用して分子特性を予測することである。既存の分子特性予測のベンチマークは非現実的であり、実際にモデルを適用することとは相容れない。我々は、実薬発見プロセスに対応する、新しい実践的なemphLo-Hiベンチマークを作成しました。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Finding new drugs is getting harder and harder. One of the hopes of drug discovery is to use machine learning models to predict molecular properties. That is why models for molecular property prediction are being developed and tested on benchmarks such as MoleculeNet. However, existing benchmarks are unrealistic and are too different from applying the models in practice. We have created a new practical \emph{Lo-Hi} benchmark consisting of two tasks: Lead Optimization (Lo) and Hit Identification (Hi), corresponding to the real drug discovery process. For the Hi task, we designed a novel molecular splitting algorithm that solves the Balanced Vertex Minimum $k$-Cut problem. We tested state-of-the-art and classic ML models, revealing which works better under practical settings. We analyzed modern benchmarks and showed that they are unrealistic and overoptimistic. Review: https://openreview.net/forum?id=H2Yb28qGLV Lo-Hi benchmark: https://github.com/SteshinSS/lohi_neurips2023 Lo-Hi splitter library: https://github.com/SteshinSS/lohi_splitter
Abstract（参考訳）: 新しい薬を見つけるのはますます難しくなっている。薬物発見の望みの1つは、機械学習モデルを使用して分子特性を予測することである。そのため、分子特性予測モデルが開発され、MoreculeNetなどのベンチマークでテストされている。しかし、既存のベンチマークは非現実的であり、実際にモデルを適用することとはあまりにも異なる。我々は, 実薬発見プロセスに対応するリード最適化 (Lo) とヒット同定 (Hi) の2つのタスクからなる, 実用的 \emph{Lo-Hi} ベンチマークを作成した。 hiタスクのために、バランスのとれた頂点最小のk$-cut問題を解く新しい分子分割アルゴリズムを設計した。我々は最先端のMLモデルと古典的なMLモデルをテストし、実践的な設定でよりうまく機能することを示した。最新のベンチマークを分析し、非現実的で過度に最適化されていることを示した。レビュー: https://openreview.net/forum? id=H2Yb28qGLV Lo-Hi benchmark: https://github.com/SteshinSS/lohi_neurips2023 Lo-Hi splitter library: https://github.com/SteshinSS/lohi_splitter

関連論文リスト

CLEVER: A Curated Benchmark for Formally Verified Code Generation [57.476483009565044]
$rm Csmall LEVER$は、リーンにおけるエンドツーエンドのコード生成のための161の問題を、高品質でキュレートしたベンチマークである。それぞれの問題は、(1)堅実な仕様と一致する仕様を生成するタスク、(2)この仕様を確実に満足するリーン実装を生成するタスクで構成されています。
論文参考訳（メタデータ） (2025-05-20T05:15:47Z)
Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach [70.44265766483633]
本稿では,潜在空間における暗黙的推論によるテスト時間計算のスケールアップが可能な,新しい言語モデルアーキテクチャについて検討する。我々のモデルは繰り返しブロックを繰り返すことで動作し、テスト時に任意の深さに展開する。結果のモデルが推論ベンチマークの性能を劇的に改善できることが示される。
論文参考訳（メタデータ） (2025-02-07T18:55:02Z)
Zeroth-Order Adaptive Neuron Alignment Based Pruning without Re-Training [3.195234044113248]
ネットワークプルーニングのためのemphtop-upアルゴリズムであるtextscNeuroALを提案する。これは、高密度モデルとスパースバージョンの両方から情報を利用するブロックワイドと行ワイドのスパース性を変更する。パフォーマンスと実行時のトレードオフの観点から、最新の最先端の手法を一貫して上回ります。
論文参考訳（メタデータ） (2024-11-11T15:30:16Z)
PMLBmini: A Tabular Classification Benchmark Suite for Data-Scarce Applications [2.3700911865675187]
PMLBminiは、サンプルサイズが$leq$500の44のバイナリ分類データセットのベンチマークスイートである。当社のスイートを使用して、現在の自動機械学習(AutoML)フレームワークを徹底的に評価しています。我々の分析によると、最先端のAutoMLとディープラーニングのアプローチは、単純なロジスティック回帰ベースラインでさえ、良好に上回らないことが多い。
論文参考訳（メタデータ） (2024-09-03T06:13:03Z)
What Ails Generative Structure-based Drug Design: Expressivity is Too Little or Too Much? [28.22384118354044]
構造に基づく薬物設計を加速するために、詳細なトレーニングとサンプリング手順を備えたいくつかの生成モデルが提案されている。我々はこの現象を理論的・経験的両面からよりよく理解したいと考えている。妥当な対観は、これらのモデルの過度なパラメータ化を原因として、一般化を犠牲にして表現性を誘導する。
論文参考訳（メタデータ） (2024-08-12T10:55:29Z)
Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2～3倍の高速化を実現した。
論文参考訳（メタデータ） (2024-07-22T18:00:00Z)
GLBench: A Comprehensive Benchmark for Graph with Large Language Models [41.89444363336435]
GLBenchは、教師付きシナリオとゼロショットシナリオの両方でGraphLLMメソッドを評価するための最初の包括的なベンチマークである。 GLBenchはグラフニューラルネットワークのような従来のベースラインとともに、GraphLLMメソッドのさまざまなカテゴリを公平かつ徹底的に評価する。
論文参考訳（メタデータ） (2024-07-10T08:20:47Z)
Language models scale reliably with over-training and on downstream tasks [121.69867718185125]
スケーリング法則は、高価なトレーニング実行を引き出すための有用なガイドである。しかし、現在の研究と言語モデルがどのように訓練されているかには差がある。対照的に、スケーリング法則は主に推論における損失を予測するが、モデルは通常下流のタスクのパフォーマンスで比較される。
論文参考訳（メタデータ） (2024-03-13T13:54:00Z)
Augmented Memory: Capitalizing on Experience Replay to Accelerate De Novo Molecular Design [0.0]
分子生成モデルは、最小限のオラクル評価の下で望ましい目的を満たすことを学ばなければならない。本稿では,データ拡張と体験再生を組み合わせたAugmented Memoryという新しいアルゴリズムを提案する。オラクルコールから得られたスコアを再利用してモデルを複数回更新できることを示す。
論文参考訳（メタデータ） (2023-05-10T14:00:50Z)
nanoLM: an Affordable LLM Pre-training Benchmark via Accurate Loss Prediction across Scales [65.01417261415833]
我々は,最大更新パラメトリゼーション(muP)がスケーリング法則の正確な適合を可能にするという観測に基づいて,事前学習損失を予測する手法を提案する。トレーニング前コストの約14%で、52Bまでのモデルの損失を正確に予測できる。 NanoLMのゴールは、限られた資源を持つ研究者が大きなモデルで有意義な結論に達することを可能にすることです。
論文参考訳（メタデータ） (2023-04-14T00:45:01Z)
MolGraph: a Python package for the implementation of molecular graphs and graph neural networks with TensorFlow and Keras [51.92255321684027]
MolGraphは、分子機械学習(ML)のためのグラフニューラルネットワーク(GNN)パッケージである MolGraphは、分子ML問題を解決するためにGNNアルゴリズムに渡すことができる小さな分子グラフを生成するための化学モジュールを実装している。 GNNは分子識別に有用であり,クロマトグラフィー保持時間データの解釈性が向上した。
論文参考訳（メタデータ） (2022-08-21T18:37:41Z)
Minimax Optimal Quantization of Linear Models: Information-Theoretic Limits and Efficient Algorithms [59.724977092582535]
測定から学習した線形モデルの定量化の問題を考える。この設定の下では、ミニマックスリスクに対する情報理論の下限を導出する。本稿では,2層ReLUニューラルネットワークに対して,提案手法と上界を拡張可能であることを示す。
論文参考訳（メタデータ） (2022-02-23T02:39:04Z)
MIMOSA: Multi-constraint Molecule Sampling for Molecule Optimization [51.00815310242277]
生成モデルと強化学習アプローチは、最初の成功をおさめたが、複数の薬物特性を同時に最適化する上で、依然として困難に直面している。本稿では,MultI-Constraint MOlecule SAmpling (MIMOSA)アプローチ,初期推定として入力分子を用いるサンプリングフレームワーク,ターゲット分布からのサンプル分子を提案する。
論文参考訳（メタデータ） (2020-10-05T20:18:42Z)
Continuous Optimization Benchmarks by Simulation [0.0]
最適化アルゴリズムのテスト、比較、チューニング、理解にはベンチマーク実験が必要である。以前の評価から得られたデータは、ベンチマークに使用される代理モデルのトレーニングに使用することができる。本研究では,スペクトルシミュレーションにより連続最適化問題のシミュレーションが可能であることを示す。
論文参考訳（メタデータ） (2020-08-14T08:50:57Z)
We Should at Least Be Able to Design Molecules That Dock Well [5.751280593108197]
そこで本研究では,タンパク質への分子結合を評価する一般的な計算手法であるドッキングに基づくベンチマークを提案する。グラフベース生成モデルでは,ドッキングスコアの高い分子を現実的な大きさのトレーニングセットを用いて学習すると生成できないことが観察された。本稿では,簡易なスコアリング関数に基づくベンチマークの簡易版を提案し,テストしたモデルで部分的に解けることを示す。
論文参考訳（メタデータ） (2020-06-20T16:40:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。