論文の概要: SMDD-Bench: Can LLMs Solve Real-World Small Molecule Drug Design Tasks?
- arxiv url: http://arxiv.org/abs/2605.21740v2
- Date: Sun, 24 May 2026 00:44:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 16:32:37.945256
- Title: SMDD-Bench: Can LLMs Solve Real-World Small Molecule Drug Design Tasks?
- Title(参考訳): SMDD-Bench: LLMは現実世界の小さな分子のドラッグデザインタスクを解決できるのか?
- Authors: Kevin Han, Renfei Zhang, Kathy Wei, Hamed Mahdavi, Niloofar Mireshghallah, Amir Barati Farimani,
- Abstract要約: LLMエージェントは、科学的な発見の応用に驚くべき可能性を持っている。
現在の評価手法はアドホックであり、現実世界の発見にはあまりにも単純すぎる。
オープンでクローズドな7つの LLM をベンチマークし、最も高性能な LLM である GPT5.4 さえも、40.2% のタスクしか解決していないことを発見した。
- 参考スコア(独自算出の注目度): 14.919492548107234
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM agents have incredible potential for scientific discovery applications. However, the performance of LLM agents on real-world, small molecule drug design (SMDD) tasks across diverse chemistries and targets is unclear. Current evaluation methods are either ad hoc, too simple for real-world discovery, limited in scale, or restricted to single-turn question answering. In effort to standardize the evaluation of LLM agents on small molecule design, we introduce SMDD-Bench, a challenging, multi-turn, long-horizon agentic benchmark consisting of 502 guaranteed-solvable task instances spanning 5 task types: 2D Pharmacophore Identification, Interaction Point Discovery, Scaffold Hopping, Lead Optimization, and Fragment Assembly. SMDD-Bench tasks span a wide region of chemical space and involve 102 unique protein targets. Completely solving the benchmark would require having strong chemical and biological reasoning and 3D intuition, understanding specialized tool use, and displaying planning expertise over a limited number of oracle calls. We benchmark 7 frontier open and closed source LLMs and find even the most performant LLM, GPT5.4, solves only 40.2\% of tasks. We hope SMDD-Bench provides a standardized testbed to invigorate the field towards training and evaluating LLM agents for fully autonomous computational drug design. We host a public leaderboard at smddbench.com .
- Abstract(参考訳): LLMエージェントは、科学的な発見の応用に驚くべき可能性を持っている。
しかし, LLM の薬剤の現実的, 小分子ドラッグデザイン (SMDD) における性能は, 種々の化学薬品や標的にまたがって明らかになっていない。
現在の評価手法はアドホックであり、現実世界の発見にはあまりにも単純すぎる。
小分子設計におけるLCMエージェントの評価を標準化するために、SMDD-Benchを紹介した。SMDD-Benchは、5種類のタスクタイプにまたがる502の保証可能なタスクインスタンスからなる、困難で多ターンの長いエージェントベンチマークである。
SMDD-Benchタスクは、幅広い化学領域にまたがり、102のユニークなタンパク質標的を含む。
ベンチマークを完全に解決するには、強力な化学的および生物学的推論と3D直観、専門的なツールの使用の理解、限られた数のオラクルコールに関する計画的専門知識の表示が必要である。
オープンでクローズドな7つの LLM をベンチマークし、最も高性能な LLM である GPT5.4 さえも、わずか 40.2 % のタスクしか解決できないことを発見した。
SMDD-Benchは、完全に自律的な薬物設計のためのLSMエージェントの訓練および評価の分野を活性化するための標準化されたテストベッドを提供することを期待している。
私たちはsmddbench.comで公開のリーダーボードを開催しています。
関連論文リスト
- MolViBench: Evaluating LLMs on Molecular Vibe Coding [34.95690336371804]
MolViBenchは、分子ビブ符号化用に調整された最初のベンチマークである。
MolViBenchは、シングルAPIリコールからエンドツーエンドの仮想スクリーニングパイプライン設計まで、5つの認知レベルにわたる358のキュレートされたタスクで構成されている。
論文 参考訳(メタデータ) (2026-05-04T08:54:54Z) - Distilling LLM Agent into Small Models with Retrieval and Code Tools [65.73762766854192]
Agent Distillationは、推論能力とタスク解決の振る舞いを大きな言語モデルから小さな言語モデルに移行するためのフレームワークである。
その結果,SLMは0.5B,1.5B,3Bのパラメータで,次世代の1.5B,3B,7Bモデルと競合する性能が得られることがわかった。
論文 参考訳(メタデータ) (2025-05-23T08:20:15Z) - MLRC-Bench: Can Language Agents Solve Machine Learning Research Challenges? [66.87201770167012]
MLRC-Benchは、機械学習(ML)リサーチコンペティションの挑戦において、言語エージェントがいかに効果的に対処できるかを定量化するために設計されたベンチマークである。
MLRC-Benchは以前の研究とは異なり、新しい研究手法を提案し、実装する上で重要なステップを計測する。
最も優れた試験薬でさえ、ベースラインとトップヒューマンのスコアの差の9.3%しか閉じていない。
論文 参考訳(メタデータ) (2025-04-13T19:35:43Z) - EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents [63.43699771428243]
EmbodiedBenchは、視覚駆動型エンボディエージェントを評価するために設計された広範囲なベンチマークである。
我々はEmbodiedBench内のプロプライエタリおよびオープンソースMLLMを24件評価した。
MLLMは高いレベルのタスクで優れるが、低レベルの操作に苦戦し、最高のモデルであるGPT-4oは平均28.9%のスコアしか獲得できなかった。
論文 参考訳(メタデータ) (2025-02-13T18:11:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。