論文の概要: TOMG-Bench: Evaluating LLMs on Text-based Open Molecule Generation
- arxiv url: http://arxiv.org/abs/2412.14642v1
- Date: Thu, 19 Dec 2024 08:51:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:32:05.779694
- Title: TOMG-Bench: Evaluating LLMs on Text-based Open Molecule Generation
- Title(参考訳): TOMG-Bench: テキストベースのオープン分子生成によるLCMの評価
- Authors: Jiatong Li, Junxian Li, Yunqing Liu, Dongzhan Zhou, Qing Li,
- Abstract要約: LLMのオープンドメイン分子生成能力を評価するためにテキストベースのオープン分子生成ベンチマーク(TOMG-Bench)を提案する。
TOMG-Benchは、分子編集(MolEdit)、分子最適化(MolOpt)、カスタマイズされた分子生成(MolCustom)の3つの主要なタスクのデータセットを含んでいる。
25 LLMのベンチマークでは、テキスト誘導分子発見における現在の限界と潜在的な領域が明らかにされている。
- 参考スコア(独自算出の注目度): 14.850902225004507
- License:
- Abstract: In this paper, we propose Text-based Open Molecule Generation Benchmark (TOMG-Bench), the first benchmark to evaluate the open-domain molecule generation capability of LLMs. TOMG-Bench encompasses a dataset of three major tasks: molecule editing (MolEdit), molecule optimization (MolOpt), and customized molecule generation (MolCustom). Each task further contains three subtasks, with each subtask comprising 5,000 test samples. Given the inherent complexity of open molecule generation, we have also developed an automated evaluation system that helps measure both the quality and the accuracy of the generated molecules. Our comprehensive benchmarking of 25 LLMs reveals the current limitations and potential areas for improvement in text-guided molecule discovery. Furthermore, with the assistance of OpenMolIns, a specialized instruction tuning dataset proposed for solving challenges raised by TOMG-Bench, Llama3.1-8B could outperform all the open-source general LLMs, even surpassing GPT-3.5-turbo by 46.5\% on TOMG-Bench. Our codes and datasets are available through https://github.com/phenixace/TOMG-Bench.
- Abstract(参考訳): 本稿では,LLMのオープンドメイン分子生成能力を評価する最初のベンチマークであるテキストベースのオープン分子生成ベンチマーク(TOMG-Bench)を提案する。
TOMG-Benchは、分子編集(MolEdit)、分子最適化(MolOpt)、カスタマイズされた分子生成(MolCustom)の3つの主要なタスクのデータセットを含んでいる。
各タスクはさらに3つのサブタスクを含み、各サブタスクは5,000のテストサンプルで構成されている。
また, 開分子生成の複雑さを考慮し, 生成分子の品質と精度の両方を測定する自動評価システムを開発した。
25 LLMの総合的なベンチマークにより、テキスト誘導分子発見における現在の限界と潜在的な領域が明らかになった。
さらに、OpenMolInsの助けを借りて、TOMG-Benchによって提起された課題を解決するために提案された特別指導用チューニングデータセットにより、Llama3.1-8Bはオープンソース一般のLLMよりも優れ、TOMG-Benchでは GPT-3.5-turbo を46.5\% 上回った。
コードとデータセットはhttps://github.com/phenixace/TOMG-Bench.comから入手可能です。
関連論文リスト
- Automatic Annotation Augmentation Boosts Translation between Molecules and Natural Language [7.458295743918249]
本稿では,Language-based Automatic AugmentationフレームワークであるLA$3$を紹介した。
LA$3$の有効性を示すために、LaChEBI-20という拡張データセットを作成し、確立したデータセットから分子のアノテーションを書き換える。
ベンチマークアーキテクチャに基づいてLaMolT5をトレーニングし、分子表現と拡張アノテーションのマッピングを学習する。
論文 参考訳(メタデータ) (2025-02-10T16:29:21Z) - Property Enhanced Instruction Tuning for Multi-task Molecule Generation with Large Language Models [43.37148291436855]
分子関連タスクのための大規模言語モデルを改善するための2段階のフレームワークPEITを提案する。
最初のステップでは、PEIT-GENと呼ばれるモデルを事前訓練するために、テキスト記述、SMILES、生化学的特性をマルチモーダル入力として使用します。
2番目のステップでは、既存のオープンソースLCMを合成データで微調整し、PEIT-LLMは分子キャプション、テキストベースの分子生成、分子特性予測、新たに提案したマルチ制約分子生成タスクを処理できる。
論文 参考訳(メタデータ) (2024-12-24T01:48:07Z) - MolX: Enhancing Large Language Models for Molecular Learning with A Multi-Modal Extension [34.586861881519134]
タスクハンドリング能力の強い大規模言語モデル(LLM)は、様々な分野において顕著な進歩を見せている。
本研究は、分子をマルチモーダルな外部モジュール、すなわちMollXに装備することで、分子の理解能力を高めることを目的とする。
特に,分子の表現にSMILES文字列を直接使用する代わりに,特定のエンコーダを用いて,SMILES文字列と2次元分子グラフ表現の両方から微細な特徴を抽出する。
論文 参考訳(メタデータ) (2024-06-10T20:25:18Z) - Instruction Multi-Constraint Molecular Generation Using a Teacher-Student Large Language Model [49.64512917330373]
本稿では,学生に類似した多制約分子生成大言語モデルTSMMGを紹介する。
TSMMGを訓練するために、これらの「教師」から分子知識を抽出し、大量のテキスト-分子対を構築する。
我々は,TSMMGが複雑で自然言語で記述された特性を満たす分子を生成できることを実験的に明らかにした。
論文 参考訳(メタデータ) (2024-03-20T02:15:55Z) - FOFO: A Benchmark to Evaluate LLMs' Format-Following Capability [70.84333325049123]
FoFoは、大規模言語モデル(LLM)の複雑なドメイン固有のフォーマットに従う能力を評価するための先駆的なベンチマークである。
本稿では,大規模言語モデル(LLM)の複雑なドメイン固有フォーマットに従う能力を評価するための先駆的ベンチマークであるFoFoを提案する。
論文 参考訳(メタデータ) (2024-02-28T19:23:27Z) - MatPlotAgent: Method and Evaluation for LLM-Based Agentic Scientific Data Visualization [86.61052121715689]
MatPlotAgentは、科学的データ可視化タスクを自動化するために設計された、モデルに依存しないフレームワークである。
MatPlotBenchは、100人の検証されたテストケースからなる高品質なベンチマークである。
論文 参考訳(メタデータ) (2024-02-18T04:28:28Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - LLM4VV: Developing LLM-Driven Testsuite for Compiler Validation [7.979116939578324]
大規模言語モデル(LLM)は、自然言語を含む幅広いアプリケーションのための強力なツールである。
オープンソースLLM -- Meta Codellama、PhindによるCodellama、Deepseek Deepseek Coder、クローズソースLLM -- OpenAI GPT-3.5-Turbo、GPT-4-Turboなど、最先端のLLMの機能について検討する。
論文 参考訳(メタデータ) (2023-10-08T01:43:39Z) - Struc-Bench: Are Large Language Models Really Good at Generating Complex Structured Data? [49.688233418425995]
Struc-Benchは、大きな言語モデル(LLM)を特徴とする包括的なベンチマークである。
Pスコア(Prompting Score)とHスコア(Heuristical Score)の2つの革新的な指標を提案する。
実験の結果,LLaMA-7Bに構造認識の微調整を適用すると,性能が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-09-16T11:31:58Z) - Empowering Molecule Discovery for Molecule-Caption Translation with Large Language Models: A ChatGPT Perspective [53.300288393173204]
大規模言語モデル(LLM)は、様々なクロスモーダルタスクにおいて顕著なパフォーマンスを示している。
本研究では,分子カプセル翻訳のためのインコンテキストFew-Shot Molecule Learningパラダイムを提案する。
分子理解とテキストベースの分子生成を含む分子キャプション翻訳におけるMollReGPTの有効性を評価する。
論文 参考訳(メタデータ) (2023-06-11T08:16:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。