論文の概要: L+M-24: Building a Dataset for Language + Molecules @ ACL 2024
- arxiv url: http://arxiv.org/abs/2403.00791v2
- Date: Thu, 4 Jul 2024 17:21:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 23:43:30.997648
- Title: L+M-24: Building a Dataset for Language + Molecules @ ACL 2024
- Title(参考訳): L+M-24:Language + Molecules @ ACL 2024
- Authors: Carl Edwards, Qingyun Wang, Lawrence Zhao, Heng Ji,
- Abstract要約: ACL 2024で共有されたLanguage + Molecules Workshopのために作成された$textitL+M-24$データセットについて詳述する。
特に、$textitL+M-24$は、分子設計における自然言語の3つの重要な利点(合成性、機能、抽象)に焦点を当てるように設計されている。
- 参考スコア(独自算出の注目度): 46.478275217556586
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language-molecule models have emerged as an exciting direction for molecular discovery and understanding. However, training these models is challenging due to the scarcity of molecule-language pair datasets. At this point, datasets have been released which are 1) small and scraped from existing databases, 2) large but noisy and constructed by performing entity linking on the scientific literature, and 3) built by converting property prediction datasets to natural language using templates. In this document, we detail the $\textit{L+M-24}$ dataset, which has been created for the Language + Molecules Workshop shared task at ACL 2024. In particular, $\textit{L+M-24}$ is designed to focus on three key benefits of natural language in molecule design: compositionality, functionality, and abstraction.
- Abstract(参考訳): 言語分子モデルは、分子の発見と理解のエキサイティングな方向として登場した。
しかし、分子言語対のデータセットが不足しているため、これらのモデルのトレーニングは困難である。
現時点では、データセットがリリースされている。
1) 既存のデータベースから小さく、取り除かれたもの。
2 大きくて騒々しく、科学文献にリンクした実体を営むことによる構成、及び
3) プロパティ予測データセットをテンプレートを使って自然言語に変換する。
この文書では、ACL 2024で共有されたLanguage + Molecules Workshopのために作成された$\textit{L+M-24}$データセットについて詳述する。
特に$\textit{L+M-24}$は、分子設計における自然言語の3つの重要な利点(合成性、機能、抽象)に焦点を当てるように設計されている。
関連論文リスト
- G2T-LLM: Graph-to-Tree Text Encoding for Molecule Generation with Fine-Tuned Large Language Models [15.32011692129901]
G2T-LLMは,グラフからツリーへのテキストエンコーディングを用いて,グラフに基づく分子構造をベンチマーク(LLM)に最適化した階層型テキスト形式に変換する手法である。
このエンコーディングは、複雑な分子グラフを大きな言語モデルやXMLなどの木構造形式に変換する。
教師付き微調整により、G2T-LLMは有効でコヒーレントな化学構造を生成し、従来のグラフベースの手法で見られる無効な出力のような一般的な課題に対処する。
論文 参考訳(メタデータ) (2024-10-03T04:25:21Z) - Instruction Multi-Constraint Molecular Generation Using a Teacher-Student Large Language Model [49.64512917330373]
本稿では,学生に類似した多制約分子生成大言語モデルTSMMGを紹介する。
TSMMGを訓練するために、これらの「教師」から分子知識を抽出し、大量のテキスト-分子対を構築する。
我々は,TSMMGが複雑で自然言語で記述された特性を満たす分子を生成できることを実験的に明らかにした。
論文 参考訳(メタデータ) (2024-03-20T02:15:55Z) - Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research [139.69207791947738]
ドルマ (Dolma) は、ウェブコンテンツ、科学論文、コード、パブリックドメインの書籍、ソーシャルメディア、百科事典の素材を多用した3トリルの英語コーパスである。
我々はDolmaの設計原則、その構築の詳細、内容の要約を含む、Dolmaを文書化します。
我々は、重要なデータキュレーションの実践について学んだことを共有するために、Dolmaの中間状態の分析と実験結果を示す。
論文 参考訳(メタデータ) (2024-01-31T20:29:50Z) - GIT-Mol: A Multi-modal Large Language Model for Molecular Science with
Graph, Image, and Text [25.979382232281786]
グラフ,画像,テキスト情報を統合したマルチモーダルな大規模言語モデルであるGIT-Molを紹介する。
特性予測の精度は5%-10%向上し、分子生成の妥当性は20.2%向上した。
論文 参考訳(メタデータ) (2023-08-14T03:12:29Z) - Interactive Molecular Discovery with Natural Language [69.89287960545903]
対象分子を記述・編集するための自然言語を用いた対話型分子設計を提案する。
この課題をより良くするために、実験プロパティ情報を注入することによって強化された知識的で汎用的な生成事前学習モデルChatMolを設計する。
論文 参考訳(メタデータ) (2023-06-21T02:05:48Z) - Multi-modal Molecule Structure-text Model for Text-based Retrieval and
Editing [107.49804059269212]
分子の化学構造とテキスト記述を共同で学習し, マルチモーダルな分子構造テキストモデル, MoleculeSTMを提案する。
実験において、分子STMは、新しい生化学的概念を創出するための最先端の一般化能力を得る。
論文 参考訳(メタデータ) (2022-12-21T06:18:31Z) - Structured information extraction from complex scientific text with
fine-tuned large language models [55.96705756327738]
そこで本研究では,共振器認識と関係抽出のための簡単なシーケンス・ツー・シーケンス手法を提案する。
このアプローチは、約500組のプロンプトで微調整された、事前訓練済みの大規模言語モデル(LLM)であるGPT-3を利用する。
このアプローチは、構造化されていないテキストから抽出された構造化知識の大規模なデータベースを得るための、シンプルで、アクセス可能で、非常に柔軟な経路を示す。
論文 参考訳(メタデータ) (2022-12-10T07:51:52Z) - Translation between Molecules and Natural Language [43.518805086280466]
本稿では,未ラベルの自然言語テキストや分子文字列の事前学習のための自己教師型学習フレームワークを提案する。
$textbfMolT5$は、分子キャプションやテキストベースのdenovo分子生成など、従来の視覚言語タスクの新しい、有用な、挑戦的なアナログを可能にする。
論文 参考訳(メタデータ) (2022-04-25T17:48:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。