論文の概要: Specialising and Analysing Instruction-Tuned and Byte-Level Language Models for Organic Reaction Prediction
- arxiv url: http://arxiv.org/abs/2405.10625v1
- Date: Fri, 17 May 2024 08:39:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-20 16:32:42.331042
- Title: Specialising and Analysing Instruction-Tuned and Byte-Level Language Models for Organic Reaction Prediction
- Title(参考訳): 有機反応予測のための命令調整およびバイトレベル言語モデルの作成と解析
- Authors: Jiayun Pang, Ivan Vulić,
- Abstract要約: トランスフォーマーベースのエンコーダデコーダモデルは化学反応予測タスクにおいて顕著な結果を示した。
これらのモデルは通常、数千万の未標識分子を用いた事前学習に依存している。
FlanT5とByT5はタスク特異的微調整による有機反応予測に効果的に機能するか?
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based encoder-decoder models have demonstrated impressive results in chemical reaction prediction tasks. However, these models typically rely on pretraining using tens of millions of unlabelled molecules, which can be time-consuming and GPU-intensive. One of the central questions we aim to answer in this work is: Can FlanT5 and ByT5, the encode-decoder models pretrained solely on language data, be effectively specialised for organic reaction prediction through task-specific fine-tuning? We conduct a systematic empirical study on several key issues of the process, including tokenisation, the impact of (SMILES-oriented) pretraining, fine-tuning sample efficiency, and decoding algorithms at inference. Our key findings indicate that although being pretrained only on language tasks, FlanT5 and ByT5 provide a solid foundation to fine-tune for reaction prediction, and thus become `chemistry domain compatible' in the process. This suggests that GPU-intensive and expensive pretraining on a large dataset of unlabelled molecules may be useful yet not essential to leverage the power of language models for chemistry. All our models achieve comparable Top-1 and Top-5 accuracy although some variation across different models does exist. Notably, tokenisation and vocabulary trimming slightly affect final performance but can speed up training and inference; The most efficient greedy decoding strategy is very competitive while only marginal gains can be achieved from more sophisticated decoding algorithms. In summary, we evaluate FlanT5 and ByT5 across several dimensions and benchmark their impact on organic reaction prediction, which may guide more effective use of these state-of-the-art language models for chemistry-related tasks in the future.
- Abstract(参考訳): トランスフォーマーベースのエンコーダデコーダモデルは化学反応予測タスクにおいて顕著な結果を示した。
しかし、これらのモデルは通常、数千万の未標識分子を使った事前学習に依存しており、それは時間とGPU集約性に富む。
FlanT5とByT5は、言語データのみに事前訓練されたエンコード・デコーダモデルで、タスク固有の微調整による有機反応予測に効果的に特化できますか?
我々は,トークン化,SMILES指向の事前学習の影響,微調整サンプル効率,推論時の復号アルゴリズムなど,プロセスのいくつかの重要な課題について,系統的研究を行った。
FlanT5とByT5は, 言語タスクのみに事前訓練されているものの, 反応予測のための微調整の基礎となり, プロセスにおいて「化学ドメイン互換」となることが示唆された。
このことは、GPU集約的で高価な分子の大規模なデータセットでの事前訓練は、化学のために言語モデルのパワーを活用するのに必要ではないかもしれないことを示唆している。
全てのモデルでTop-1とTop-5の精度が比較できるが、異なるモデルにまたがるいくつかのバリエーションが存在する。
特に、トークン化とボキャブラリトリミングは最終的なパフォーマンスにわずかに影響を及ぼすが、トレーニングと推論を高速化することができる。
まとめると、我々はFlanT5とByT5を様々な次元で評価し、有機反応予測への影響をベンチマークし、将来これらの最先端言語モデルを化学関連タスクにより効果的に活用するのに役立つかもしれない。
関連論文リスト
- Transfer Learning for Molecular Property Predictions from Small Data Sets [0.0]
我々は、小さなデータセット上での分子特性の予測のために、一般的な機械学習モデルをベンチマークする。
本稿では,大規模なデータセットを用いて各モデルを事前学習し,元のデータセットを微調整した上で,より正確なモデルを得ることができる転送学習戦略を提案する。
論文 参考訳(メタデータ) (2024-04-20T14:25:34Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - ReactionT5: a large-scale pre-trained model towards application of
limited reaction data [4.206175795966693]
トランスフォーマーベースのディープニューラルネットワークは、分子を記号配列として扱うことによって、分子関連予測タスクの分野に革命をもたらした。
本稿では,オープン・リアクション・データベース(ORD)の事前学習を利用する新しいモデルであるReactionT5を提案する。
我々はさらに、収量予測と製品予測タスクのためにこのモデルを微調整し、限られた微調整データでもその印象的な性能を実証する。
論文 参考訳(メタデータ) (2023-11-12T02:25:00Z) - Investigating Pre-trained Language Models on Cross-Domain Datasets, a
Step Closer to General AI [0.8889304968879164]
本研究では、事前学習された言語モデルが、異なる非言語タスクに一般化する能力について検討する。
私たちが使用した4つの事前訓練モデル、T5、BART、BERT、GPT-2は優れた結果を得た。
論文 参考訳(メタデータ) (2023-06-21T11:55:17Z) - Reprogramming Pretrained Language Models for Protein Sequence
Representation Learning [68.75392232599654]
エンドツーエンドの表現学習フレームワークである辞書学習(R2DL)による表現学習を提案する。
R2DLは、タンパク質配列の埋め込みを学ぶために、事前訓練された英語モデルを再プログラムする。
我々のモデルは,事前訓練および標準教師付き手法によって設定されたベースラインに対して,最大105ドルの精度でデータ効率を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-05T15:55:18Z) - Decoder Tuning: Efficient Language Understanding as Decoding [84.68266271483022]
本稿では,タスク固有のデコーダネットワークを出力側で最適化するデコーダチューニング(DecT)を提案する。
勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPクエリしか必要としない。
我々は、広範囲にわたる自然言語理解実験を行い、DecTが200ドル以上のスピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-16T11:15:39Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - Scale Efficiently: Insights from Pre-training and Fine-tuning
Transformers [57.931830650323]
本稿では,事前学習および微調整型変圧器によるスケーリングの洞察について述べる。
モデルのサイズだけでなく、モデル形状が下流の微調整に重要であることを示す。
再設計したモデルにより、下流の微調整品質が向上する。
論文 参考訳(メタデータ) (2021-09-22T12:29:15Z) - How much pretraining data do language models need to learn syntax? [12.668478784932878]
トランスフォーマーに基づく事前訓練型言語モデルは、多くのよく知られたNLUベンチマークにおいて優れた結果を得る。
本稿では,RoBERTaを用いたモデル知識に対する事前学習データサイズの影響について検討する。
論文 参考訳(メタデータ) (2021-09-07T15:51:39Z) - MC-BERT: Efficient Language Pre-Training via a Meta Controller [96.68140474547602]
大規模事前学習は計算コストが高い。
事前トレーニングを加速する初期の試みであるELECTRAは、各入力トークンがジェネレータに置き換えられたかどうかを予測する識別モデルを訓練している。
本稿では,MC-BERTというメタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T09:22:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。