論文の概要: Chemical transformer compression for accelerating both training and
inference of molecular modeling
- arxiv url: http://arxiv.org/abs/2205.07582v1
- Date: Mon, 16 May 2022 11:38:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-17 20:34:16.006913
- Title: Chemical transformer compression for accelerating both training and
inference of molecular modeling
- Title(参考訳): 化学変圧器圧縮による分子モデリングの訓練と推論の促進
- Authors: Yi Yu and Karl Borjesson
- Abstract要約: 量子構造活性相関(QSAR)や仮想スクリーニング(VS)などの応用において優れた性能を持つトランスフォーマーモデルが分子科学で開発されている。
本研究は,分子科学におけるトランスフォーマーのサイズを減らすために,クロス層パラメータ共有 (CLPS) と知識蒸留 (KD) を用いる。
CLPSとKDを二状態ケミカルネットワークに統合することにより、新しいディープライトケミカルトランスモデルDeLiCaTeを導入する。
- 参考スコア(独自算出の注目度): 6.98497133151762
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer models have been developed in molecular science with excellent
performance in applications including quantitative structure-activity
relationship (QSAR) and virtual screening (VS). Compared with other types of
models, however, they are large, which results in a high hardware requirement
to abridge time for both training and inference processes. In this work,
cross-layer parameter sharing (CLPS), and knowledge distillation (KD) are used
to reduce the sizes of transformers in molecular science. Both methods not only
have competitive QSAR predictive performance as compared to the original BERT
model, but also are more parameter efficient. Furthermore, by integrating CLPS
and KD into a two-state chemical network, we introduce a new deep lite chemical
transformer model, DeLiCaTe. DeLiCaTe captures general-domains as well as
task-specific knowledge, which lead to a 4x faster rate of both training and
inference due to a 10- and 3-times reduction of the number of parameters and
layers, respectively. Meanwhile, it achieves comparable performance in QSAR and
VS modeling. Moreover, we anticipate that the model compression strategy
provides a pathway to the creation of effective generative transformer models
for organic drug and material design.
- Abstract(参考訳): 量子構造活性相関(QSAR)や仮想スクリーニング(VS)などの応用において優れた性能を持つトランスフォーマーモデルが分子科学で開発されている。
しかし、他のタイプのモデルと比較すると、それらは大きいため、トレーニングと推論プロセスの両方に要する時間を短縮するハードウェア要件が高い。
本研究は,分子科学におけるトランスフォーマーのサイズを減らすために,クロス層パラメータ共有(CLPS)と知識蒸留(KD)を用いる。
どちらの手法も、元のBERTモデルと競合するQSAR予測性能を持つだけでなく、パラメータ効率も高い。
さらに, CLPSとKDを二状態化学ネットワークに統合することにより, 新しい深層化学変圧器モデルDeLiCaTeを導入する。
DeLiCaTeは、一般的なドメインとタスク固有の知識をキャプチャし、それぞれパラメータとレイヤの数を10倍から3倍に削減するため、トレーニングと推論の両方が4倍高速になる。
一方、QSARとVSモデリングでは同等のパフォーマンスを実現している。
さらに, モデル圧縮戦略は, 有機医薬品や材料設計に有効な生成トランスフォーマーモデルを作成するための経路となることを期待する。
関連論文リスト
- Transformer Layer Injection: A Novel Approach for Efficient Upscaling of Large Language Models [0.0]
Transformer Layer Injection (TLI)は、大規模言語モデル(LLM)を効率的にスケールアップする新しい手法である。
提案手法は, 各K層に新しい層を注入することにより, 従来の深層アップスケーリング(DUS)技術を改善する。
論文 参考訳(メタデータ) (2024-10-15T14:41:44Z) - 2DQuant: Low-bit Post-Training Quantization for Image Super-Resolution [83.09117439860607]
低ビット量子化は、エッジ展開のための画像超解像(SR)モデルを圧縮するために広く普及している。
低ビット量子化は、フル精度(FP)と比較してSRモデルの精度を低下させることが知られている。
本稿では2DQuantという画像超解像のための2段階の低ビット後量子化(PTQ)法を提案する。
論文 参考訳(メタデータ) (2024-06-10T06:06:11Z) - TerDiT: Ternary Diffusion Models with Transformers [83.94829676057692]
TerDiTは変圧器を用いた3次拡散モデルのための量子化対応トレーニングスキームである。
我々は、DiTネットワークの3元化とスケールモデルサイズを600Mから4.2Bに焦点をあてる。
論文 参考訳(メタデータ) (2024-05-23T17:57:24Z) - Co-training and Co-distillation for Quality Improvement and Compression
of Language Models [88.94539115180919]
知識蒸留(KD)は、知識をより小さなモデルに伝達することで、高価な事前訓練言語モデル(PLM)を圧縮する。
ほとんどの小型モデルはオリジナルの大型モデルの性能を上回ることができず、推論速度を改善するために性能を犠牲にする結果となった。
本稿では,2つのモデルを協調学習することで,性能と推論速度を共に向上する新しいフレームワークであるCTCDを提案する。
論文 参考訳(メタデータ) (2023-11-06T03:29:00Z) - TransCODE: Co-design of Transformers and Accelerators for Efficient
Training and Inference [6.0093441900032465]
本稿では,アクセラレータの設計空間におけるトランスフォーマー推論とトレーニングをシミュレートするフレームワークを提案する。
我々はこのシミュレータとTransCODEと呼ばれる共同設計手法を併用して最適性能のモデルを得る。
得られた変圧器・加速器対は、最先端の対よりも0.3%高い精度を達成する。
論文 参考訳(メタデータ) (2023-03-27T02:45:18Z) - Online Model Compression for Federated Learning with Large Models [8.48327410170884]
Online Model Compression (OMC) は、モデルパラメータを圧縮形式で格納し、必要に応じて圧縮するフレームワークである。
OMCは、モデルパラメータのメモリ使用量と通信コストを最大59%削減し、完全精度のトレーニングと比較すると、同等の精度とトレーニング速度が得られる。
論文 参考訳(メタデータ) (2022-05-06T22:43:03Z) - Toward Development of Machine Learned Techniques for Production of
Compact Kinetic Models [0.0]
化学動力学モデルは燃焼装置の開発と最適化に欠かせない要素である。
本稿では、過度に再現され、最適化された化学動力学モデルを生成するための、新しい自動計算強化手法を提案する。
論文 参考訳(メタデータ) (2022-02-16T12:31:24Z) - Ensemble Transformer for Efficient and Accurate Ranking Tasks: an
Application to Question Answering Systems [99.13795374152997]
本研究では,大きな変圧器のアンサンブルを1つの小さなモデルに蒸留するニューラルネットワークを提案する。
MHSモデルは、入力をエンコードするために使用されるトランスフォーマー層のスタックと、ランキングヘッドのセットの2つのコンポーネントから構成される。
従来の蒸留法とは異なり,本手法では,アンサンブルメンバーの多様性を保ちつつ,個々のモデルを教師として利用している。
論文 参考訳(メタデータ) (2022-01-15T06:21:01Z) - Efficient pre-training objectives for Transformers [84.64393460397471]
本研究はトランスフォーマーモデルにおける高効率事前学習目標について検討する。
マスクトークンの除去と損失時のアウトプット全体の考慮が,パフォーマンス向上に不可欠な選択であることを証明する。
論文 参考訳(メタデータ) (2021-04-20T00:09:37Z) - Efficient Transformers in Reinforcement Learning using Actor-Learner
Distillation [91.05073136215886]
「Actor-Learner Distillation」は、大容量学習者モデルから小容量学習者モデルへ学習の進捗を移す。
Actor-Learner Distillation を用いて,トランスフォーマー学習モデルの明確なサンプル効率向上を再現する,いくつかの挑戦的なメモリ環境を実証する。
論文 参考訳(メタデータ) (2021-04-04T17:56:34Z) - Compressing Large-Scale Transformer-Based Models: A Case Study on BERT [41.04066537294312]
事前訓練されたTransformerベースのモデルは、様々な自然言語処理(NLP)タスクに対して最先端のパフォーマンスを達成した。
これらのモデルは数十億のパラメータを持ち、そのため、リソース不足と計算集約が多すぎて、低機能デバイスやアプリケーションに適合しない。
これに対する潜在的な対策の1つはモデル圧縮であり、多くの研究が注目されている。
論文 参考訳(メタデータ) (2020-02-27T09:20:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。