論文の概要: LipidBERT: A Lipid Language Model Pre-trained on METiS de novo Lipid Library
- arxiv url: http://arxiv.org/abs/2408.06150v1
- Date: Mon, 12 Aug 2024 13:44:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 14:15:41.013912
- Title: LipidBERT: A Lipid Language Model Pre-trained on METiS de novo Lipid Library
- Title(参考訳): LipidBERT: METiS de novo Lipid Libraryで事前訓練された言語モデル
- Authors: Tianhao Yu, Cai Yao, Zhuorui Sun, Feng Shi, Lin Zhang, Kangjie Lyu, Xuan Bai, Andong Liu, Xicheng Zhang, Jiali Zou, Wenshou Wang, Chris Lai, Kai Wang,
- Abstract要約: 我々はMETiSのin-house de novolip generationアルゴリズムを用いて1000万個の仮想脂質のデータベースを作成し,維持する。
これらの仮想脂質は、事前訓練、脂質表現学習、下流タスク知識伝達のためのコーパスとして機能する。
本稿では,Masked Language Model (MLM) と各種二次タスクを事前学習した BERT ライクなモデルである LipidBERT を提案する。
- 参考スコア(独自算出の注目度): 7.3721461942110755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this study, we generate and maintain a database of 10 million virtual lipids through METiS's in-house de novo lipid generation algorithms and lipid virtual screening techniques. These virtual lipids serve as a corpus for pre-training, lipid representation learning, and downstream task knowledge transfer, culminating in state-of-the-art LNP property prediction performance. We propose LipidBERT, a BERT-like model pre-trained with the Masked Language Model (MLM) and various secondary tasks. Additionally, we compare the performance of embeddings generated by LipidBERT and PhatGPT, our GPT-like lipid generation model, on downstream tasks. The proposed bilingual LipidBERT model operates in two languages: the language of ionizable lipid pre-training, using in-house dry-lab lipid structures, and the language of LNP fine-tuning, utilizing in-house LNP wet-lab data. This dual capability positions LipidBERT as a key AI-based filter for future screening tasks, including new versions of METiS de novo lipid libraries and, more importantly, candidates for in vivo testing for orgran-targeting LNPs. To the best of our knowledge, this is the first successful demonstration of the capability of a pre-trained language model on virtual lipids and its effectiveness in downstream tasks using web-lab data. This work showcases the clever utilization of METiS's in-house de novo lipid library as well as the power of dry-wet lab integration.
- Abstract(参考訳): 本研究では,METiSの内在型デノボ脂質生成アルゴリズムと脂質仮想スクリーニング技術を用いて,1000万個の仮想脂質のデータベースを作成し,維持する。
これらの仮想脂質は、プレトレーニング、脂質表現学習、下流タスク知識伝達のためのコーパスとして機能し、最先端のLNP特性予測性能を達成している。
本稿では,Masked Language Model (MLM) と各種二次タスクを事前学習した BERT ライクなモデルである LipidBERT を提案する。
さらに, 下流タスクにおけるGPT様脂質生成モデルであるLipidBERTとPhatGPTの埋め込み性能を比較した。
提案したバイリンガルリピッドバーストモデルは, イオン化可能な脂質事前学習言語, 室内の乾式脂質構造を用いた言語, 室内のLNPウェットラブデータを利用したLNP微調整言語という2つの言語で機能する。
このデュアル機能は、METiS de novoの脂質ライブラリの新バージョンや、さらに重要なのは、オーグランターゲットLNPのin vivoテストの候補を含む、将来のスクリーニングタスクのための重要なAIベースのフィルタとして、LipidBERTを位置づけている。
我々の知る限り、これは仮想脂質上で事前訓練された言語モデルの能力と、Web-labデータを用いた下流タスクにおける有効性を示す最初の成功例である。
この研究は、METiSのin-house de novoの脂質ライブラリの巧妙な利用と、ドライウェットラボの統合の力を示している。
関連論文リスト
- Large Language Models can be Strong Self-Detoxifiers [82.6594169242814]
SASA(Self-disciplined Autoregressive Smpling)は、大規模言語モデル(LLM)の毒性低減のための軽量制御復号アルゴリズムである。
SASAは、自己回帰サンプリング戦略を調整することにより、電流出力のマージンを追跡し、有害な部分空間から世代を分離する。
Llama-3.1-Instruct (8B), Llama-2 (7B), GPT2-L model with the RealToxicityPrompts, BOLD, and AttaQ benchmarks。
論文 参考訳(メタデータ) (2024-10-04T17:45:15Z) - LLaVA-MoD: Making LLaVA Tiny via MoE Knowledge Distillation [41.05687297326706]
LLaVA-MoDは、小規模マルチモーダル言語モデルの効率的なトレーニングを可能にするために設計されたフレームワークである。
スパースミキサーアーキテクチャを言語モデルに統合することにより、s-MLLMのネットワーク構造を最適化する。
また,包括的知識移動を確保するために,先進的な知識移動戦略を提案する。
論文 参考訳(メタデータ) (2024-08-28T15:52:23Z) - LBC: Language-Based-Classifier for Out-Of-Variable Generalization [14.033963471962823]
大規模言語モデル(LLM)は、応答生成のような自然言語処理タスクにおいて大きな成功を収めている。
LLMの事前学習された知識により、追加のトレーニングなしでテストに現れる新しい変数を解釈できることがわかった。
本稿では,LBC(Language-Based-Classifier)を提案する。
論文 参考訳(メタデータ) (2024-08-20T15:05:02Z) - GOLD: Generalized Knowledge Distillation via Out-of-Distribution-Guided Language Data Generation [21.56082253577229]
金はタスクに依存しないデータ生成および知識蒸留フレームワークである。
LLMには反復的なアウト・オブ・ディストリビューション誘導フィードバック機構が採用されている。
ノイズ発生データを扱うためのエネルギーベースOOD評価手法も導入されている。
論文 参考訳(メタデータ) (2024-03-28T18:08:22Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - DB-LLM: Accurate Dual-Binarization for Efficient LLMs [83.70686728471547]
大規模言語モデル(LLM)は自然言語処理の分野を著しく進歩させてきた。
既存の超低ビット量子化は、常に深刻な精度低下を引き起こす。
本稿では,LLM,すなわちDB-LLMのための新しいデュアルバイナライズ手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T09:04:30Z) - Large Language Model Distilling Medication Recommendation Model [61.89754499292561]
大規模言語モデル(LLM)の強力な意味理解と入力非依存特性を利用する。
本研究は, LLMを用いて既存の薬剤推奨手法を変換することを目的としている。
これを軽減するため,LLMの習熟度をよりコンパクトなモデルに伝達する機能レベルの知識蒸留技術を開発した。
論文 参考訳(メタデータ) (2024-02-05T08:25:22Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。
学習方法は,「フリーランチ」仮説の主張を考察する。
データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2023-05-03T17:55:25Z) - Bayesian Active Learning with Pretrained Language Models [9.161353418331245]
Active Learning (AL)は、ラベルなしデータのプールからアノテーションのためのデータを反復的に選択する手法である。
以前のALアプローチは、イテレーションごとにゼロからトレーニングされるタスク固有のモデルに制限されている。
BALM;Bayesian Active Learning with pretrained language modelを紹介します。
論文 参考訳(メタデータ) (2021-04-16T19:07:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。