論文の概要: VenusFactory: A Unified Platform for Protein Engineering Data Retrieval and Language Model Fine-Tuning
- arxiv url: http://arxiv.org/abs/2503.15438v1
- Date: Wed, 19 Mar 2025 17:19:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:25:25.096370
- Title: VenusFactory: A Unified Platform for Protein Engineering Data Retrieval and Language Model Fine-Tuning
- Title(参考訳): VenusFactory: タンパク質工学データ検索と言語モデルファインチューニングのための統一プラットフォーム
- Authors: Yang Tan, Chen Liu, Jingyuan Gao, Banghao Wu, Mingchen Li, Ruilin Wang, Lingrong Zhang, Huiqun Yu, Guisheng Fan, Liang Hong, Bingxin Zhou,
- Abstract要約: VenusFactoryは生物データ検索、標準化されたタスクベンチマーク、PLMのモジュール化された微調整を統合した汎用エンジンである。
VenusFactoryは、コマンドライン実行とGradioベースのノーコードインターフェースの両方を選択することで、コンピュータ科学と生物学のコミュニティの両方をサポートする。
- 参考スコア(独自算出の注目度): 8.958922555467652
- License:
- Abstract: Natural language processing (NLP) has significantly influenced scientific domains beyond human language, including protein engineering, where pre-trained protein language models (PLMs) have demonstrated remarkable success. However, interdisciplinary adoption remains limited due to challenges in data collection, task benchmarking, and application. This work presents VenusFactory, a versatile engine that integrates biological data retrieval, standardized task benchmarking, and modular fine-tuning of PLMs. VenusFactory supports both computer science and biology communities with choices of both a command-line execution and a Gradio-based no-code interface, integrating $40+$ protein-related datasets and $40+$ popular PLMs. All implementations are open-sourced on https://github.com/tyang816/VenusFactory.
- Abstract(参考訳): 自然言語処理(NLP)は、タンパク質工学を含む人間の言語以外の科学的領域に大きく影響を与えており、事前学習されたタンパク質言語モデル(PLM)は顕著な成功を収めている。
しかし、データ収集、タスクのベンチマーク、アプリケーションといった課題のため、学際的な採用は依然として限られている。
この研究は、生物データ検索、標準化されたタスクベンチマーク、PLMのモジュール化された微調整を統合した汎用エンジンであるVenusFactoryを提示する。
VenusFactoryは、コマンドライン実行とGradioベースのノーコードインターフェースの両方を選択して、コンピュータ科学と生物学のコミュニティの両方をサポートし、40ドル以上のタンパク質関連データセットと40ドル以上の人気のPLMを統合する。
すべての実装はhttps://github.com/tyang816/VenusFactoryでオープンソース化されている。
関連論文リスト
- Open-Source Protein Language Models for Function Prediction and Protein Design [0.0]
タンパク質言語モデル(PLM)は、タンパク質配列の理解を改善することを約束しており、機能予測やタンパク質工学などの分野の発展に寄与している。
我々はPLMを、計算生物学と化学のためのオープンソースのフレームワークであるDeepChemに統合し、タンパク質関連のタスクのためのよりアクセスしやすいプラットフォームを提供する。
各種タンパク質予測タスクにおける統合モデルの性能評価を行い,ベンチマーク間で妥当な結果が得られることを示した。
論文 参考訳(メタデータ) (2024-12-18T05:41:15Z) - Grounding Large Language Models In Embodied Environment With Imperfect World Models [8.182450558534198]
大きな言語モデル(LLM)は、基本的な物理的推論やロボティクスタスクの実行でしばしば混乱する。
We propose a Grounding Large Language model with Imperfect world MOdel (GLIMO)。
GLIMOはLLMエージェントベースのデータジェネレータを組み込んで、高品質で多様な命令データセットを自動生成する。
論文 参考訳(メタデータ) (2024-10-03T17:55:09Z) - INDUS: Effective and Efficient Language Models for Scientific Applications [8.653859684720231]
言語モデル(LLM)は、自然言語処理(NLP)タスクにおいて顕著な結果を示した。
我々は、地球科学、生物学、物理学、生物物理学、惑星科学、天体物理学の密接に関連する分野に合わせた総合的なLLMスイートであるINDUSを開発した。
本稿では,RoBERTa(汎用)とSCIBERT(ドメイン固有)の両方のエンコーダにおいて,新たなタスクや関心領域における既存のタスクよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-05-17T12:15:07Z) - ProtLLM: An Interleaved Protein-Language LLM with Protein-as-Word Pre-Training [82.37346937497136]
本稿では,タンパク質中心タスクとタンパク質言語タスクの両方を対象とした多機能多言語多言語言語モデル (LLM) を提案する。
ProtLLMはユニークな動的タンパク質実装機構を備えており、複雑な入力を処理できる。
専門的なタンパク質語彙を開発することで、自然言語だけでなく、膨大な候補からタンパク質を予測できる能力をモデルに装備する。
論文 参考訳(メタデータ) (2024-02-28T01:29:55Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Unifying the Perspectives of NLP and Software Engineering: A Survey on Language Models for Code [24.936022005837415]
我々は、70以上のモデル、40以上の評価タスク、180以上のデータセット、900以上の関連する作業を含む、言語モデルによるソフトウェア工学の最近の進歩についてレビューする。
私たちは、コード処理モデルを、GPTファミリで表される一般的な言語モデルと、特にコードで事前訓練された特殊なモデルに分解します。
また、要件エンジニアリング、テスト、デプロイメント、オペレーションを含む他のソフトウェアエンジニアリング活動において、LCMのアプリケーションをプログラミングし、レビューする余地もあります。
論文 参考訳(メタデータ) (2023-11-14T08:34:26Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - Federated Nearest Neighbor Machine Translation [66.8765098651988]
本稿では,FedNN(FedNN)機械翻訳フレームワークを提案する。
FedNNは1ラウンドの記憶に基づくインタラクションを活用して、異なるクライアント間で知識を共有する。
実験の結果,FedAvgと比較して,FedNNは計算コストと通信コストを著しく削減することがわかった。
論文 参考訳(メタデータ) (2023-02-23T18:04:07Z) - FedNLP: A Research Platform for Federated Learning in Natural Language
Processing [55.01246123092445]
NLPのフェデレーションラーニングのための研究プラットフォームであるFedNLPを紹介します。
FedNLPは、テキスト分類、シーケンスタグ付け、質問応答、Seq2seq生成、言語モデリングなど、NLPで一般的なタスクの定式化をサポートしている。
FedNLPによる予備実験では、分散型データセットと集中型データセットの学習には大きなパフォーマンスギャップが存在することが明らかになった。
論文 参考訳(メタデータ) (2021-04-18T11:04:49Z) - Reprogramming Language Models for Molecular Representation Learning [65.00999660425731]
本稿では,分子学習タスクのための事前学習言語モデルに対して,辞書学習(R2DL)による表現再プログラミングを提案する。
対比プログラムは、k-SVDソルバを用いて、高密度ソースモデル入力空間(言語データ)とスパースターゲットモデル入力空間(例えば、化学および生物学的分子データ)との間の線形変換を学習する。
R2DLは、ドメイン固有のデータに基づいて訓練されたアート毒性予測モデルの状態によって確立されたベースラインを達成し、限られたトレーニングデータ設定でベースラインを上回る。
論文 参考訳(メタデータ) (2020-12-07T05:50:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。