論文の概要: Daisy: An integrated repeat protein curation service
- arxiv url: http://arxiv.org/abs/2407.07817v1
- Date: Wed, 10 Jul 2024 16:41:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 15:53:02.110210
- Title: Daisy: An integrated repeat protein curation service
- Title(参考訳): Daisy:リピートタンパク質キュレーションの統合サービス
- Authors: Manuel Bezerra-Brandao, Ronaldo Romario Tunque Cahui, Layla Hirsh,
- Abstract要約: Daisyは、リピートタンパク質キュレーションウェブサービスである。
protein Data Bank(PDB)とAlphaFold Databaseエントリを処理して,タンデムの識別を繰り返すことができる。
繰り返し分類は、RepeatsDBを通じて特定された家族に関連付けられている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Tandem repeats in proteins identification, classification and curation is a complex process that requires manual processing from experts, processing power and time. There are recent and relevant advances applying machine learning for protein structure prediction and repeat classification that are useful for this process. However, no service contemplates required databases and software to supplement researching on repeat proteins. In this publication we present Daisy, an integrated repeat protein curation web service. This service can process Protein Data Bank (PDB) and the AlphaFold Database entries for tandem repeats identification. In addition, it uses an algorithm to search a sequence against a library of Pfam hidden Markov model (HMM). Repeat classifications are associated with the identified families through RepeatsDB. This prediction is considered for enhancing the ReUPred algorithm execution and hastening the repeat units identification process. The service can also operate every associated PDB and AlphaFold structure with a UniProt proteome registry. Availability: The Daisy web service is freely accessible at daisy.bioinformatica.org.
- Abstract(参考訳): タンデムのタンパク質の同定、分類、キュレーションは、専門家による手作業による処理、処理能力、時間を必要とする複雑なプロセスである。
近年,このプロセスに有用なタンパク質構造予測と繰り返し分類に機械学習を適用する技術が進歩している。
しかし、リピートタンパク質の研究を補うためにデータベースやソフトウェアを必要としたサービスはない。
本発表では、ダイジー(Daisy)という、リピートタンパク質キュレーションWebサービスについて紹介する。
このサービスは、タンパク質データバンク(PDB)とAlphaFold Databaseエントリを処理して、タンデムの識別を繰り返すことができる。
さらに、アルゴリズムを用いて、Pfam hidden Markov model (HMM) のライブラリに対してシーケンスを検索する。
繰り返し分類は、RepeatsDBを通じて特定された家族に関連付けられている。
この予測は、ReUPredアルゴリズムの実行を強化し、繰り返しユニットの識別プロセスを早めるためと考えられる。
このサービスは、関連するPDBとAlphaFoldの構造をすべてUniProtプロテオームレジストリで操作することも可能だ。
可用性: Daisy Webサービスは Daisy.bioinformatica.org で自由にアクセスできる。
関連論文リスト
- SeqProFT: Applying LoRA Finetuning for Sequence-only Protein Property Predictions [8.112057136324431]
本研究では,ESM-2モデルのエンド・ツー・エンドの微調整を行うためにLoRA法を用いる。
下流ネットワークにマルチヘッドアテンション機構を統合して、シーケンス特徴とコンタクトマップ情報を組み合わせる。
論文 参考訳(メタデータ) (2024-11-18T12:40:39Z) - MeToken: Uniform Micro-environment Token Boosts Post-Translational Modification Prediction [65.33218256339151]
翻訳後修飾(PTM)はプロテオームの複雑さと機能を大幅に拡張する。
既存の計算手法は主に、配列依存的なモチーフの認識によって引き起こされる、PTM部位を予測するタンパク質配列に焦点を当てている。
本稿では,各酸のマイクロ環境をトークン化し,シーケンス情報と構造情報を統一された離散トークンに統合するMeTokenモデルを提案する。
論文 参考訳(メタデータ) (2024-11-04T07:14:28Z) - Structure-Enhanced Protein Instruction Tuning: Towards General-Purpose Protein Understanding [43.811432723460534]
本稿では,このギャップを埋めるために,構造強化タンパク質インストラクションチューニング(SEPIT)フレームワークを紹介する。
提案手法では, 構造的知識を付加するため, 構造的知識を付加し, これらの拡張された pLM を大規模言語モデル (LLM) に接続し, タンパク質の理解を創出する。
我々はこれまでで最大かつ最も包括的なタンパク質命令データセットを構築し、汎用タンパク質理解モデルの訓練と評価を可能にした。
論文 参考訳(メタデータ) (2024-10-04T16:02:50Z) - A PLMs based protein retrieval framework [4.110243520064533]
本稿では,配列類似性に対するバイアスを緩和する新規なタンパク質検索フレームワークを提案する。
我々のフレームワークは、タンパク質の配列を高次元の特徴空間に埋め込むために、タンパク質言語モデル(PLM)を主導的に活用する。
大規模な実験により、我々のフレームワークは類似タンパク質と異種タンパク質の両方を等しく回収できることが示された。
論文 参考訳(メタデータ) (2024-07-16T09:52:42Z) - ProLLM: Protein Chain-of-Thoughts Enhanced LLM for Protein-Protein Interaction Prediction [54.132290875513405]
タンパク質-タンパク質相互作用(PPI)の予測は、生物学的機能や疾患を理解する上で重要である。
PPI予測に対する従来の機械学習アプローチは、主に直接的な物理的相互作用に焦点を当てていた。
PPIに適したLLMを用いた新しいフレームワークProLLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T05:32:42Z) - Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。
特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。
タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文 参考訳(メタデータ) (2022-04-06T02:18:41Z) - Binary classification of proteins by a Machine Learning approach [0.0]
本稿では,タンパク質データバンクに含まれるタンパク質の記述に基づいてアミノ酸のタンパク質鎖を分類するシステムを提案する。
それぞれのタンパク質は、XML形式でのファイルの化学・物理・幾何学的特性で完全に記述されている。
この研究の目的は、大量のデータの収集と管理のためのディープラーニング機械を設計し、そのアミノ酸配列の分類への応用を通じてそれを検証することである。
論文 参考訳(メタデータ) (2021-11-03T01:58:16Z) - Pre-training Co-evolutionary Protein Representation via A Pairwise
Masked Language Model [93.9943278892735]
タンパク質配列表現学習の鍵となる問題は、配列中の残基間の共変量によって反映される共進化情報をキャプチャすることである。
Pairwise Masked Language Model (PMLM) と呼ばれる専用言語モデルによる事前学習により,この情報を直接キャプチャする新しい手法を提案する。
提案手法は, 相互関係を効果的に把握し, ベースラインと比較して, 接触予測性能を最大9%向上できることを示す。
論文 参考訳(メタデータ) (2021-10-29T04:01:32Z) - Adaptive Information Seeking for Open-Domain Question Answering [61.39330982757494]
本稿では,オープンドメイン質問応答,すなわちAISOに対する適応型情報探索手法を提案する。
学習方針によると、AISOは適切な検索行動を選択し、各ステップで行方不明の証拠を探すことができる。
AISOは、検索と回答の評価の両方の観点から、事前定義された戦略で全てのベースライン手法を上回ります。
論文 参考訳(メタデータ) (2021-09-14T15:08:13Z) - DIPS-Plus: The Enhanced Database of Interacting Protein Structures for
Interface Prediction [2.697420611471228]
DIPS-Plusはタンパク質界面の幾何学的深層学習のための42,112複合体の強化された機能豊富なデータセットである。
DIPSの以前のバージョンは、与えられたタンパク質複合体を構成する原子のカルテシアン座標とタイプのみを含む。
DIPS-Plusには、プロテクション指標、半球アミノ酸組成、および各アミノ酸に対する新しいプロファイル隠れマルコフモデル(HMM)ベースの配列機能を含む、新しい残基レベルの特徴が多数含まれている。
論文 参考訳(メタデータ) (2021-06-06T23:56:27Z) - Petri Nets with Parameterised Data: Modelling and Verification (Extended
Version) [67.99023219822564]
我々は、カタログネットと呼ばれるカラーペトリネットの拡張を紹介し、研究し、このタイプのプロセスを捉える2つの重要な特徴を提供する。
我々は、新しい価値注入が特に扱いにくい機能であることを示し、それを改ざんするための戦略について議論する。
論文 参考訳(メタデータ) (2020-06-11T17:26:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。