論文の概要: Daisy: An integrated repeat protein curation service
- arxiv url: http://arxiv.org/abs/2407.07817v1
- Date: Wed, 10 Jul 2024 16:41:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 15:53:02.110210
- Title: Daisy: An integrated repeat protein curation service
- Title(参考訳): Daisy:リピートタンパク質キュレーションの統合サービス
- Authors: Manuel Bezerra-Brandao, Ronaldo Romario Tunque Cahui, Layla Hirsh,
- Abstract要約: Daisyは、リピートタンパク質キュレーションウェブサービスである。
protein Data Bank(PDB)とAlphaFold Databaseエントリを処理して,タンデムの識別を繰り返すことができる。
繰り返し分類は、RepeatsDBを通じて特定された家族に関連付けられている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Tandem repeats in proteins identification, classification and curation is a complex process that requires manual processing from experts, processing power and time. There are recent and relevant advances applying machine learning for protein structure prediction and repeat classification that are useful for this process. However, no service contemplates required databases and software to supplement researching on repeat proteins. In this publication we present Daisy, an integrated repeat protein curation web service. This service can process Protein Data Bank (PDB) and the AlphaFold Database entries for tandem repeats identification. In addition, it uses an algorithm to search a sequence against a library of Pfam hidden Markov model (HMM). Repeat classifications are associated with the identified families through RepeatsDB. This prediction is considered for enhancing the ReUPred algorithm execution and hastening the repeat units identification process. The service can also operate every associated PDB and AlphaFold structure with a UniProt proteome registry. Availability: The Daisy web service is freely accessible at daisy.bioinformatica.org.
- Abstract(参考訳): タンデムのタンパク質の同定、分類、キュレーションは、専門家による手作業による処理、処理能力、時間を必要とする複雑なプロセスである。
近年,このプロセスに有用なタンパク質構造予測と繰り返し分類に機械学習を適用する技術が進歩している。
しかし、リピートタンパク質の研究を補うためにデータベースやソフトウェアを必要としたサービスはない。
本発表では、ダイジー(Daisy)という、リピートタンパク質キュレーションWebサービスについて紹介する。
このサービスは、タンパク質データバンク(PDB)とAlphaFold Databaseエントリを処理して、タンデムの識別を繰り返すことができる。
さらに、アルゴリズムを用いて、Pfam hidden Markov model (HMM) のライブラリに対してシーケンスを検索する。
繰り返し分類は、RepeatsDBを通じて特定された家族に関連付けられている。
この予測は、ReUPredアルゴリズムの実行を強化し、繰り返しユニットの識別プロセスを早めるためと考えられる。
このサービスは、関連するPDBとAlphaFoldの構造をすべてUniProtプロテオームレジストリで操作することも可能だ。
可用性: Daisy Webサービスは Daisy.bioinformatica.org で自由にアクセスできる。
関連論文リスト
- Protein Representation Learning with Sequence Information Embedding: Does it Always Lead to a Better Performance? [4.7077642423577775]
本稿では,アミノ酸構造表現のみに基づく局所幾何アライメント手法ProtLOCAを提案する。
本手法は,構造的に整合性のあるタンパク質ドメインとより迅速かつ正確にマッチングすることで,既存の配列および構造に基づく表現学習法より優れる。
論文 参考訳(メタデータ) (2024-06-28T08:54:37Z) - Clustering for Protein Representation Learning [72.72957540484664]
本稿では,タンパク質の臨界成分を自動的に検出するニューラルネットワーククラスタリングフレームワークを提案する。
我々のフレームワークはタンパク質をグラフとして扱い、各ノードはアミノ酸を表し、各エッジはアミノ酸間の空間的またはシーケンシャルな接続を表す。
タンパク質の折り畳み分類, 酵素反応分類, 遺伝子期予測, 酵素コミッショニング数予測の4つの課題について検討した。
論文 参考訳(メタデータ) (2024-03-30T05:51:09Z) - ProLLM: Protein Chain-of-Thoughts Enhanced LLM for Protein-Protein Interaction Prediction [54.132290875513405]
タンパク質-タンパク質相互作用(PPI)の予測は、生物学的機能や疾患を理解する上で重要である。
PPI予測に対する従来の機械学習アプローチは、主に直接的な物理的相互作用に焦点を当てていた。
PPIに適したLLMを用いた新しいフレームワークProLLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T05:32:42Z) - SBSM-Pro: Support Bio-sequence Machine for Proteins [2.716144006729723]
本稿では,生物配列の分類モデルであるSBSM-Pro(Support Bio-Sequence Machine for Proteins)を紹介する。
配列アライメントを組み込んでタンパク質間の類似性を計測し、新しいマルチカーネル学習(MKL)アプローチを用いて様々な種類の情報を統合する。
以上の結果から,タンパク質の機能同定と翻訳後修飾の観点から,本モデルが10個のデータセットにまたがる可換性を示すことが示唆された。
論文 参考訳(メタデータ) (2023-08-20T14:10:50Z) - Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。
特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。
タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文 参考訳(メタデータ) (2022-04-06T02:18:41Z) - Binary classification of proteins by a Machine Learning approach [0.0]
本稿では,タンパク質データバンクに含まれるタンパク質の記述に基づいてアミノ酸のタンパク質鎖を分類するシステムを提案する。
それぞれのタンパク質は、XML形式でのファイルの化学・物理・幾何学的特性で完全に記述されている。
この研究の目的は、大量のデータの収集と管理のためのディープラーニング機械を設計し、そのアミノ酸配列の分類への応用を通じてそれを検証することである。
論文 参考訳(メタデータ) (2021-11-03T01:58:16Z) - Pre-training Co-evolutionary Protein Representation via A Pairwise
Masked Language Model [93.9943278892735]
タンパク質配列表現学習の鍵となる問題は、配列中の残基間の共変量によって反映される共進化情報をキャプチャすることである。
Pairwise Masked Language Model (PMLM) と呼ばれる専用言語モデルによる事前学習により,この情報を直接キャプチャする新しい手法を提案する。
提案手法は, 相互関係を効果的に把握し, ベースラインと比較して, 接触予測性能を最大9%向上できることを示す。
論文 参考訳(メタデータ) (2021-10-29T04:01:32Z) - Adaptive Information Seeking for Open-Domain Question Answering [61.39330982757494]
本稿では,オープンドメイン質問応答,すなわちAISOに対する適応型情報探索手法を提案する。
学習方針によると、AISOは適切な検索行動を選択し、各ステップで行方不明の証拠を探すことができる。
AISOは、検索と回答の評価の両方の観点から、事前定義された戦略で全てのベースライン手法を上回ります。
論文 参考訳(メタデータ) (2021-09-14T15:08:13Z) - DIPS-Plus: The Enhanced Database of Interacting Protein Structures for
Interface Prediction [2.697420611471228]
DIPS-Plusはタンパク質界面の幾何学的深層学習のための42,112複合体の強化された機能豊富なデータセットである。
DIPSの以前のバージョンは、与えられたタンパク質複合体を構成する原子のカルテシアン座標とタイプのみを含む。
DIPS-Plusには、プロテクション指標、半球アミノ酸組成、および各アミノ酸に対する新しいプロファイル隠れマルコフモデル(HMM)ベースの配列機能を含む、新しい残基レベルの特徴が多数含まれている。
論文 参考訳(メタデータ) (2021-06-06T23:56:27Z) - Petri Nets with Parameterised Data: Modelling and Verification (Extended
Version) [67.99023219822564]
我々は、カタログネットと呼ばれるカラーペトリネットの拡張を紹介し、研究し、このタイプのプロセスを捉える2つの重要な特徴を提供する。
我々は、新しい価値注入が特に扱いにくい機能であることを示し、それを改ざんするための戦略について議論する。
論文 参考訳(メタデータ) (2020-06-11T17:26:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。