論文の概要: Supporting supervised learning in fungal Biosynthetic Gene Cluster
discovery: new benchmark datasets
- arxiv url: http://arxiv.org/abs/2001.03260v1
- Date: Thu, 9 Jan 2020 23:47:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-13 04:39:00.906892
- Title: Supporting supervised learning in fungal Biosynthetic Gene Cluster
discovery: new benchmark datasets
- Title(参考訳): 菌類生合成遺伝子クラスター発見における教師あり学習の支援:新しいベンチマークデータセット
- Authors: Hayda Almeida, Adrian Tsang, Abdoulaye Banir\'e Diallo
- Abstract要約: 二次代謝物の真菌生合成遺伝子クラスター(英: Fungal Biosynthetic Gene Clusters, BGCs)は、天然物を生成する遺伝子群である。
データ駆動型手法や確率的および教師あり学習法は,BGCの同定において検討されている。
我々は、教師付き学習を用いたBGC発見タスクを支援するために、新たに公開された真菌BGCデータセットを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fungal Biosynthetic Gene Clusters (BGCs) of secondary metabolites are
clusters of genes capable of producing natural products, compounds that play an
important role in the production of a wide variety of bioactive compounds,
including antibiotics and pharmaceuticals. Identifying BGCs can lead to the
discovery of novel natural products to benefit human health. Previous work has
been focused on developing automatic tools to support BGC discovery in plants,
fungi, and bacteria. Data-driven methods, as well as probabilistic and
supervised learning methods have been explored in identifying BGCs. Most
methods applied to identify fungal BGCs were data-driven and presented limited
scope. Supervised learning methods have been shown to perform well at
identifying BGCs in bacteria, and could be well suited to perform the same task
in fungi. But labeled data instances are needed to perform supervised learning.
Openly accessible BGC databases contain only a very small portion of previously
curated fungal BGCs. Making new fungal BGC datasets available could motivate
the development of supervised learning methods for fungal BGCs and potentially
improve prediction performance compared to data-driven methods. In this work we
propose new publicly available fungal BGC datasets to support the BGC discovery
task using supervised learning. These datasets are prepared to perform binary
classification and predict candidate BGC regions in fungal genomes. In addition
we analyse the performance of a well supported supervised learning tool
developed to predict BGCs.
- Abstract(参考訳): 二次代謝産物の真菌生合成遺伝子群(英: fungal biosynthetic gene clusters、bgcs)は、天然物や抗生物質や医薬品を含む様々な生理活性化合物の生産において重要な役割を果たす化合物を生産できる遺伝子群である。
BGCの同定は、人間の健康に役立つ新しい天然物の発見につながる可能性がある。
これまでの研究は、植物、菌類、細菌のBGC発見を支援する自動ツールの開発に重点を置いてきた。
bgcの同定には、データ駆動手法、確率的および教師付き学習方法が研究されている。
菌類BGCを同定するためのほとんどの方法は、データ駆動であり、限られた範囲を示していた。
細菌中のBGCの同定に優れた学習方法が示されており、菌類でも同じ課題を遂行するのに適している可能性がある。
しかし教師付き学習を行うにはラベル付きデータインスタンスが必要である。
オープンアクセス可能なBGCデータベースは、以前にキュレートされた真菌BGCのごく一部しか含まない。
新しい真菌BGCデータセットを利用可能にすることは、真菌BGCの教師付き学習方法の開発を動機付け、データ駆動方式と比較して予測性能を向上させる可能性がある。
本研究では,教師付き学習を用いたbgc発見タスクをサポートするために,新規に利用可能なfungal bgcデータセットを提案する。
これらのデータセットは二分分類を行い、真菌ゲノムの候補BGC領域を予測する。
さらに、BGCを予測するために開発された教師付き学習ツールの性能分析を行った。
関連論文リスト
- BioDiscoveryAgent: An AI Agent for Designing Genetic Perturbation Experiments [112.25067497985447]
そこで,BioDiscoveryAgentを紹介した。このエージェントは,新しい実験を設計し,その結果の理由を明らかにし,仮説空間を効率的にナビゲートし,望ましい解に到達させる。
BioDiscoveryAgentは、機械学習モデルをトレーニングすることなく、新しい実験を独自に設計することができる。
6つのデータセットで関連する遺伝的摂動を予測することで、平均21%の改善が達成されている。
論文 参考訳(メタデータ) (2024-05-27T19:57:17Z) - Histo-Genomic Knowledge Distillation For Cancer Prognosis From Histopathology Whole Slide Images [7.5123289730388825]
ゲノムインフォームドハイパーアテンションネットワーク(G-HANet)は、トレーニング中にヒストリーゲノム知識を効果的に蒸留することができる。
ネットワークは、クロスモーダル・アソシエーション・ブランチ(CAB)とハイパーアテンション・サバイバル・ブランチ(HSB)から構成される。
論文 参考訳(メタデータ) (2024-03-15T06:20:09Z) - An Evaluation of Large Language Models in Bioinformatics Research [52.100233156012756]
本研究では,大規模言語モデル(LLM)の性能について,バイオインフォマティクスの幅広い課題について検討する。
これらのタスクには、潜在的なコーディング領域の同定、遺伝子とタンパク質の命名されたエンティティの抽出、抗微生物および抗がんペプチドの検出、分子最適化、教育生物情報学問題の解決が含まれる。
以上の結果から, GPT 変種のような LLM がこれらのタスクの多くをうまく処理できることが示唆された。
論文 参考訳(メタデータ) (2024-02-21T11:27:31Z) - Improving Biomedical Entity Linking with Retrieval-enhanced Learning [53.24726622142558]
$k$NN-BioELは、トレーニングコーパス全体から同様のインスタンスを予測のヒントとして参照する機能を備えたBioELモデルを提供する。
k$NN-BioELは、いくつかのデータセットで最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-12-15T14:04:23Z) - Single-Cell Deep Clustering Method Assisted by Exogenous Gene
Information: A Novel Approach to Identifying Cell Types [50.55583697209676]
我々は,細胞間のトポロジ的特徴を効率的に捉えるために,注目度の高いグラフオートエンコーダを開発した。
クラスタリング過程において,両情報の集合を統合し,細胞と遺伝子の特徴を再構成し,識別的表現を生成する。
本研究は、細胞の特徴と分布に関する知見を高め、疾患の早期診断と治療の基礎となる。
論文 参考訳(メタデータ) (2023-11-28T09:14:55Z) - ProBio: A Protocol-guided Multimodal Dataset for Molecular Biology Lab [67.24684071577211]
研究結果を複製するという課題は、分子生物学の分野に重大な障害をもたらしている。
まず、この目的に向けた最初のステップとして、ProBioという名前の包括的なマルチモーダルデータセットをキュレートする。
次に、透明なソリューショントラッキングとマルチモーダルなアクション認識という2つの挑戦的なベンチマークを考案し、BioLab設定におけるアクティビティ理解に関連する特徴と難しさを強調した。
論文 参考訳(メタデータ) (2023-11-01T14:44:01Z) - A Step Towards Worldwide Biodiversity Assessment: The BIOSCAN-1M Insect
Dataset [18.211840156134784]
本稿では,画像に基づく分類学的評価が可能なコンピュータビジョンモデルの訓練を目的とした,100万画像データセットを提案する。
このデータセットは魅力的な特徴も示しており、その研究はより広範な機械学習コミュニティにとって興味深いものとなるだろう。
論文 参考訳(メタデータ) (2023-07-19T20:54:08Z) - Knowledge-augmented Graph Machine Learning for Drug Discovery: A Survey [6.288056740658763]
グラフ機械学習(GML)は、グラフ構造化バイオメディカルデータをモデル化する優れた能力で注目されている。
近年の研究では、より正確で解釈可能な薬物発見を実現するために、外部のバイオメディカル知識をGMLパイプラインに統合することを提案した。
論文 参考訳(メタデータ) (2023-02-16T12:38:01Z) - Feature extraction using Spectral Clustering for Gene Function
Prediction [0.4492444446637856]
本稿では,クラスタ分析と階層的マルチラベル分類を組み合わせたアノテーション問題に対する,シリコアプローチの新たなアプローチを提案する。
提案手法は、世界で最も支配的かつ生産的な作物であるゼア・メイズ(Zia mays)のケーススタディに適用される。
論文 参考訳(メタデータ) (2022-03-25T10:17:36Z) - Deep metric learning improves lab of origin prediction of genetically
engineered plasmids [63.05016513788047]
遺伝工学の属性(GEA)は、配列-ラブの関連を作る能力である。
本稿では,計量学習に基づいて,最も可能性の高い実験室をランク付けする手法を提案する。
我々は、特定の実験室のプラスミド配列のキーシグネチャを抽出することができ、モデル出力の解釈可能な検査を可能にする。
論文 参考訳(メタデータ) (2021-11-24T16:29:03Z) - Mining Functionally Related Genes with Semi-Supervised Learning [0.0]
我々は、豊富な機能セットを導入し、半教師付き学習アプローチとともにそれらを使用する。
正およびラベルなし例(LPU)による学習の枠組みは機能的関連遺伝子のマイニングに特に適していることが示されている。
論文 参考訳(メタデータ) (2020-11-05T20:34:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。