論文の概要: Assigning Species Information to Corresponding Genes by a Sequence
Labeling Framework
- arxiv url: http://arxiv.org/abs/2205.03853v1
- Date: Sun, 8 May 2022 12:39:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-11 05:05:54.765334
- Title: Assigning Species Information to Corresponding Genes by a Sequence
Labeling Framework
- Title(参考訳): 配列ラベリングフレームワークによる対応する遺伝子への種情報の割り当て
- Authors: Ling Luo, Chih-Hsuan Wei, Po-Ting Lai, Qingyu Chen, Rezarta Islamaj
Do\u{g}an, Zhiyong Lu
- Abstract要約: 既存の手法は典型的には、本論文における遺伝子と種間の共起に基づく規則に依存している。
本研究では,新しい深層学習フレームワークを用いた高性能な手法を開発し,遺伝子と種が関係しているかどうかを分類する。
ベンチマークの結果,本手法はルールベースベースライン法と比較すると,かなり高い性能が得られることがわかった。
- 参考スコア(独自算出の注目度): 7.231921004060877
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The automatic assignment of species information to the corresponding genes in
a research article is a critically important step in the gene normalization
task, whereby a gene mention is normalized and linked to a database record or
identifier by a text-mining algorithm. Existing methods typically rely on
heuristic rules based on gene and species co-occurrence in the article, but
their accuracy is suboptimal. We therefore developed a high-performance method,
using a novel deep learning-based framework, to classify whether there is a
relation between a gene and a species. Instead of the traditional binary
classification framework in which all possible pairs of genes and species in
the same article are evaluated, we treat the problem as a sequence-labeling
task such that only a fraction of the pairs needs to be considered. Our
benchmarking results show that our approach obtains significantly higher
performance compared to that of the rule-based baseline method for the species
assignment task (from 65.8% to 81.3% in accuracy). The source code and data for
species assignment are freely available at
https://github.com/ncbi/SpeciesAssignment.
- Abstract(参考訳): 研究論文における対応する遺伝子に対する種情報の自動割当ては、遺伝子参照を正規化し、テキストマイニングアルゴリズムによりデータベース記録または識別子に関連付ける、遺伝子正規化タスクにおいて極めて重要なステップである。
既存の方法は通常、遺伝子と種が共起することに基づくヒューリスティックな規則に依存するが、その正確さは最適ではない。
そこで我々は,新しい深層学習に基づく枠組みを用いて,遺伝子と種との関係を分類する高性能な手法を開発した。
同じ論文の全ての可能な遺伝子と種の組み合わせを評価する伝統的な二分分類の枠組みの代わりに、この問題をペアのほんの一部だけを考慮すべきシーケンスラベルタスクとして扱う。
ベンチマークの結果,本手法は本手法の基準値法と比較して65.8%から81.3%の精度で高い性能を得た。
種別割り当てのソースコードとデータはhttps://github.com/ncbi/speciesassignmentで無料で利用できる。
関連論文リスト
- VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - Efficient and Scalable Fine-Tune of Language Models for Genome
Understanding [49.606093223945734]
textscLanguage prefix ftextscIne-tuning for textscGentextscOmes。
DNA基盤モデルとは異なり、textscLingoは自然言語基盤モデルの文脈的手がかりを戦略的に活用している。
textscLingoはさらに、適応的なランクサンプリング方法により、下流の細調整タスクを数多く許容する。
論文 参考訳(メタデータ) (2024-02-12T21:40:45Z) - Feature Selection via Robust Weighted Score for High Dimensional Binary
Class-Imbalanced Gene Expression Data [1.2891210250935148]
非平衡データに対する頑健な重み付けスコア (ROWSU) は, クラス不均衡問題を用いた高次元遺伝子発現二項分類における最も識別性の高い特徴を選択するために提案される。
ROWSU法の性能を6ドルの遺伝子発現データセットで評価した。
論文 参考訳(メタデータ) (2024-01-23T11:22:03Z) - HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide
Resolution [76.97231739317259]
本稿では,ヒト参照ゲノム上に,最大100万個のトークンを単一ヌクレオチドレベルで有するゲノム基盤モデルであるHyenaDNAについて紹介する。
Nucleotide Transformerの微調整されたベンチマークでは、HyenaDNAが18のデータセットのうち12の最先端(SotA)に到達した。
論文 参考訳(メタデータ) (2023-06-27T20:46:34Z) - Optirank: classification for RNA-Seq data with optimal ranking reference
genes [0.0]
そこで我々は,ロジスティック回帰モデルであるOptiicrankを提案し,モデルと遺伝子のパラメータを同時に学習し,ランキングの基準セットとして使用する。
また、列車データと試験データの間に異なる種類の分散シフトを示す実際の分類タスクについても検討する。
論文 参考訳(メタデータ) (2023-01-11T10:49:06Z) - Hierarchy exploitation to detect missing annotations on hierarchical
multi-label classification [0.1749935196721634]
階層型マルチラベル分類データセットにおけるアノテーションの欠落を検出する手法を提案する。
本稿では,各インスタンスの葉から根へのクラスパスに対する集約確率を計算することによって,クラス階層を利用する手法を提案する。
様々な米であるOriza sativa Japonicaの実験では、クラスの階層をこの方法に組み込むことで、予測性能が向上することが示された。
論文 参考訳(メタデータ) (2022-07-13T14:32:50Z) - Multivariate feature ranking of gene expression data [62.997667081978825]
ペアワイズ相関とペアワイズ整合性に基づく2つの新しい多変量特徴ランキング手法を提案する。
提案手法は, クラスタリング変動, チ・スクエアド, 相関, 情報ゲイン, ReliefF および Significance の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-03T17:19:53Z) - Multi-modal Self-supervised Pre-training for Regulatory Genome Across
Cell Types [75.65676405302105]
我々は、GeneBERTと呼ばれる、多モードかつ自己管理的な方法でゲノムデータを事前学習するための、単純かつ効果的なアプローチを提案する。
我々はATAC-seqデータセットで1700万のゲノム配列でモデルを事前訓練する。
論文 参考訳(メタデータ) (2021-10-11T12:48:44Z) - Cancer Gene Profiling through Unsupervised Discovery [49.28556294619424]
低次元遺伝子バイオマーカーを発見するための,新しい,自動かつ教師なしのフレームワークを提案する。
本手法は,高次元中心型非監視クラスタリングアルゴリズムLP-Stabilityアルゴリズムに基づく。
私達の署名は免疫炎症および免疫砂漠の腫瘍の区別の有望な結果報告します。
論文 参考訳(メタデータ) (2021-02-11T09:04:45Z) - Mining Functionally Related Genes with Semi-Supervised Learning [0.0]
我々は、豊富な機能セットを導入し、半教師付き学習アプローチとともにそれらを使用する。
正およびラベルなし例(LPU)による学習の枠組みは機能的関連遺伝子のマイニングに特に適していることが示されている。
論文 参考訳(メタデータ) (2020-11-05T20:34:09Z) - A New Gene Selection Algorithm using Fuzzy-Rough Set Theory for Tumor
Classification [0.0]
本稿では,ファジィ・ルー集合の識別行列を用いた新しい遺伝子選択手法を提案する。
提案手法は、遺伝子選択結果を改善するために、同一のクラスラベルと異なるクラスラベルを持つインスタンスの類似性を考慮に入れている。
実験により, この手法は最先端の手法に比べて効率が良いことを示した。
論文 参考訳(メタデータ) (2020-03-26T13:43:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。