論文の概要: SemanticCAP: Chromatin Accessibility Prediction Enhanced by Features
Learning from a Language Model
- arxiv url: http://arxiv.org/abs/2204.02130v2
- Date: Wed, 6 Apr 2022 10:25:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-07 10:57:47.420440
- Title: SemanticCAP: Chromatin Accessibility Prediction Enhanced by Features
Learning from a Language Model
- Title(参考訳): SemanticCAP: 言語モデルから学ぶ機能によって強化されたクロマチンアクセシビリティ予測
- Authors: Yikang Zhang, Xiaomin Chu, Yelu Jiang, Hongjie Wu and Lijun Quan
- Abstract要約: 本稿では、ゲノムのアクセス可能な領域を特定するためのSemanticCAPという新しいソリューションを提案する。
遺伝子配列のコンテキストをモデル化する遺伝子モデルを導入し、遺伝子配列の効果的な表現を提供する。
公開ベンチマークによる他のシステムと比較すると,我々のモデルは性能が向上することが判明した。
- 参考スコア(独自算出の注目度): 3.0643865202019698
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A large number of inorganic and organic compounds are able to bind DNA and
form complexes, among which drug-related molecules are important. Chromatin
accessibility changes not only directly affects drug-DNA interactions, but also
promote or inhibit the expression of critical genes associated with drug
resistance by affecting the DNA binding capacity of TFs and transcriptional
regulators. However, Biological experimental techniques for measuring it are
expensive and time consuming. In recent years, several kinds of computational
methods have been proposed to identify accessible regions of the genome.
Existing computational models mostly ignore the contextual information of bases
in gene sequences. To address these issues, we proposed a new solution named
SemanticCAP. It introduces a gene language model which models the context of
gene sequences, thus being able to provide an effective representation of a
certain site in gene sequences. Basically, we merge the features provided by
the gene language model into our chromatin accessibility model. During the
process, we designed some methods to make feature fusion smoother. Compared
with other systems under public benchmarks, our model proved to have better
performance.
- Abstract(参考訳): 多くの無機化合物や有機化合物がDNAと結合して複合体を形成し、その中の薬物関連分子が重要である。
クロマチンアクセシビリティーの変化は、薬物とDNAの相互作用に直接影響を及ぼすだけでなく、TFと転写調節因子のDNA結合能に影響を与えることにより、薬物耐性に関連する重要な遺伝子の発現を促進または阻害する。
しかし、測定のための生物学的実験技術は高価で時間を要する。
近年、ゲノムのアクセス可能な領域を特定するために、いくつかの計算手法が提案されている。
既存の計算モデルは、主に塩基配列の文脈情報を無視する。
これらの問題に対処するため、我々はSemanticCAPという新しいソリューションを提案しました。
遺伝子配列の文脈をモデル化する遺伝子言語モデルを導入し、遺伝子配列における特定の部位の効果的な表現を可能にする。
基本的に、遺伝子モデルが提供する機能をクロマチンアクセシビリティモデルにマージします。
プロセス中、私たちは機能融合をよりスムーズにする方法を設計しました。
公開ベンチマークの他のシステムと比較すると、我々のモデルはより良い性能を示した。
関連論文リスト
- Efficient and Scalable Fine-Tune of Language Models for Genome
Understanding [49.606093223945734]
textscLanguage prefix ftextscIne-tuning for textscGentextscOmes。
DNA基盤モデルとは異なり、textscLingoは自然言語基盤モデルの文脈的手がかりを戦略的に活用している。
textscLingoはさらに、適応的なランクサンプリング方法により、下流の細調整タスクを数多く許容する。
論文 参考訳(メタデータ) (2024-02-12T21:40:45Z) - A Comparative Analysis of Gene Expression Profiling by Statistical and
Machine Learning Approaches [1.8954222800767324]
がん検体を分類する機械学習モデルの生物学的および方法論的限界について論じる。
遺伝子ランキングはこれらのモデルに適応した説明可能性法から得られる。
ブラックボックスニューラルネットワークによって学習された情報は、微分表現の概念と関連している。
論文 参考訳(メタデータ) (2024-02-01T18:17:36Z) - BEND: Benchmarking DNA Language Models on biologically meaningful tasks [7.35697293789605]
DNA言語モデルのベンチマークであるBENDを紹介し、現実的で生物学的に意味のある下流タスクのコレクションを特徴とする。
現在のDNA LMからの埋め込みは、一部のタスクにおいて専門家メソッドのパフォーマンスにアプローチできるが、長距離機能に関する限られた情報しか取得できない。
論文 参考訳(メタデータ) (2023-11-21T12:34:00Z) - Fast and Functional Structured Data Generators Rooted in
Out-of-Equilibrium Physics [62.997667081978825]
エネルギーモデルを用いて、構造化データセットで高品質なラベル特化データを生成するという課題に対処する。
伝統的な訓練方法は、マルコフ連鎖モンテカルロ混合による困難に遭遇する。
非平衡効果を利用した新しいトレーニングアルゴリズムを用いる。
論文 参考訳(メタデータ) (2023-07-13T15:08:44Z) - HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide
Resolution [76.97231739317259]
本稿では,ヒト参照ゲノム上に,最大100万個のトークンを単一ヌクレオチドレベルで有するゲノム基盤モデルであるHyenaDNAについて紹介する。
Nucleotide Transformerの微調整されたベンチマークでは、HyenaDNAが18のデータセットのうち12の最先端(SotA)に到達した。
論文 参考訳(メタデータ) (2023-06-27T20:46:34Z) - Machine Learning Methods for Cancer Classification Using Gene Expression
Data: A Review [77.34726150561087]
がんは心臓血管疾患の2番目の死因である。
遺伝子発現は癌の早期発見において基本的な役割を担っている。
本研究は,機械学習を用いた癌分類における遺伝子発現解析の最近の進歩を概説する。
論文 参考訳(メタデータ) (2023-01-28T15:03:03Z) - Unsupervised ensemble-based phenotyping helps enhance the
discoverability of genes related to heart morphology [57.25098075813054]
我々はUn Phenotype Ensemblesという名の遺伝子発見のための新しいフレームワークを提案する。
教師なしの方法で学習された表現型のセットをプールすることで、冗長だが非常に表現性の高い表現を構築する。
これらの表現型は、(GWAS)を介して分析され、高い自信と安定した関連のみを保持する。
論文 参考訳(メタデータ) (2023-01-07T18:36:44Z) - A single-cell gene expression language model [2.9112649816695213]
遺伝子間のコンテキスト依存を学習する機械学習システムを提案する。
我々のモデルであるExceiverは、自己教師型タスクを用いて、多様な細胞タイプで訓練されている。
生物学的アノテーションに関して,潜在サンプル表現の類似性プロファイルと学習された遺伝子埋め込みとの間に一致が認められた。
論文 参考訳(メタデータ) (2022-10-25T20:52:19Z) - Epigenomic language models powered by Cerebras [0.0]
エピゲノムBERT(またはEBERT)は、DNA配列とペア化されたエピジェネティック状態の入力の両方に基づいて表現を学習する。
細胞型特異的転写因子結合予測タスクにおいて,EBERTの転写学習能力を示す。
ENCODE-DREAMベンチマークから得られた13つの評価データセットのうち4つは、我々の微調整されたモデルであり、挑戦のリーダーボードでは総合3位である。
論文 参考訳(メタデータ) (2021-12-14T17:23:42Z) - Multi-modal Self-supervised Pre-training for Regulatory Genome Across
Cell Types [75.65676405302105]
我々は、GeneBERTと呼ばれる、多モードかつ自己管理的な方法でゲノムデータを事前学習するための、単純かつ効果的なアプローチを提案する。
我々はATAC-seqデータセットで1700万のゲノム配列でモデルを事前訓練する。
論文 参考訳(メタデータ) (2021-10-11T12:48:44Z) - SimpleChrome: Encoding of Combinatorial Effects for Predicting Gene
Expression [8.326669256957352]
遺伝子のヒストン修飾表現を学習するディープラーニングモデルであるSimpleChromeを紹介します。
このモデルから得られた特徴により、遺伝子間相互作用の潜在効果と標的遺伝子の発現に対する直接遺伝子調節をよりよく理解することができます。
論文 参考訳(メタデータ) (2020-12-15T23:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。