論文の概要: iEnhancer-ELM: improve enhancer identification by extracting
position-related multiscale contextual information based on enhancer language
models
- arxiv url: http://arxiv.org/abs/2212.01495v2
- Date: Sun, 16 Jul 2023 13:48:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 23:49:59.256993
- Title: iEnhancer-ELM: improve enhancer identification by extracting
position-related multiscale contextual information based on enhancer language
models
- Title(参考訳): iEnhancer-ELM:エンハンサー言語モデルに基づく位置関連マルチスケールコンテキスト情報抽出によるエンハンサー識別の改善
- Authors: Jiahao Li, Zhourun Wu, Wenhao Lin, Jiawei Luo, Jun Zhang, Qingcai Chen
and Junjie Chen
- Abstract要約: BERT型エンハンサー言語モデルに基づく新しいエンハンサー識別法(iEnhancer-ELM)を提案する。
iEnhancer-ELMは、マルチスケールのk-merでDNA配列をトークン化し、その位置に関連する異なるスケールのk-merのコンテキスト情報を抽出する。
- 参考スコア(独自算出の注目度): 24.136656111333718
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motivation: Enhancers are important cis-regulatory elements that regulate a
wide range of biological functions and enhance the transcription of target
genes. Although many feature extraction methods have been proposed to improve
the performance of enhancer identification, they cannot learn position-related
multiscale contextual information from raw DNA sequences.
Results: In this article, we propose a novel enhancer identification method
(iEnhancer-ELM) based on BERT-like enhancer language models. iEnhancer-ELM
tokenizes DNA sequences with multi-scale k-mers and extracts contextual
information of different scale k-mers related with their positions via an
multi-head attention mechanism. We first evaluate the performance of different
scale k-mers, then ensemble them to improve the performance of enhancer
identification. The experimental results on two popular benchmark datasets show
that our model outperforms stateof-the-art methods. We further illustrate the
interpretability of iEnhancer-ELM. For a case study, we discover 30 enhancer
motifs via a 3-mer-based model, where 12 of motifs are verified by STREME and
JASPAR, demonstrating our model has a potential ability to unveil the
biological mechanism of enhancer.
Availability and implementation: The models and associated code are available
at https://github.com/chen-bioinfo/iEnhancer-ELM
Contact: junjiechen@hit.edu.cn
Supplementary information: Supplementary data are available at Bioinformatics
Advances online.
- Abstract(参考訳): モチベーション:エンハンサーは、幅広い生物学的機能を制御し、標的遺伝子の転写を促進する重要なシス調節要素である。
エンハンサー同定の性能向上のために,多くの特徴抽出法が提案されているが,DNA配列から位置関連マルチスケールコンテキスト情報を学習することはできない。
結果: 本稿では,BERT型エンハンサー言語モデルに基づく新しいエンハンサー識別法(iEnhancer-ELM)を提案する。
iEnhancer-ELMは、マルチスケールのk-merでDNA配列をトークン化し、マルチヘッドアテンション機構を介して、異なるスケールのk-merのコンテキスト情報を抽出する。
まず, 異なるスケールk-merの性能を評価し, エンハンサー識別の性能を向上させるためにアンサンブルする。
2つの人気のあるベンチマークデータセットの実験結果は、我々のモデルが最先端の手法より優れていることを示している。
さらに,iEnhancer-ELMの解釈可能性について述べる。
ケーススタディでは,STREMEとJASPARで12つのモチーフを検証し,このモデルがエンハンサーの生物学的メカニズムを明らかにする可能性を実証する3-merモデルを用いて,30個のエンハンサーモチーフを発見する。
可用性と実装: モデルと関連するコードはhttps://github.com/chen-bioinfo/ienhancer-elm contact: junjiechen@hit.edu.cn supplementary information: supplementary dataはbioinformatics advances onlineで入手できる。
関連論文リスト
- Biology Instructions: A Dataset and Benchmark for Multi-Omics Sequence Understanding Capability of Large Language Models [51.316001071698224]
本稿では,生物配列関連命令チューニングデータセットであるBiology-Instructionsを紹介する。
このデータセットは、大きな言語モデル(LLM)と複雑な生物学的シーケンスに関連するタスクのギャップを埋めることができます。
また、新たな3段階トレーニングパイプラインを備えたChatMultiOmicsという強力なベースラインも開発しています。
論文 参考訳(メタデータ) (2024-12-26T12:12:23Z) - scReader: Prompting Large Language Models to Interpret scRNA-seq Data [12.767105992391555]
本稿では,大規模言語モデルの一般的な知識機能と,単一セルオミクスデータ解釈のためのドメイン固有表現モデルを統合する,革新的なハイブリッドアプローチを提案する。
単細胞遺伝子レベルでの遺伝子発現データをプロンプトで入力することにより、様々な種および細胞タイプにわたる遺伝子発現の差分レベルに基づいて、細胞表現を効果的にモデル化する。
論文 参考訳(メタデータ) (2024-12-24T04:28:42Z) - VSFormer: Value and Shape-Aware Transformer with Prior-Enhanced Self-Attention for Multivariate Time Series Classification [47.92529531621406]
識別パターン(形状)と数値情報(値)の両方を組み込んだVSFormerを提案する。
さらに、教師付き情報から派生したクラス固有の事前情報を抽出し、位置エンコーディングを強化する。
30のUEAアーカイブデータセットに対する大規模な実験は、SOTAモデルと比較して、我々の手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-12-21T07:31:22Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - CollectiveSFT: Scaling Large Language Models for Chinese Medical Benchmark with Collective Instructions in Healthcare [12.218718086529462]
本研究は中国における総合医療ベンチマーク(CMB)に焦点を当てる。
私たちは、より大きなモデルに匹敵するスコアを得るために、より小さなベースモデルをトレーニングしました。
幅広い指導内容を統合することで,データ品質の不整合などの潜在的な問題に対処する。
論文 参考訳(メタデータ) (2024-07-29T05:00:48Z) - Learning to Extract Structured Entities Using Language Models [52.281701191329]
機械学習の最近の進歩は、情報抽出の分野に大きな影響を与えている。
タスクをエンティティ中心にすることで、さまざまなメトリクスの使用を可能にします。
我々は、Structured Entity extractを導入し、Adroximate Entity Set OverlaPメトリックを提案し、この分野にコントリビュートします。
論文 参考訳(メタデータ) (2024-02-06T22:15:09Z) - Genetic InfoMax: Exploring Mutual Information Maximization in
High-Dimensional Imaging Genetics Studies [50.11449968854487]
遺伝子ワイド・アソシエーション(GWAS)は、遺伝的変異と特定の形質の関係を同定するために用いられる。
画像遺伝学の表現学習は、GWASによって引き起こされる固有の課題により、ほとんど探索されていない。
本稿では,GWAS の具体的な課題に対処するために,トランスモーダル学習フレームワーク Genetic InfoMax (GIM) を提案する。
論文 参考訳(メタデータ) (2023-09-26T03:59:21Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Cross-Language Speech Emotion Recognition Using Multimodal Dual
Attention Transformers [5.538923337818467]
最先端のシステムでは、言語間の設定でパフォーマンスが向上することができない。
言語間SERを改善するためのマルチモーダルデュアルアテンショントランスモデルを提案する。
論文 参考訳(メタデータ) (2023-06-23T22:38:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。