Fugu-MT 論文翻訳(概要): iEnhancer-ELM: Improve Enhancer Identification by Extracting Multi-scale Contextual Information based on Enhancer Language Models

論文の概要: iEnhancer-ELM: Improve Enhancer Identification by Extracting Multi-scale Contextual Information based on Enhancer Language Models

arxiv url: http://arxiv.org/abs/2212.01495v1
Date: Sat, 3 Dec 2022 00:50:51 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-06 18:54:17.638946
Title: iEnhancer-ELM: Improve Enhancer Identification by Extracting Multi-scale Contextual Information based on Enhancer Language Models
Title（参考訳）: iEnhancer-ELM:エンハンサー言語モデルに基づくマルチスケール文脈情報抽出によるエンハンサー識別の改善
Authors: Jiahao Li, Zhourun Wu, Wenhao Lin, Jiawei Luo, Jun Zhang, Qingcai Chen and Junjie Chen
Abstract要約: エンハンサー言語モデルに基づくマルチスケールエンハンサー識別法(iEnhancer-ELM)を提案する。 30の生物学的パターンを見つけ、40%(12/30)が広く使われているモチーフツール(STREME)と一般的なデータセット(JASPAR)によって検証される。我々のモデルには、エンハンサーの生物学的メカニズムを明らかにする能力がある。
参考スコア（独自算出の注目度）: 24.136656111333718
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Motivation: Enhancers are important cis-regulatory elements that regulate a wide range of biological functions and enhance the transcription of target genes. Although many state-of-the-art computational methods have been proposed in order to efficiently identify enhancers, learning globally contextual features is still one of the challenges for computational methods. Regarding the similarities between biological sequences and natural language sentences, the novel BERT-based language techniques have been applied to extracting complex contextual features in various computational biology tasks such as protein function/structure prediction. To speed up the research on enhancer identification, it is urgent to construct a BERT-based enhancer language model. Results: In this paper, we propose a multi-scale enhancer identification method (iEnhancer-ELM) based on enhancer language models, which treat enhancer sequences as natural language sentences that are composed of k-mer nucleotides. iEnhancer-ELM can extract contextual information of multi-scale k-mers with positions from raw enhancer sequences. Benefiting from the complementary information of k-mers in multi-scale, we ensemble four iEnhancer-ELM models for improving enhancer identification. The benchmark comparisons show that our model outperforms state-of-the-art methods. By the interpretable attention mechanism, we finds 30 biological patterns, where 40% (12/30) are verified by a widely used motif tool (STREME) and a popular dataset (JASPAR), demonstrating our model has a potential ability to reveal the biological mechanism of enhancer. Availability: The source code are available at https://github.com/chen-bioinfo/iEnhancer-ELM Contact: junjiechen@hit.edu.cn and junjie.chen.hit@gmail.com; Supplementary information: Supplementary data are available at Bioinformatics online.
Abstract（参考訳）: モチベーション:エンハンサーは、幅広い生物学的機能を制御し、標的遺伝子の転写を促進する重要なシス調節要素である。エンハンサーを効率的に識別するために多くの最先端計算手法が提案されているが、グローバルな文脈的特徴の学習は依然として計算手法の課題の1つである。生物配列と自然言語文の類似性について,タンパク質機能・構造予測などの様々な計算生物学タスクにおける複雑な文脈的特徴の抽出にbertを用いた新しい言語手法が適用されている。エンハンサー識別の研究を高速化するため,BERTに基づくエンハンサー言語モデルの構築が急務である。結果: 本論文では,k-merヌクレオチドからなる自然言語文としてエンハンサー列を扱うエンハンサー言語モデルに基づくマルチスケールエンハンサー識別法(iEnhancer-ELM)を提案する。 iEnhancer-ELMは、生のエンハンサー配列から位置を持つマルチスケールkマーのコンテキスト情報を抽出することができる。マルチスケールでの k-mers の相補的情報から, エンハンサー同定を改善するために4つのiEnhancer-ELMモデルを組み込んだ。ベンチマークの結果,我々のモデルは最先端手法よりも優れていた。解釈可能な注意機構により、40パーセント(12/30)が広く使われているモチーフツール(STREME)と一般的なデータセット(JASPAR)によって検証され、このモデルがエンハンサーの生物学的メカニズムを明らかにする可能性を実証する。ソースコードはhttps://github.com/chen-bioinfo/ienhancer-elm contact: junjiechen@hit.edu.cn and junjie.chen.hit@gmail.comで入手できる。

関連論文リスト

ForenX: Towards Explainable AI-Generated Image Detection with Multimodal Large Language Models [82.04858317800097]
ForenXは画像の真正性を識別するだけでなく、人間の思考に共鳴する説明を提供する新しい手法である。 ForenXは、強力なマルチモーダル大言語モデル(MLLM)を使用して、法医学的な手がかりを分析し、解釈する。本稿では,AI生成画像における偽証拠の記述専用のデータセットであるForgReasonを紹介する。
論文参考訳（メタデータ） (2025-08-02T15:21:26Z)
Biology Instructions: A Dataset and Benchmark for Multi-Omics Sequence Understanding Capability of Large Language Models [51.316001071698224]
本稿では,生物配列関連命令チューニングデータセットであるBiology-Instructionsを紹介する。このデータセットは、大きな言語モデル(LLM)と複雑な生物学的シーケンスに関連するタスクのギャップを埋めることができます。また、新たな3段階トレーニングパイプラインを備えたChatMultiOmicsという強力なベースラインも開発しています。
論文参考訳（メタデータ） (2024-12-26T12:12:23Z)
scReader: Prompting Large Language Models to Interpret scRNA-seq Data [12.767105992391555]
本稿では,大規模言語モデルの一般的な知識機能と,単一セルオミクスデータ解釈のためのドメイン固有表現モデルを統合する,革新的なハイブリッドアプローチを提案する。単細胞遺伝子レベルでの遺伝子発現データをプロンプトで入力することにより、様々な種および細胞タイプにわたる遺伝子発現の差分レベルに基づいて、細胞表現を効果的にモデル化する。
論文参考訳（メタデータ） (2024-12-24T04:28:42Z)
VSFormer: Value and Shape-Aware Transformer with Prior-Enhanced Self-Attention for Multivariate Time Series Classification [47.92529531621406]
識別パターン(形状)と数値情報(値)の両方を組み込んだVSFormerを提案する。さらに、教師付き情報から派生したクラス固有の事前情報を抽出し、位置エンコーディングを強化する。 30のUEAアーカイブデータセットに対する大規模な実験は、SOTAモデルと比較して、我々の手法の優れた性能を示す。
論文参考訳（メタデータ） (2024-12-21T07:31:22Z)
EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。 EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文参考訳（メタデータ） (2024-10-02T23:00:31Z)
CollectiveSFT: Scaling Large Language Models for Chinese Medical Benchmark with Collective Instructions in Healthcare [12.218718086529462]
本研究は中国における総合医療ベンチマーク(CMB)に焦点を当てる。私たちは、より大きなモデルに匹敵するスコアを得るために、より小さなベースモデルをトレーニングしました。幅広い指導内容を統合することで,データ品質の不整合などの潜在的な問題に対処する。
論文参考訳（メタデータ） (2024-07-29T05:00:48Z)
BiomedRAG: A Retrieval Augmented Large Language Model for Biomedicine [19.861178160437827]
大規模言語モデル(LLM)は、バイオメディカルおよび医療分野における様々な応用のための重要なリソースとして急速に現れてきた。 textscBiomedRAGは5つのバイオメディカルNLPタスクで優れたパフォーマンスを実現している。 textscBiomedRAG は、GIT と ChemProt コーパスにおいて、マイクロF1スコアが 81.42 と 88.83 の他のトリプル抽出システムより優れている。
論文参考訳（メタデータ） (2024-05-01T12:01:39Z)
Learning to Extract Structured Entities Using Language Models [52.281701191329]
機械学習の最近の進歩は、情報抽出の分野に大きな影響を与えている。タスクをエンティティ中心にすることで、さまざまなメトリクスの使用を可能にします。我々は、Structured Entity extractを導入し、Adroximate Entity Set OverlaPメトリックを提案し、この分野にコントリビュートします。
論文参考訳（メタデータ） (2024-02-06T22:15:09Z)
Diversifying Knowledge Enhancement of Biomedical Language Models using Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文参考訳（メタデータ） (2023-12-21T14:26:57Z)
Genetic InfoMax: Exploring Mutual Information Maximization in High-Dimensional Imaging Genetics Studies [50.11449968854487]
遺伝子ワイド・アソシエーション(GWAS)は、遺伝的変異と特定の形質の関係を同定するために用いられる。画像遺伝学の表現学習は、GWASによって引き起こされる固有の課題により、ほとんど探索されていない。本稿では,GWAS の具体的な課題に対処するために,トランスモーダル学習フレームワーク Genetic InfoMax (GIM) を提案する。
論文参考訳（メタデータ） (2023-09-26T03:59:21Z)
StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。本研究は,各種データセットを対象とした総合的な実験を含む。
論文参考訳（メタデータ） (2023-08-20T12:43:52Z)
Cross-Language Speech Emotion Recognition Using Multimodal Dual Attention Transformers [5.538923337818467]
最先端のシステムでは、言語間の設定でパフォーマンスが向上することができない。言語間SERを改善するためのマルチモーダルデュアルアテンショントランスモデルを提案する。
論文参考訳（メタデータ） (2023-06-23T22:38:32Z)
t-SMILES: A Scalable Fragment-based Molecular Representation Framework for De Novo Molecule Generation [9.116670221263753]
本研究では, t-SMILESと呼ばれる, フレキシブル, フラグメントベース, マルチスケールな分子表現フレームワークを提案する。フラグメント化された分子グラフから生成された全二分木上で幅優先探索を行うことにより得られるSMILES型文字列を用いて分子を記述する。従来のSMILES、DeepSMILES、SELFIES、ベースラインモデルをゴール指向タスクで大幅に上回っている。
論文参考訳（メタデータ） (2023-01-04T21:41:01Z)
Scientific Language Models for Biomedical Knowledge Base Completion: An Empirical Study [62.376800537374024]
我々は,KG の完成に向けた科学的 LM の研究を行い,生物医学的リンク予測を強化するために,その潜在知識を活用できるかどうかを探る。 LMモデルとKG埋め込みモデルを統合し,各入力例をいずれかのモデルに割り当てることを学ぶルータ法を用いて,性能を大幅に向上させる。
論文参考訳（メタデータ） (2021-06-17T17:55:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。