論文の概要: Context-Aware Regularization with Markovian Integration for Attention-Based Nucleotide Analysis
- arxiv url: http://arxiv.org/abs/2507.09378v1
- Date: Sat, 12 Jul 2025 19:03:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:23.057935
- Title: Context-Aware Regularization with Markovian Integration for Attention-Based Nucleotide Analysis
- Title(参考訳): 意図に基づくヌクレオチド分析のためのマルコフ統合による文脈認識正規化
- Authors: Mohammadsaleh Refahi, Mahdi Abavisani, Bahrad A. Sokhansanj, James R. Brown, Gail Rosen,
- Abstract要約: 自己回帰変換器は、固定長のコンテキストウィンドウに頼ってマルコフの振る舞いを示す。
CARMANIAは、NT予測を遷移行列(TM)損失で強化する自己教師型事前学習フレームワークである。
TM損失は、予測トークン遷移を、各入力シーケンスから経験的に導出されたn-gram統計と整合させ、局所的なコンテキストを超えた高次依存関係を捕捉するようモデルに促す。
- 参考スコア(独自算出の注目度): 2.0948177745913026
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers have revolutionized nucleotide sequence analysis, yet capturing long-range dependencies remains challenging. Recent studies show that autoregressive transformers often exhibit Markovian behavior by relying on fixed-length context windows for next-token prediction. However, standard self-attention mechanisms are computationally inefficient for long sequences due to their quadratic complexity and do not explicitly enforce global transition consistency. We introduce CARMANIA (Context-Aware Regularization with Markovian Integration for Attention-Based Nucleotide Analysis), a self-supervised pretraining framework that augments next-token (NT) prediction with a transition-matrix (TM) loss. The TM loss aligns predicted token transitions with empirically derived n-gram statistics from each input sequence, encouraging the model to capture higher-order dependencies beyond local context. This integration enables CARMANIA to learn organism-specific sequence structures that reflect both evolutionary constraints and functional organization. We evaluate CARMANIA across diverse genomic tasks, including regulatory element prediction, functional gene classification, taxonomic inference, antimicrobial resistance detection, and biosynthetic gene cluster classification. CARMANIA outperforms the previous best long-context model by at least 7 percent, matches state-of-the-art on shorter sequences (exceeding prior results on 20 out of 40 tasks while running approximately 2.5 times faster), and shows particularly strong improvements on enhancer and housekeeping gene classification tasks, including up to a 34 percent absolute gain in Matthews correlation coefficient (MCC) for enhancer prediction. The TM loss boosts accuracy in 33 of 40 tasks, especially where local motifs or regulatory patterns drive prediction.
- Abstract(参考訳): トランスフォーマーはヌクレオチド配列解析に革命をもたらしたが、長距離依存を捉えることは依然として困難である。
近年の研究では、自動回帰変換器は、固定長のコンテキストウィンドウに頼って次の予測を行うことにより、マルコフ的な振る舞いを示すことが多い。
しかしながら、標準的な自己認識機構は、その二次的な複雑さのため、長い列に対して計算的に非効率であり、グローバルな遷移一貫性を明示的に強制するものではない。
CARMANIA (Context-Aware Regularization with Markovian Integration for Attention-Based Nucleotide Analysis) は,TM(transition-matrix)損失によるNT予測を増大させる自己教師型事前学習フレームワークである。
TM損失は、予測トークン遷移を、各入力シーケンスから経験的に導出されたn-gram統計と整合させ、局所的なコンテキストを超えた高次依存関係を捕捉するようモデルに促す。
この統合により、CARMANIAは進化的制約と機能的組織の両方を反映する生物特異的な配列構造を学ぶことができる。
我々はCARMANIAを、調節要素予測、機能的遺伝子分類、分類学的推論、抗微生物抵抗性検出、生合成遺伝子クラスター分類など、多様なゲノムタスクで評価する。
CARMANIAは、過去最高の長文モデルを少なくとも7%上回り、短いシーケンス(約2.5倍の速さで40タスク中20タスクで先行結果と比較)で最先端と一致し、特に強化因子相関係数(MCC)の最大34%の絶対ゲインを含む、エンハンサーおよびハウスキーピング遺伝子分類タスクに顕著に改善されている。
TM損失は40タスク中33タスクにおいて精度を高め、特に局所的なモチーフや規制パターンが予測を促進する。
関連論文リスト
- Geometric Multi-color Message Passing Graph Neural Networks for Blood-brain Barrier Permeability Prediction [1.488392495573075]
本稿では,幾何学的多色メッセージパッシンググラフニューラルネットワーク(GMC-MPNN)を提案する。
本モデルは,血液脳関門透過性を規定する空間的関係と化学的文脈を捉えるために,原子タイプに基づく重み付きカラーサブグラフを構築した。
論文 参考訳(メタデータ) (2025-07-25T03:38:46Z) - DISPROTBENCH: A Disorder-Aware, Task-Rich Benchmark for Evaluating Protein Structure Prediction in Realistic Biological Contexts [76.59606029593085]
DisProtBenchは、構造障害および複雑な生物学的条件下でタンパク質構造予測モデル(PSPM)を評価するためのベンチマークである。
DisProtBenchはデータの複雑さ、タスクの多様性、解釈可能性という3つの重要な軸にまたがっている。
その結果,機能的予測障害と相関する低信頼領域を有する障害下でのモデルロバスト性に有意な変動が認められた。
論文 参考訳(メタデータ) (2025-06-18T23:58:22Z) - Predicting function of evolutionarily implausible DNA sequences [0.0]
我々はNullsettesと呼ばれる一連の予測タスクを導入し、モデルが機能不全の突然変異を予測する能力を評価する。
変異効果予測性能は非変異体の予測可能性と強く相関していることがわかった。
強いモデル性能の予測可能な確率値の範囲は、シーケンス長に大きく依存する。
論文 参考訳(メタデータ) (2025-06-12T01:28:04Z) - Advancing Tabular Stroke Modelling Through a Novel Hybrid Architecture and Feature-Selection Synergy [0.9999629695552196]
本研究は、ストロークを予測するように設計されたデータ駆動型、解釈可能な機械学習フレームワークを開発し、検証する。
定期的に収集された人口統計、生活習慣、臨床変数は4,981件の公的なコホートから得られた。
提案したモデルでは精度97.2%、F1スコア97.15%が達成され、先行する個人モデルと比較して大幅に向上した。
論文 参考訳(メタデータ) (2025-05-18T21:46:45Z) - MuCoS: Efficient Drug Target Discovery via Multi Context Aware Sampling in Knowledge Graphs [0.0]
Multi Context Aware Sampling (MuCoS) は、高密度の隣人を対象にした新しいフレームワークである。
KEGG50kデータセットの実験では、MuCoSは最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-03-11T06:08:42Z) - Regulatory DNA sequence Design with Reinforcement Learning [56.20290878358356]
本稿では,強化学習を利用して事前学習した自己回帰モデルを微調整する生成手法を提案する。
2つの酵母培地条件下でのプロモーター設計タスクの評価と,3種類のヒト細胞に対するエンハンサー設計タスクの評価を行った。
論文 参考訳(メタデータ) (2025-03-11T02:33:33Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - SeqProFT: Applying LoRA Finetuning for Sequence-only Protein Property Predictions [8.112057136324431]
本研究では,ESM-2モデルのエンド・ツー・エンドの微調整を行うためにLoRA法を用いる。
下流ネットワークにマルチヘッドアテンション機構を統合して、シーケンス特徴とコンタクトマップ情報を組み合わせる。
論文 参考訳(メタデータ) (2024-11-18T12:40:39Z) - A Poisson-Gamma Dynamic Factor Model with Time-Varying Transition Dynamics [51.147876395589925]
非定常PGDSは、基礎となる遷移行列が時間とともに進化できるように提案されている。
後続シミュレーションを行うために, 完全共役かつ効率的なギブスサンプリング装置を開発した。
実験により,提案した非定常PGDSは,関連するモデルと比較して予測性能が向上することを示した。
論文 参考訳(メタデータ) (2024-02-26T04:39:01Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z) - Contrastive Conditional Neural Processes [45.70735205041254]
条件付きニューラル・プロセス(CNP)は、メタラーニング環境下でのプロセスの機能に近い確率的推論でニューラルネットワークをブリッジする。
2つの補助的コントラスト分岐が階層的に設定される。すなわち、インストラクテーション時間的コントラスト学習(tt TCL)とクロスストラクテーション関数コントラスト学習(tt FCL)である。
実験により、tt TCLは観測の高レベルの抽象化を捉えるのに対し、tt FCLは基底関数の同定に役立ち、より効率的な表現を提供することを示す。
論文 参考訳(メタデータ) (2022-03-08T10:08:45Z) - Multi-modal Self-supervised Pre-training for Regulatory Genome Across
Cell Types [75.65676405302105]
我々は、GeneBERTと呼ばれる、多モードかつ自己管理的な方法でゲノムデータを事前学習するための、単純かつ効果的なアプローチを提案する。
我々はATAC-seqデータセットで1700万のゲノム配列でモデルを事前訓練する。
論文 参考訳(メタデータ) (2021-10-11T12:48:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。