論文の概要: Context-Aware Regularization with Markovian Integration for Attention-Based Nucleotide Analysis
- arxiv url: http://arxiv.org/abs/2507.09378v3
- Date: Tue, 04 Nov 2025 02:06:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 20:56:28.994376
- Title: Context-Aware Regularization with Markovian Integration for Attention-Based Nucleotide Analysis
- Title(参考訳): 意図に基づくヌクレオチド分析のためのマルコフ統合による文脈認識正規化
- Authors: Mohammadsaleh Refahi, Mahdi Abavisani, Bahrad A. Sokhansanj, James R. Brown, Gail Rosen,
- Abstract要約: 自己回帰変換器は、固定長のコンテキストウィンドウに頼ってマルコフの振る舞いを示す。
CARMANIAは、NT予測を遷移行列(TM)損失で強化する自己教師型事前学習フレームワークである。
TM損失は、予測トークン遷移を、各入力シーケンスから経験的に導出されたn-gram統計と整合させ、局所的なコンテキストを超えた高次依存関係を捕捉するようモデルに促す。
- 参考スコア(独自算出の注目度): 0.2718525106069543
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers have revolutionized nucleotide sequence analysis, yet capturing long-range dependencies remains challenging. Recent studies show that autoregressive transformers often exhibit Markovian behavior by relying on fixed-length context windows for next-token prediction. However, standard self-attention mechanisms are computationally inefficient for long sequences due to their quadratic complexity and do not explicitly enforce global transition consistency. We introduce CARMANIA (Context-Aware Regularization with Markovian Integration for Attention-Based Nucleotide Analysis), a self-supervised pretraining framework that augments next-token (NT) prediction with a transition-matrix (TM) loss. The TM loss aligns predicted token transitions with empirically derived n-gram statistics from each input sequence, encouraging the model to capture higher-order dependencies beyond local context. This integration enables CARMANIA to learn organism-specific sequence structures that reflect both evolutionary constraints and functional organization. We evaluate CARMANIA across diverse genomic tasks, including regulatory element prediction, functional gene classification, taxonomic inference, antimicrobial resistance detection, and biosynthetic gene cluster classification. CARMANIA outperforms the previous best long-context model by at least 7 percent, matches state-of-the-art on shorter sequences (exceeding prior results on 20 out of 40 tasks while running approximately 2.5 times faster), and shows particularly strong improvements on enhancer and housekeeping gene classification tasks, including up to a 34 percent absolute gain in Matthews correlation coefficient (MCC) for enhancer prediction. The TM loss boosts accuracy in 33 of 40 tasks, especially where local motifs or regulatory patterns drive prediction.
- Abstract(参考訳): トランスフォーマーはヌクレオチド配列解析に革命をもたらしたが、長距離依存を捉えることは依然として困難である。
近年の研究では、自動回帰変換器は、固定長のコンテキストウィンドウに頼って次の予測を行うことにより、マルコフ的な振る舞いを示すことが多い。
しかしながら、標準的な自己認識機構は、その二次的な複雑さのため、長い列に対して計算的に非効率であり、グローバルな遷移一貫性を明示的に強制するものではない。
CARMANIA (Context-Aware Regularization with Markovian Integration for Attention-Based Nucleotide Analysis) は,TM(transition-matrix)損失によるNT予測を増大させる自己教師型事前学習フレームワークである。
TM損失は、予測トークン遷移を、各入力シーケンスから経験的に導出されたn-gram統計と整合させ、局所的なコンテキストを超えた高次依存関係を捕捉するようモデルに促す。
この統合により、CARMANIAは進化的制約と機能的組織の両方を反映する生物特異的な配列構造を学ぶことができる。
我々はCARMANIAを、調節要素予測、機能的遺伝子分類、分類学的推論、抗微生物抵抗性検出、生合成遺伝子クラスター分類など、多様なゲノムタスクで評価する。
CARMANIAは、過去最高の長文モデルを少なくとも7%上回り、短いシーケンス(約2.5倍の速さで40タスク中20タスクで先行結果と比較)で最先端と一致し、特に強化因子相関係数(MCC)の最大34%の絶対ゲインを含む、エンハンサーおよびハウスキーピング遺伝子分類タスクに顕著に改善されている。
TM損失は40タスク中33タスクにおいて精度を高め、特に局所的なモチーフや規制パターンが予測を促進する。
関連論文リスト
- MechPert: Mechanistic Consensus as an Inductive Bias for Unseen Perturbation Prediction [20.800722761287936]
MechPertは、エージェントが指示された規制仮説を生成することを奨励する軽量フレームワークである。
低データ体制における摂動予測のために、MechPertは類似性に基づくベースラインよりもピアソン相関を最大10.5%改善した。
実験的設計のために、MechPert選択アンカー遺伝子は、正常な細胞株において、標準ネットワーク中心性よりも最大46%優れていた。
論文 参考訳(メタデータ) (2026-02-14T14:12:38Z) - DOGMA: Weaving Structural Information into Data-centric Single-cell Transcriptomics Analysis [43.565183518761984]
生データの構造的再構成と意味的拡張を目的としたデータ中心型フレームワークであるDOGMAを提案する。
複雑な多種多様なベンチマークにおいて、DOGMA SOTA性能は優れたゼロショットロバスト性とサンプル効率を示す。
論文 参考訳(メタデータ) (2026-02-02T09:10:09Z) - Robust Machine Learning for Regulatory Sequence Modeling under Biological and Technical Distribution Shifts [0.3948325938742681]
性能劣化、校正失敗、不確実性に基づく信頼性を定量化するためのロバストネスフレームワークを導入する。
シミュレーションでは、セル型特異的プログラム、摂動、GCバイアス、深さ変化、バッチ効果、ヘテロscedastic noiseによってモチーフ駆動の制御出力が生成される。
モデルは精度は保たれるが、高い誤差、激しいばらつきの誤校正、モチーフ効果の反転とノイズによるカバー崩壊が支配的な体制である。
論文 参考訳(メタデータ) (2026-01-21T13:15:27Z) - Overlap-weighted orthogonal meta-learner for treatment effect estimation over time [90.46786193198744]
ヘテロジニアス治療効果(HTE)を推定するための新しい重み付きメタラーナーを提案する。
我々のWO-Larnerは、ノイマン直交性(Neyman-orthogonality)の好ましい性質を持ち、ニュアンス関数の誤特定に対して堅牢である。
我々のWO-learnerは完全にモデルに依存しず、あらゆる機械学習モデルに適用可能であることを示す。
論文 参考訳(メタデータ) (2025-10-22T14:47:57Z) - Fusing Sequence Motifs and Pan-Genomic Features: Antimicrobial Resistance Prediction using an Explainable Lightweight 1D CNN-XGBoost Ensemble [0.0]
抗微生物抵抗性(AMR)は、急速に拡大する世界的な健康危機である。
標準的な機械学習モデルは、ゲノムを秩序のない機能のコレクションとして扱う。
本稿では,シーケンスベースと特徴ベース学習を組み合わせたアンサンブルフレームワークであるAMR-EnsembleNetを提案する。
論文 参考訳(メタデータ) (2025-09-28T01:19:11Z) - Revisiting Multivariate Time Series Forecasting with Missing Values [65.30332997607141]
現実の時系列では欠落値が一般的である。
現在のアプローチでは、計算モジュールを使用して、不足した値を補う、計算済みの予測フレームワークが開発されている。
このフレームワークは、致命的な問題を見落としている: 欠落した値に対して基礎的な真理は存在せず、予測精度を劣化させる可能性のあるエラーの影響を受けやすいようにしている。
本稿では,Information Bottleneck原則に基づく新しいフレームワークであるConsistency-Regularized Information Bottleneck(CRIB)を紹介する。
論文 参考訳(メタデータ) (2025-09-27T20:57:48Z) - MedSeqFT: Sequential Fine-tuning Foundation Models for 3D Medical Image Segmentation [55.37355146924576]
MedSeqFTは、医用画像解析のためのシーケンシャルな微調整フレームワークである。
事前訓練されたモデルを新しいタスクに適応させ、表現能力を改善する。
最先端の微調整戦略を一貫して上回ります。
論文 参考訳(メタデータ) (2025-09-07T15:22:53Z) - Geometric Multi-color Message Passing Graph Neural Networks for Blood-brain Barrier Permeability Prediction [1.488392495573075]
本稿では,幾何学的多色メッセージパッシンググラフニューラルネットワーク(GMC-MPNN)を提案する。
本モデルは,血液脳関門透過性を規定する空間的関係と化学的文脈を捉えるために,原子タイプに基づく重み付きカラーサブグラフを構築した。
論文 参考訳(メタデータ) (2025-07-25T03:38:46Z) - DISPROTBENCH: A Disorder-Aware, Task-Rich Benchmark for Evaluating Protein Structure Prediction in Realistic Biological Contexts [76.59606029593085]
DisProtBenchは、構造障害および複雑な生物学的条件下でタンパク質構造予測モデル(PSPM)を評価するためのベンチマークである。
DisProtBenchはデータの複雑さ、タスクの多様性、解釈可能性という3つの重要な軸にまたがっている。
その結果,機能的予測障害と相関する低信頼領域を有する障害下でのモデルロバスト性に有意な変動が認められた。
論文 参考訳(メタデータ) (2025-06-18T23:58:22Z) - Predicting function of evolutionarily implausible DNA sequences [0.0]
我々はNullsettesと呼ばれる一連の予測タスクを導入し、モデルが機能不全の突然変異を予測する能力を評価する。
変異効果予測性能は非変異体の予測可能性と強く相関していることがわかった。
強いモデル性能の予測可能な確率値の範囲は、シーケンス長に大きく依存する。
論文 参考訳(メタデータ) (2025-06-12T01:28:04Z) - Advancing Tabular Stroke Modelling Through a Novel Hybrid Architecture and Feature-Selection Synergy [0.9999629695552196]
本研究は、ストロークを予測するように設計されたデータ駆動型、解釈可能な機械学習フレームワークを開発し、検証する。
定期的に収集された人口統計、生活習慣、臨床変数は4,981件の公的なコホートから得られた。
提案したモデルでは精度97.2%、F1スコア97.15%が達成され、先行する個人モデルと比較して大幅に向上した。
論文 参考訳(メタデータ) (2025-05-18T21:46:45Z) - MuCoS: Efficient Drug Target Discovery via Multi Context Aware Sampling in Knowledge Graphs [0.0]
Multi Context Aware Sampling (MuCoS) は、高密度の隣人を対象にした新しいフレームワークである。
KEGG50kデータセットの実験では、MuCoSは最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-03-11T06:08:42Z) - Regulatory DNA sequence Design with Reinforcement Learning [56.20290878358356]
本稿では,強化学習を利用して事前学習した自己回帰モデルを微調整する生成手法を提案する。
2つの酵母培地条件下でのプロモーター設計タスクの評価と,3種類のヒト細胞に対するエンハンサー設計タスクの評価を行った。
論文 参考訳(メタデータ) (2025-03-11T02:33:33Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - SeqProFT: Applying LoRA Finetuning for Sequence-only Protein Property Predictions [8.112057136324431]
本研究では,ESM-2モデルのエンド・ツー・エンドの微調整を行うためにLoRA法を用いる。
下流ネットワークにマルチヘッドアテンション機構を統合して、シーケンス特徴とコンタクトマップ情報を組み合わせる。
論文 参考訳(メタデータ) (2024-11-18T12:40:39Z) - A Poisson-Gamma Dynamic Factor Model with Time-Varying Transition Dynamics [51.147876395589925]
非定常PGDSは、基礎となる遷移行列が時間とともに進化できるように提案されている。
後続シミュレーションを行うために, 完全共役かつ効率的なギブスサンプリング装置を開発した。
実験により,提案した非定常PGDSは,関連するモデルと比較して予測性能が向上することを示した。
論文 参考訳(メタデータ) (2024-02-26T04:39:01Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z) - Contrastive Conditional Neural Processes [45.70735205041254]
条件付きニューラル・プロセス(CNP)は、メタラーニング環境下でのプロセスの機能に近い確率的推論でニューラルネットワークをブリッジする。
2つの補助的コントラスト分岐が階層的に設定される。すなわち、インストラクテーション時間的コントラスト学習(tt TCL)とクロスストラクテーション関数コントラスト学習(tt FCL)である。
実験により、tt TCLは観測の高レベルの抽象化を捉えるのに対し、tt FCLは基底関数の同定に役立ち、より効率的な表現を提供することを示す。
論文 参考訳(メタデータ) (2022-03-08T10:08:45Z) - Multi-modal Self-supervised Pre-training for Regulatory Genome Across
Cell Types [75.65676405302105]
我々は、GeneBERTと呼ばれる、多モードかつ自己管理的な方法でゲノムデータを事前学習するための、単純かつ効果的なアプローチを提案する。
我々はATAC-seqデータセットで1700万のゲノム配列でモデルを事前訓練する。
論文 参考訳(メタデータ) (2021-10-11T12:48:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。