Fugu-MT 論文翻訳(概要): Caduceus: Bi-Directional Equivariant Long-Range DNA Sequence Modeling

論文の概要: Caduceus: Bi-Directional Equivariant Long-Range DNA Sequence Modeling

arxiv url: http://arxiv.org/abs/2403.03234v1
Date: Tue, 5 Mar 2024 01:42:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-07 17:15:31.742278
Title: Caduceus: Bi-Directional Equivariant Long-Range DNA Sequence Modeling
Title（参考訳）: Caduceus: 双方向等価長鎖DNA配列モデリング
Authors: Yair Schiff, Chia-Hsiang Kao, Aaron Gokaslan, Tri Dao, Albert Gu, and Volodymyr Kuleshov
Abstract要約: 長範囲のトークン相互作用、ゲノムの上流および下流領域の影響、およびDNAの逆相補性について研究した。本稿では,長距離マンバブロックから構築したこれらの課題を動機とするアーキテクチャを提案する。 RC同種二方向長範囲DNA言語モデルの最初のファミリーであるCaduceusの基盤として,MambaDNAを使用している。
参考スコア（独自算出の注目度）: 36.37643634126816
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large-scale sequence modeling has sparked rapid advances that now extend into biology and genomics. However, modeling genomic sequences introduces challenges such as the need to model long-range token interactions, the effects of upstream and downstream regions of the genome, and the reverse complementarity (RC) of DNA. Here, we propose an architecture motivated by these challenges that builds off the long-range Mamba block, and extends it to a BiMamba component that supports bi-directionality, and to a MambaDNA block that additionally supports RC equivariance. We use MambaDNA as the basis of Caduceus, the first family of RC equivariant bi-directional long-range DNA language models, and we introduce pre-training and fine-tuning strategies that yield Caduceus DNA foundation models. Caduceus outperforms previous long-range models on downstream benchmarks; on a challenging long-range variant effect prediction task, Caduceus exceeds the performance of 10x larger models that do not leverage bi-directionality or equivariance.
Abstract（参考訳）: 大規模シーケンスモデリングが急速に進歩し、生物学やゲノム工学に発展した。しかし、ゲノム配列のモデリングは、長距離トークン相互作用のモデル化の必要性、ゲノムの上流および下流領域の影響、DNAの逆相補性(RC)といった課題をもたらす。本稿では, 長距離mambaブロックを構築し, 双方向性をサポートするbimambaコンポーネントとrc等分散をサポートするmambadnaブロックに拡張する, これらの課題に動機付けられたアーキテクチャを提案する。 RC同種二方向長鎖DNA言語モデルの最初のファミリーであるCaduceusの基盤としてMambaDNAを使用し、CaduceusのDNA基盤モデルを生成する事前学習および微調整戦略を導入する。 Caduceusは、ダウンストリームベンチマークで以前の長距離モデルよりも優れており、挑戦的な長距離変動効果予測タスクでは、双方向性や等分散を生かさない10倍の大きなモデルの性能を上回っている。

関連論文リスト

PlantBiMoE: A Bidirectional Foundation Model with SparseMoE for Plant Genomes [9.805758991551043]
PlantBiMoEは軽量で表現力豊かな植物ゲノム言語モデルである。双方向のMambaとSparse Mixture-of-Expertsフレームワークを統合している。
論文参考訳（メタデータ） (2025-12-08T02:51:46Z)
Bidirectional Representations Augmented Autoregressive Biological Sequence Generation:Application in De Novo Peptide Sequencing [51.12821379640881]
自己回帰(AR)モデルは、全体的な双方向表現を提供するが、生成的コヒーレンスとスケーラビリティに関する課題に直面している。非自己回帰機構からリッチなコンテキスト情報を動的に統合することにより、AR生成を向上するハイブリッドフレームワークを提案する。新しいクロスデコーダアテンションモジュールにより、ARデコーダは、これらの双方向機能を反復的にクエリし、統合することができる。
論文参考訳（メタデータ） (2025-10-09T12:52:55Z)
Fusing Sequence Motifs and Pan-Genomic Features: Antimicrobial Resistance Prediction using an Explainable Lightweight 1D CNN-XGBoost Ensemble [0.0]
抗微生物抵抗性(AMR)は、急速に拡大する世界的な健康危機である。標準的な機械学習モデルは、ゲノムを秩序のない機能のコレクションとして扱う。本稿では,シーケンスベースと特徴ベース学習を組み合わせたアンサンブルフレームワークであるAMR-EnsembleNetを提案する。
論文参考訳（メタデータ） (2025-09-28T01:19:11Z)
eccDNAMamba: A Pre-Trained Model for Ultra-Long eccDNA Sequence Analysis [5.86106644437914]
染色体外環状DNA(eccDNA)は重要な調節因子であり、癌における癌遺伝子過剰発現に寄与する。現在、トレーニング済みのモデルでは、下流分析のためにフル長の円形eccDNAをサポートしていない。 eccDNAMambaは、円形DNA配列に調整された最初の双方向状態空間エンコーダである。
論文参考訳（メタデータ） (2025-06-22T17:50:57Z)
Mamba-Driven Topology Fusion for Monocular 3-D Human Pose Estimation [32.185238802221576]
最近、Mambaモデルは計算オーバーヘッドを大幅に減らした。 SSMのシーケンシャルデータ処理能力は、位相構造を持つ3次元ジョイントシーケンスには適していない。我々はこれらの問題に対処するMamba-Driven Topology Fusionフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-27T01:21:57Z)
JanusDNA: A Powerful Bi-directional Hybrid DNA Foundation Model [1.6128508494592848]
大規模言語モデル(LLM)は自然言語処理に革命をもたらし、他のシーケンシャルなデータタイプにもますます適用されてきている。我々は、新しい事前学習パラダイムに基づいて構築された、最初の双方向DNA基盤モデルであるJanusDNAを紹介する。 JanusDNAは、1つの80GB GPU上で1つのヌクレオチド分解能で100万塩基対を処理する。
論文参考訳（メタデータ） (2025-05-22T20:10:55Z)
Bidirectional Mamba for Single-Cell Data: Efficient Context Learning with Biological Fidelity [0.39945675027960637]
我々は、状態空間モデリングに基づいて構築された単一セル転写学のスケーラブルで効率的な基礎モデルであるGeneMambaを紹介した。 GeneMambaは、双方向の遺伝子コンテキストを線形時間複雑性でキャプチャし、トランスフォーマーベースラインよりもかなりの計算的ゲインを提供する。我々は、マルチバッチ統合、細胞型アノテーション、遺伝子-遺伝子相関など様々なタスクにまたがってGeneMambaを評価し、高い性能、解釈可能性、堅牢性を示す。
論文参考訳（メタデータ） (2025-04-22T20:34:47Z)
Gene42: Long-Range Genomic Foundation Model With Dense Attention [39.22636278244394]
ゲノム基盤モデル(GFM)の新規ファミリーであるGene42を紹介する。 Gene42モデルはデコーダのみのアーキテクチャ(LLaMAスタイル)と密集した自己認識機構を使用している。 Gene42は、ゲノム学においてこのような長いコンテキスト長を扱うことができる最初の高密度アテンションモデルである。
論文参考訳（メタデータ） (2025-03-20T07:10:04Z)
UniGenX: Unified Generation of Sequence and Structure with Autoregressive Diffusion [61.690978792873196]
既存のアプローチは自己回帰シーケンスモデルか拡散モデルのいずれかに依存している。自己回帰的次トーケン予測と条件拡散モデルを組み合わせた統合フレームワークUniGenXを提案する。材料および小分子生成タスクにおけるUniGenXの有効性を検証する。
論文参考訳（メタデータ） (2025-03-09T16:43:07Z)
Primer C-VAE: An interpretable deep learning primer design method to detect emerging virus variants [0.5821597945324924]
畳み込みニューラルネットワークを用いた変分自動エンコーダフレームワークに基づくモデルであるPrimer C-VAEを開発した。 SARS-CoV-2を用いて98%の精度で変異を分類し,変異特異的プライマーを作成した。このモデルはまた、E. coli や Shigella flexneri のようなより長い遺伝子配列を持つ生物のための効果的なプライマーも生成した。
論文参考訳（メタデータ） (2025-03-03T12:17:19Z)
GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。 DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文参考訳（メタデータ） (2025-02-11T05:39:49Z)
Manta: Enhancing Mamba for Few-Shot Action Recognition of Long Sub-Sequence [33.38031167119682]
数ショットのアクション認識では、ビデオの長いサブシーケンスは、アクション全体をより効果的に表現する。最近のMambaは、長いシーケンスをモデリングする効率を示すが、MambaをFSARに直接適用することは、局所的な特徴モデリングとアライメントの重要性を見落としている。これらの課題を解決するために,Matryoshka MAmba と CoNtrasTive LeArning フレームワーク (Manta) を提案する。 Mantaは、SSv2、Kineetics、UCF101、HMDB51などの著名なベンチマークで、最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-12-10T13:03:42Z)
dnaGrinder: a lightweight and high-capacity genomic foundation model [11.646351318648499]
現在のゲノム基盤モデルは、しばしば重要なトレードオフに直面している。我々は、ユニークで効率的なゲノム基盤モデルであるdnaGrinderを紹介する。 dnaGrinderはゲノム配列内の長距離依存関係を管理するのに優れ、性能を損なうことなく計算コストを最小化できる。
論文参考訳（メタデータ） (2024-09-24T03:20:07Z)
UU-Mamba: Uncertainty-aware U-Mamba for Cardiovascular Segmentation [26.621625716575746]
本稿では,U-Mambaアーキテクチャの拡張であるU-Mambaモデルを紹介する。 Sharpness-Aware Minimization (SAM) を取り入れたモデルにより、損失景観におけるフラットなミニマをターゲットとした一般化が促進される。我々は、ImageCAS(冠状動脈)とAorta(大動脈枝とゾーン)データセットの新たな試行を行い、より複雑なセグメンテーション課題を提示した。
論文参考訳（メタデータ） (2024-09-22T03:22:06Z)
Bidirectional Gated Mamba for Sequential Recommendation [56.85338055215429]
最近の進歩であるMambaは、時系列予測において例外的なパフォーマンスを示した。 SIGMA(Selective Gated Mamba)と呼ばれる,シークエンシャルレコメンデーションのための新しいフレームワークを紹介する。以上の結果から,SIGMAは5つの実世界のデータセットにおいて,現在のモデルよりも優れていたことが示唆された。
論文参考訳（メタデータ） (2024-08-21T09:12:59Z)
Mamba as Decision Maker: Exploring Multi-scale Sequence Modeling in Offline Reinforcement Learning [16.23977055134524]
我々はMamba Decision Maker (MambaDM) という新しいアクション予測手法を提案する。 MambaDMは、マルチスケール依存関係の効率的なモデリングのため、シーケンスモデリングのパラダイムの有望な代替品として期待されている。本稿では,RL領域におけるMambaDMのシーケンスモデリング機能について述べる。
論文参考訳（メタデータ） (2024-06-04T06:49:18Z)
Decomposing the Neurons: Activation Sparsity via Mixture of Experts for Continual Test Time Adaptation [37.79819260918366]
継続的なテスト時間適応(CTTA)は、トレーニング済みのモデルを進化し続けるターゲットドメインに適応させることを目的としている。我々はCTTAタスクのアダプタとしてMixture-of-Activation-Sparsity-Experts (MoASE)の統合について検討する。
論文参考訳（メタデータ） (2024-05-26T08:51:39Z)
ProMamba: Prompt-Mamba for polyp segmentation [12.008624337064521]
本稿では,最新のVision-Mambaとプロンプト技術を組み合わせた,Prompt-Mambaに基づくセグメンテーションモデルを提案する。我々は、最初にビジョン・マンバアーキテクチャをポリプセグメンテーションに適用し、最初にポリプセグメンテーションモデルでプロンプト技術を利用する。本モデルでは,6つのデータセットに対して,従来の最先端手法を平均5%上回るセグメンテーションタスクを効率的に達成する。
論文参考訳（メタデータ） (2024-03-20T15:08:57Z)
Efficient and Scalable Fine-Tune of Language Models for Genome Understanding [49.606093223945734]
textscLanguage prefix ftextscIne-tuning for textscGentextscOmes。 DNA基盤モデルとは異なり、textscLingoは自然言語基盤モデルの文脈的手がかりを戦略的に活用している。 textscLingoはさらに、適応的なランクサンプリング方法により、下流の細調整タスクを数多く許容する。
論文参考訳（メタデータ） (2024-02-12T21:40:45Z)
Swin-UMamba: Mamba-based UNet with ImageNet-based pretraining [85.08169822181685]
本稿では,医療画像のセグメンテーションに特化して設計された新しいマンバモデルSwin-UMambaを紹介する。 Swin-UMamba は CNN や ViT,最新の Mamba ベースのモデルと比較して,優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2024-02-05T18:58:11Z)
Heterogeneous Multi-Task Gaussian Cox Processes [61.67344039414193]
異種相関タスクを共同でモデル化するためのマルチタスクガウスコックスプロセスの新たな拡張を提案する。 MOGPは、分類、回帰、ポイントプロセスタスクの専用可能性のパラメータに先行して、異種タスク間の情報の共有を容易にする。モデルパラメータを推定するための閉形式反復更新を実現する平均場近似を導出する。
論文参考訳（メタデータ） (2023-08-29T15:01:01Z)
HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide Resolution [76.97231739317259]
本稿では,ヒト参照ゲノム上に,最大100万個のトークンを単一ヌクレオチドレベルで有するゲノム基盤モデルであるHyenaDNAについて紹介する。 Nucleotide Transformerの微調整されたベンチマークでは、HyenaDNAが18のデータセットのうち12の最先端(SotA)に到達した。
論文参考訳（メタデータ） (2023-06-27T20:46:34Z)
Benchmarking Machine Learning Robustness in Covid-19 Genome Sequence Classification [109.81283748940696]
我々は、IlluminaやPacBioといった一般的なシークエンシングプラットフォームのエラープロファイルを模倣するために、SARS-CoV-2ゲノム配列を摂動する方法をいくつか紹介する。シミュレーションに基づくいくつかのアプローチは、入力シーケンスに対する特定の敵攻撃に対する特定の埋め込み手法に対して、他の手法よりも堅牢(かつ正確)であることを示す。
論文参考訳（メタデータ） (2022-07-18T19:16:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。