論文の概要: SpecMER: Fast Protein Generation with K-mer Guided Speculative Decoding
- arxiv url: http://arxiv.org/abs/2509.21689v1
- Date: Thu, 25 Sep 2025 23:26:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.072381
- Title: SpecMER: Fast Protein Generation with K-mer Guided Speculative Decoding
- Title(参考訳): SpecMER: K-mer Guided Speculative Decodingによる高速タンパク質生成
- Authors: Thomas Walton, Darin Tsui, Aryan Musharaf, Amirali Aghazadeh,
- Abstract要約: SpecMER (Speculative Decoding via k-mer Guidance) は、生物学的、構造的、機能的な事前を組み込んだ新しいフレームワークである。
通常の自己回帰復号よりも24~32%のスピードアップを実現し、高い受容率と改善されたシーケンス確率を実現している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive models have transformed protein engineering by enabling the generation of novel protein sequences beyond those found in nature. However, their sequential inference introduces significant latency, limiting their utility in high-throughput protein screening. Speculative decoding accelerates generation by employing a lightweight draft model to sample tokens, which a larger target model then verifies and refines. Yet, in protein sequence generation, draft models are typically agnostic to the structural and functional constraints of the target protein, leading to biologically implausible outputs and a shift in the likelihood distribution of generated sequences. We introduce SpecMER (Speculative Decoding via k-mer Guidance), a novel framework that incorporates biological, structural, and functional priors using k-mer motifs extracted from multiple sequence alignments. By scoring candidate sequences in parallel and selecting those most consistent with known biological patterns, SpecMER significantly improves sequence plausibility while retaining the efficiency of speculative decoding. SpecMER achieves 24-32% speedup over standard autoregressive decoding, along with higher acceptance rates and improved sequence likelihoods.
- Abstract(参考訳): 自己回帰モデルは、自然界で見られる以上の新しいタンパク質配列の生成を可能にすることによって、タンパク質工学を変革した。
しかし、それらのシーケンシャル推論は大きな遅延をもたらし、高スループットタンパク質スクリーニングにおける有用性を制限している。
投機的復号化は、トークンをサンプリングするために軽量のドラフトモデルを使用することで生成を加速する。
しかし、タンパク質配列生成において、ドラフトモデルは典型的には標的タンパク質の構造的および機能的制約に依存せず、生物学的に予測できない出力と生成された配列の確率分布の変化をもたらす。
複数の配列アライメントから抽出されたk-merモチーフを用いて、生物学的、構造的、機能的事前を組み込んだ新しいフレームワークであるSpecMER(Speculative Decoding via k-mer Guidance)を紹介する。
候補配列を並列にスコアし、既知の生物学的パターンと最も整合した配列を選択することで、SpecMERは投機的復号の効率を保ちながら、配列の妥当性を著しく向上する。
SpecMERは、標準の自己回帰デコードよりも24~32%のスピードアップを実現し、高い受け入れ率と改善されたシーケンス確率を実現している。
関連論文リスト
- Guide your favorite protein sequence generative model [1.5914835340090132]
本稿では,タンパク質生成モデル構築のための原理的,汎用的な方法であるProteinGuideについて述べる。
本稿では,2つのタンパク質生成モデルであるProteinMPNNとESM3を誘導し,アミノ酸および構造トークン配列を生成することにより,ProteinGuideの適用性を示す。
また,逆折り畳みモデルを用いたProteinGuideと,アデニン塩基配列を高活性に設計する実験を行った。
論文 参考訳(メタデータ) (2025-05-07T21:56:50Z) - Regulatory DNA sequence Design with Reinforcement Learning [56.20290878358356]
本稿では,強化学習を利用して事前学習した自己回帰モデルを微調整する生成手法を提案する。
2つの酵母培地条件下でのプロモーター設計タスクの評価と,3種類のヒト細胞に対するエンハンサー設計タスクの評価を行った。
論文 参考訳(メタデータ) (2025-03-11T02:33:33Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - Diffusion Language Models Are Versatile Protein Learners [75.98083311705182]
本稿では,タンパク質配列の強い生成および予測能力を示す多目的なタンパク質言語モデルである拡散タンパク質言語モデル(DPLM)を紹介する。
まず, 自己制御型離散拡散確率フレームワークを用いて, 進化的タンパク質配列からのスケーラブルDPLMの事前学習を行った。
プレトレーニング後、DPLMは非条件生成のための構造的に可塑性で新規で多様なタンパク質配列を生成する能力を示す。
論文 参考訳(メタデータ) (2024-02-28T18:57:56Z) - Reprogramming Pretrained Language Models for Antibody Sequence Infilling [72.13295049594585]
抗体の計算設計には、構造的一貫性を維持しながら、新規で多様な配列を生成することが含まれる。
近年のディープラーニングモデルでは優れた結果が得られたが、既知の抗体配列/構造対の数が限られているため、性能が劣化することが多い。
これは、ソース言語でトレーニング済みのモデルを再利用して、異なる言語で、データが少ないタスクに適応するものです。
論文 参考訳(メタデータ) (2022-10-05T20:44:55Z) - Unsupervisedly Prompting AlphaFold2 for Few-Shot Learning of Accurate
Folding Landscape and Protein Structure Prediction [28.630603355510324]
そこで我々は,メタ生成モデルであるEvoGenを提案し,貧弱なMSAターゲットに対するAlphaFold2のアンダーパフォーマンスを改善する。
EvoGenは、キャリブレーションまたは実質的に生成されたホモログシーケンスでモデルにプロンプトすることで、AlphaFold2を低データで正確に折り畳むのに役立つ。
論文 参考訳(メタデータ) (2022-08-20T10:23:17Z) - Diversifying Design of Nucleic Acid Aptamers Using Unsupervised Machine
Learning [54.247560894146105]
短い一本鎖RNAとDNA配列(アプタマー)の逆設計は、一連の望ましい基準を満たす配列を見つけるタスクである。
我々は、Pottsモデルとして知られる教師なし機械学習モデルを用いて、制御可能なシーケンスの多様性を持つ新しい有用なシーケンスを発見することを提案する。
論文 参考訳(メタデータ) (2022-08-10T13:30:58Z) - Generative power of a protein language model trained on multiple
sequence alignments [0.5639904484784126]
進化に関連したタンパク質配列の大規模なアンサンブルから始まる計算モデルは、タンパク質ファミリーの表現を捉えている。
MSA Transformerのような複数の配列アライメントに基づいて訓練されたタンパク質言語モデルは、この目的に対して非常に魅力的な候補である。
マスク付き言語モデリングの目的を直接利用して,MSA変換器を用いてシーケンスを生成する反復手法を提案し,検証する。
論文 参考訳(メタデータ) (2022-04-14T16:59:05Z) - Guided Generative Protein Design using Regularized Transformers [5.425399390255931]
本稿では,シーケンス生成と適合性の予測を共同で行うディープトランスを用いたオートエンコーダであるReleularized Latent Space Optimization (ReLSO)を紹介する。
大規模ラベル付きデータセットの基本的なシーケンス関数のランドスケープを明示的にモデル化し,勾配に基づく手法を用いて潜在空間内を最適化する。
論文 参考訳(メタデータ) (2022-01-24T20:55:53Z) - Fast differentiable DNA and protein sequence optimization for molecular
design [0.0]
シークエンスから生物学的適合性を正確に予測する機械学習モデルは、分子設計の強力なツールになりつつある。
そこで本研究では,従来提案されていたストレートスルー近似法を用いて,離散シーケンスサンプルを最適化する。
私たちがFast SeqPropPropと呼ぶ結果のアルゴリズムは、以前のバージョンに比べて最大100倍の高速収束を実現している。
論文 参考訳(メタデータ) (2020-05-22T17:03:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。