論文の概要: Bidirectional Representations Augmented Autoregressive Biological Sequence Generation:Application in De Novo Peptide Sequencing
- arxiv url: http://arxiv.org/abs/2510.08169v1
- Date: Thu, 09 Oct 2025 12:52:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.079988
- Title: Bidirectional Representations Augmented Autoregressive Biological Sequence Generation:Application in De Novo Peptide Sequencing
- Title(参考訳): 自己回帰型生物配列生成による双方向表現:デノボペプチド配列解析への応用
- Authors: Xiang Zhang, Jiaqi Wei, Zijie Qiu, Sheng Xu, Zhi Jin, ZhiQiang Gao, Nanqing Dong, Siqi Sun,
- Abstract要約: 自己回帰(AR)モデルは、全体的な双方向表現を提供するが、生成的コヒーレンスとスケーラビリティに関する課題に直面している。
非自己回帰機構からリッチなコンテキスト情報を動的に統合することにより、AR生成を向上するハイブリッドフレームワークを提案する。
新しいクロスデコーダアテンションモジュールにより、ARデコーダは、これらの双方向機能を反復的にクエリし、統合することができる。
- 参考スコア(独自算出の注目度): 51.12821379640881
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive (AR) models, common in sequence generation, are limited in many biological tasks such as de novo peptide sequencing and protein modeling by their unidirectional nature, failing to capture crucial global bidirectional token dependencies. Non-Autoregressive (NAR) models offer holistic, bidirectional representations but face challenges with generative coherence and scalability. To transcend this, we propose a hybrid framework enhancing AR generation by dynamically integrating rich contextual information from non-autoregressive mechanisms. Our approach couples a shared input encoder with two decoders: a non-autoregressive one learning latent bidirectional biological features, and an AR decoder synthesizing the biological sequence by leveraging these bidirectional features. A novel cross-decoder attention module enables the AR decoder to iteratively query and integrate these bidirectional features, enriching its predictions. This synergy is cultivated via a tailored training strategy with importance annealing for balanced objectives and cross-decoder gradient blocking for stable, focused learning. Evaluations on a demanding nine-species benchmark of de novo peptide sequencing show that our model substantially surpasses AR and NAR baselines. It uniquely harmonizes AR stability with NAR contextual awareness, delivering robust, superior performance on diverse downstream data. This research advances biological sequence modeling techniques and contributes a novel architectural paradigm for augmenting AR models with enhanced bidirectional understanding for complex sequence generation. Code is available at https://github.com/BEAM-Labs/denovo.
- Abstract(参考訳): 自己回帰(AR)モデルは、配列生成で一般的なもので、デノボペプチドシークエンシングやタンパク質モデリングなどの多くの生物学的タスクにおいて、その一方向の性質によって制限されており、重要なグローバルな双方向トークン依存性を捉えることができない。
非自己回帰(NAR)モデルは、全体的な双方向表現を提供するが、生成的コヒーレンスとスケーラビリティの課題に直面している。
これを実現するために,非自己回帰機構からリッチなコンテキスト情報を動的に統合することにより,AR生成を向上するハイブリッドフレームワークを提案する。
提案手法では,2つのデコーダを共用する共用入力エンコーダを,非自己回帰的な2方向生物学的特徴の学習と,これら2方向的特徴の活用により生体配列を合成するARデコーダを結合する。
新しいクロスデコーダアテンションモジュールにより、ARデコーダは、これらの双方向機能の反復的なクエリと統合が可能になり、予測が強化される。
このシナジーは、バランスの取れた目的に対する重要アニールと、安定した集中学習のためのクロスデコーダ勾配ブロッキングを備えた、調整されたトレーニング戦略によって栽培される。
デノボペプチドシークエンシング(de novo peptide sequencing)を要求される9種ベンチマークで評価した結果,本モデルがARおよびNARベースラインを大幅に上回っていることが明らかとなった。
NARコンテキスト認識とAR安定性を一意に調和させ、さまざまな下流データに対して堅牢で優れたパフォーマンスを提供する。
本研究は, 生物配列モデリング手法を進歩させ, 複雑な配列生成のための双方向理解を増強したARモデルの拡張のための新しいアーキテクチャパラダイムに寄与する。
コードはhttps://github.com/BEAM-Labs/denovoで入手できる。
関連論文リスト
- IAR2: Improving Autoregressive Visual Generation with Semantic-Detail Associated Token Prediction [77.06211178777939]
IAR2は、階層的なセマンティックディーテール合成プロセスを可能にする高度な自己回帰フレームワークである。
我々は、IAR2が自動回帰画像生成のための新しい最先端技術を設定し、ImageNet上で1.50のFIDを達成することを示す。
論文 参考訳(メタデータ) (2025-10-08T12:08:21Z) - CAME-AB: Cross-Modality Attention with Mixture-of-Experts for Antibody Binding Site Prediction [9.316793780511917]
bfCAME-ABは、抗体結合部位の予測のための新しいクロスモダリティアテンションフレームワークである。
生の酸コード、BLOSUM置換プロファイル、事前訓練された言語モデル埋め込み、構造認識機能、生化学グラフを統合している。
これは、Precision、Recall、F1スコア、AUC-ROC、MCCなど、複数のメトリクスの強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2025-09-08T09:24:09Z) - Integrating Dynamical Systems Learning with Foundational Models: A Meta-Evolutionary AI Framework for Clinical Trials [0.0]
NetraAIは、小さな臨床試験データセットの安定性と解釈性のために設計されたシステムベースのフレームワークである。
我々はNetraAIの基礎を定式化し、収縮マッピング、情報幾何学、進化的アルゴリズムを組み合わせて予測的患者コホートを同定する。
信頼できる説明可能な知識を優先することによって、NetraAIは、臨床発見を加速するために、適応的で自己反射的なAIの新しい世代を提供する。
論文 参考訳(メタデータ) (2025-05-25T03:34:33Z) - UniGenX: a unified generative foundation model that couples sequence, structure and function to accelerate scientific design across proteins, molecules and materials [62.72989417755985]
自然系における関数の統一生成モデルUniGenXを提案する。
UniGenXはシンボルトークンと数値トークンの混合ストリームとして異種入力を表す。
ドメイン間のファンクション・アウェア・ジェネレーションに対して、最先端または競合的なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-09T16:43:07Z) - STAR: Synthesis of Tailored Architectures [61.080157488857516]
本稿では, 適合型アーキテクチャ (STAR) の新規な合成手法を提案する。
提案手法は線形入力可変系の理論に基づく新しい探索空間を結合し,階層的な数値エンコーディングをアーキテクチャゲノムに支持する。STARゲノムは,複数のモデル品質と効率の指標に最適化するために,勾配のない進化的アルゴリズムで自動的に精製・組換えされる。
STARを用いて、多種多様な計算単位と相互接続パターンを活用し、品質、パラメータサイズ、および自動回帰言語モデリングのための推論キャッシュのフロンティアにおける高度に最適化されたトランスフォーマーとストライプハイブリッドモデルを改善する。
論文 参考訳(メタデータ) (2024-11-26T18:42:42Z) - OneProt: Towards Multi-Modal Protein Foundation Models [5.440531199006399]
我々は、構造、シーケンス、テキスト、結合サイトデータを統合したタンパク質のためのマルチモーダルAIであるOneProtを紹介する。
ImageBindフレームワークを使用して、OneProtは軽量な微調整方式でタンパク質モダリティエンコーダの潜在空間を整列する。
この研究はマルチモーダルタンパク質モデルの地平線を広げ、薬物発見、生物触媒反応計画、タンパク質工学における変革的応用の道を開く。
論文 参考訳(メタデータ) (2024-11-07T16:54:54Z) - CycleIK: Neuro-inspired Inverse Kinematics [12.29529468290859]
CycleIKは、逆運動学(Inverse Kiinematics, IK)タスクのための2つの新しい神経誘発手法をラップする神経ロボティックアプローチである。
我々は、これらをハイブリッド神経遺伝IKパイプラインに組み込むことによって、さらなる最適化を実現する方法を示す。
論文 参考訳(メタデータ) (2023-07-21T13:03:27Z) - AutoBERT-Zero: Evolving BERT Backbone from Scratch [94.89102524181986]
そこで本稿では,提案するハイブリッドバックボーンアーキテクチャを自動検索するOP-NASアルゴリズムを提案する。
提案するOP-NASの効率を向上させるために,探索アルゴリズムと候補モデルの評価を最適化する。
実験の結果、検索されたアーキテクチャ(AutoBERT-Zero)は、様々な下流タスクにおいてBERTとそのバリエーションの異なるモデル容量を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-07-15T16:46:01Z) - Automated and Formal Synthesis of Neural Barrier Certificates for
Dynamical Models [70.70479436076238]
バリア証明書(BC)の自動的,形式的,反例に基づく合成手法を提案する。
このアプローチは、ニューラルネットワークとして構造化されたBCの候補を操作する誘導的フレームワークと、その候補の有効性を認証するか、反例を生成する音検証器によって支えられている。
その結果,音のBCsを最大2桁の速度で合成できることがわかった。
論文 参考訳(メタデータ) (2020-07-07T07:39:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。