論文の概要: Property-driven Protein Inverse Folding With Multi-Objective Preference Alignment
- arxiv url: http://arxiv.org/abs/2603.06748v2
- Date: Tue, 10 Mar 2026 09:33:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 12:59:12.945888
- Title: Property-driven Protein Inverse Folding With Multi-Objective Preference Alignment
- Title(参考訳): 多目的選好アライメントを用いた特性駆動型タンパク質逆フォールディング
- Authors: Xiaoyang Hou, Junqi Liu, Chence Shi, Xin Liu, Zhi Yang, Jian Tang,
- Abstract要約: タンパク質配列設計は、ターゲットのバックボーンを回復する能力として定義される設計可能性のバランスをとる必要がある。
既存のアプローチでは、これらの性質をポストホック突然変異、推論時間偏見、またはプロパティ固有のサブセットで再訓練することで解決している。
ProtAlignは,多様な開発目標を満たすために,逆折り畳みモデルを微調整する多目的優先アライメントフレームワークである。
- 参考スコア(独自算出の注目度): 19.34182674159143
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Protein sequence design must balance designability, defined as the ability to recover a target backbone, with multiple, often competing, developability properties such as solubility, thermostability, and expression. Existing approaches address these properties through post hoc mutation, inference-time biasing, or retraining on property-specific subsets, yet they are target dependent and demand substantial domain expertise or careful hyperparameter tuning. In this paper, we introduce ProtAlign, a multi-objective preference alignment framework that fine-tunes pretrained inverse folding models to satisfy diverse developability objectives while preserving structural fidelity. ProtAlign employs a semi-online Direct Preference Optimization strategy with a flexible preference margin to mitigate conflicts among competing objectives and constructs preference pairs using in silico property predictors. Applied to the widely used ProteinMPNN backbone, the resulting model MoMPNN enhances developability without compromising designability across tasks including sequence design for CATH 4.3 crystal structures, de novo generated backbones, and real-world binder design scenarios, making it an appealing framework for practical protein sequence design.
- Abstract(参考訳): タンパク質配列設計は、標的のバックボーンを回復する能力として定義された設計可能性と、可溶性、熱安定性、表現などの開発可能性特性のバランスをとる必要がある。
既存のアプローチは、これらの特性に、ポストホック突然変異、推論時バイアス、またはプロパティ固有のサブセットの再トレーニングを通じて対処するが、それらはターゲット依存であり、相当なドメインの専門知識や注意深いハイパーパラメータチューニングを必要とする。
本稿では,多目的優先アライメントフレームワークであるProtAlignを紹介する。このフレームワークは,構造的忠実性を維持しつつ,多様な開発目標を満たすために,逆折り畳みモデルを微調整する。
ProtAlignは、競合する目的間の衝突を緩和し、シリコ特性予測器を用いた選好ペアを構築するために、フレキシブルな選好マージンを持つ半オンライン直接選好最適化戦略を採用している。
広く使われているプロテインMPNNのバックボーンに適用すると、MOMPNNはCATH 4.3結晶構造のためのシーケンス設計、デノボ生成したバックボーン、現実世界のバインダー設計シナリオなど、設計性を損なうことなく開発性を向上させる。
関連論文リスト
- Rigidity-Aware Geometric Pretraining for Protein Design and Conformational Ensembles [74.32932832937618]
我々は、微調整の前に幾何学学習を前もってロードする幾何学事前学習フレームワークであるtextbfRigidSSL$(textitRigidity-Aware Self-Supervised Learning$)を紹介した。
フェーズI(RigidSSL-Perturb)は、AlphaFoldタンパク質構造データベースから432K構造から、シミュレートされた摂動を持つ幾何学的先行を学習する。
フェーズII(RigidSSL-MD)は、1.3K分子動力学軌道上のこれらの表現を洗練し、物理的に現実的な遷移を捉える。
論文 参考訳(メタデータ) (2026-03-02T21:32:30Z) - Efficient Protein Optimization via Structure-aware Hamiltonian Dynamics [16.336540408998598]
HADESはハミルトニアン力学を利用したベイズ最適化法であり、構造対応の近似後部から効率的にサンプリングする。
このような連続状態系から離散的なタンパク質配列を提案するために、位置離散化手順を導入する。
実験により,本手法はシリコン内評価において最先端のベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2026-01-16T05:53:53Z) - Swarms of Large Language Model Agents for Protein Sequence Design with Experimental Validation [0.9332987715848714]
大規模言語モデル(LLM)エージェントは並列に動作し、それぞれ特定の残基位置に割り当てられる。
この位置的、非集中的な調整は、多様で明確に定義されたシーケンスの創発的設計を可能にする。
提案手法は,数時間以内に効率よく客観的な設計を実現し,微調整や特殊訓練を行なわずに完全に動作させる。
論文 参考訳(メタデータ) (2025-11-27T10:42:52Z) - ProteinAE: Protein Diffusion Autoencoders for Structure Encoding [64.77182442408254]
本稿では,新規かつ合理化されたタンパク質拡散オートエンコーダであるProteinAEを紹介する。
プロテインAEは、タンパク質のバックボーン座標を直接E(3)から連続的でコンパクトな潜在空間にマッピングする。
本研究では,既存のオートエンコーダよりも優れた,最先端の再構築品質を実現することを実証する。
論文 参考訳(メタデータ) (2025-10-12T14:30:32Z) - PRISM: Enhancing Protein Inverse Folding through Fine-Grained Retrieval on Structure-Sequence Multimodal Representations [42.870409939729974]
逆フォールディングのための多モーダル検索拡張生成フレームワークであるPRISMを提案する。
既知のタンパク質から潜在的なモチーフの微細な表現を回収し、それらをハイブリッドなセルフクロスアテンションデコーダと統合する。
PRISMは、パープレキシティとアミノ酸の回収の両方において新しい技術状態を確立し、フォールドビリティの指標も改善した。
論文 参考訳(メタデータ) (2025-10-12T00:45:22Z) - Improving Protein Sequence Design through Designability Preference Optimization [22.037870784317885]
我々は、高い設計性に向けてシーケンス生成を操ることで、トレーニング目標を再定義する。
ResiDPO(Residue-level Designability Preference Optimization)を導入する。
これにより、すでにうまく機能している領域を保存しながら、設計性を直接改善することができる。
論文 参考訳(メタデータ) (2025-05-30T23:02:51Z) - UniGenX: a unified generative foundation model that couples sequence, structure and function to accelerate scientific design across proteins, molecules and materials [62.72989417755985]
自然系における関数の統一生成モデルUniGenXを提案する。
UniGenXはシンボルトークンと数値トークンの混合ストリームとして異種入力を表す。
ドメイン間のファンクション・アウェア・ジェネレーションに対して、最先端または競合的なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-09T16:43:07Z) - A Model-Centric Review of Deep Learning for Protein Design [0.0]
ディープラーニングはタンパク質設計を変換し、正確な構造予測、シーケンス最適化、de novoタンパク質生成を可能にした。
ProtGPT2、ProteinMPNN、RFdiffusionなどの生成モデルは、自然進化に基づく制限を超えてシーケンスとバックボーンの設計を可能にした。
最近では、ESM3を含む共同シーケンス構造共設計モデルが両方のモダリティを統一されたフレームワークに統合し、設計性が向上した。
論文 参考訳(メタデータ) (2025-02-26T14:31:21Z) - DecompOpt: Controllable and Decomposed Diffusion Models for Structure-based Molecular Optimization [49.85944390503957]
DecompOptは、制御可能・拡散モデルに基づく構造に基づく分子最適化手法である。
DecompOptは強いde novoベースラインよりも優れた特性を持つ分子を効率よく生成できることを示す。
論文 参考訳(メタデータ) (2024-03-07T02:53:40Z) - Robust Model-Based Optimization for Challenging Fitness Landscapes [96.63655543085258]
タンパク質の設計には、フィットネスのランドスケープの最適化が含まれる。
指導法は, トレーニングセットにおける高適合度サンプルの多彩さに課題を呈する。
デザイン空間における「分離」というこの問題は、既存のモデルベース最適化ツールにおいて重大なボトルネックとなっていることを示す。
本稿では,新しいVAEを検索モデルとして利用して問題を克服する手法を提案する。
論文 参考訳(メタデータ) (2023-05-23T03:47:32Z) - A Pareto-optimal compositional energy-based model for sampling and
optimization of protein sequences [55.25331349436895]
深層生成モデルは、生命科学における逆問題に対する一般的な機械学習ベースのアプローチとして登場した。
これらの問題は、データ分布の学習に加えて、興味のある複数の特性を満たす新しい設計をサンプリングする必要があることが多い。
論文 参考訳(メタデータ) (2022-10-19T19:04:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。