論文の概要: ProteinOPD: Towards Effective and Efficient Preference Alignment for Protein Design
- arxiv url: http://arxiv.org/abs/2605.10189v1
- Date: Mon, 11 May 2026 08:38:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.655838
- Title: ProteinOPD: Towards Effective and Efficient Preference Alignment for Protein Design
- Title(参考訳): ProteinOPD:タンパク質設計のための効率的かつ効率的な選好アライメントを目指して
- Authors: Yulin Zhang, He Cao, Zihao Jiang, Chenyi Zi, Zhipeng Zhou, Zijing Liu, Yu Li, Jia Li, Ziqi Gao,
- Abstract要約: 望ましい機能や性質を持つデザイナタンパク質は、合成生物学と薬物発見における中核的な目標である。
タンパク質言語モデル(PLM)の最近の進歩は、高度に設計可能なタンパク質配列の生成を可能にしている。
PLMは、しばしば、事前訓練された知識の破滅的な忘れ込みを引き起こす。
本稿では,多目的選好アライメントフレームワークであるProteinOPDを提案する。
- 参考スコア(独自算出の注目度): 30.966423183343206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Designing proteins with desired functions or properties represents a core goal in synthetic biology and drug discovery. Recent advances in protein language models (PLMs) have enabled the generation of highly designable protein sequences, while preference alignment provides a promising way to steer designs toward desired functions and properties. Nevertheless, they often trigger catastrophic forgetting of pretrained knowledge, degrading basic designability and failing to balance multiple competing objectives. To address these issues, we draw inspiration from On-Policy Distillation (OPD), an advanced post-training method renowned for mitigating catastrophic forgetting through its mode-seeking nature. In this work, we propose ProteinOPD, a multi-objective preference alignment framework that can effectively balance multiple preference objectives while maintaining the inherent designability of PLMs. ProteinOPD adapts a pretrained PLM into preference-specific teachers and distills their knowledge into a shared student via token-level OPD on the student's own trajectories. During this process, the student is aligned to a unique normalized geometric consensus of weighted teachers while ensuring bounded optimization under conflicts. This bridges the gap for OPD in multi-objective/teacher alignment. Extensive experiments show that ProteinOPD achieves substantial gains on target preference objectives without compromising the designability, with an 8x training speedup over RL-based alignment competitors.
- Abstract(参考訳): 所望の機能や性質を持つタンパク質を設計することは、合成生物学と薬物発見における中核的な目標である。
タンパク質言語モデル(PLM)の最近の進歩により、高度に設計可能なタンパク質配列が生成できるようになった。
それでも、それらはしばしば、事前訓練された知識の破滅的な忘れ込み、基本的な設計可能性の低下、そして複数の競合する目標のバランスの取れていないことを引き起こす。
これらの問題に対処するために、我々は、モード探索の性質を通じて破滅的な忘れを緩和することで知られる高度なポストトレーニング方法であるOn-Policy Distillation (OPD) からインスピレーションを得た。
本研究では,PLMの固有設計性を維持しつつ,複数の選好目的を効果的にバランスさせる多目的選好アライメントフレームワークであるProteinOPDを提案する。
ProteinOPDは、事前訓練されたPLMを好みの教師に適応させ、学生自身の軌道上のトークンレベルOPDを介して、知識を共有学生に蒸留する。
この過程で、学生は、対立の下で境界付き最適化を確保しながら、重み付き教師の特異な正規化された幾何学的コンセンサスに順応する。
これは、多目的/教師アライメントにおけるOPDのギャップを埋める。
広範囲な実験により、ProteinOPDは、設計性を損なうことなく、ターゲットの選好目標に対して、RLベースのアライメントコンペティターよりも8倍のトレーニングスピードアップを達成できることが示されている。
関連論文リスト
- Property-driven Protein Inverse Folding With Multi-Objective Preference Alignment [19.34182674159143]
タンパク質配列設計は、ターゲットのバックボーンを回復する能力として定義される設計可能性のバランスをとる必要がある。
既存のアプローチでは、これらの性質をポストホック突然変異、推論時間偏見、またはプロパティ固有のサブセットで再訓練することで解決している。
ProtAlignは,多様な開発目標を満たすために,逆折り畳みモデルを微調整する多目的優先アライメントフレームワークである。
論文 参考訳(メタデータ) (2026-03-06T10:57:51Z) - Rigidity-Aware Geometric Pretraining for Protein Design and Conformational Ensembles [74.32932832937618]
我々は、微調整の前に幾何学学習を前もってロードする幾何学事前学習フレームワークであるtextbfRigidSSL$(textitRigidity-Aware Self-Supervised Learning$)を紹介した。
フェーズI(RigidSSL-Perturb)は、AlphaFoldタンパク質構造データベースから432K構造から、シミュレートされた摂動を持つ幾何学的先行を学習する。
フェーズII(RigidSSL-MD)は、1.3K分子動力学軌道上のこれらの表現を洗練し、物理的に現実的な遷移を捉える。
論文 参考訳(メタデータ) (2026-03-02T21:32:30Z) - Self Distillation Fine-Tuning of Protein Language Models Improves Versatility in Protein Design [61.2846583160056]
Supervised Fine-tuning (SFT) は、大規模言語モデルを特殊なドメインに適応するための標準的なアプローチである。
これは、高品質なアノテートされたデータは、自然言語よりもタンパク質の入手がはるかに難しいためである。
生成したタンパク質配列の忠実度,信頼性,新規性を改善するために設計された,PLMの高速SFTのための簡易かつ汎用的なレシピを提案する。
論文 参考訳(メタデータ) (2025-12-10T05:34:47Z) - ProteinAE: Protein Diffusion Autoencoders for Structure Encoding [64.77182442408254]
本稿では,新規かつ合理化されたタンパク質拡散オートエンコーダであるProteinAEを紹介する。
プロテインAEは、タンパク質のバックボーン座標を直接E(3)から連続的でコンパクトな潜在空間にマッピングする。
本研究では,既存のオートエンコーダよりも優れた,最先端の再構築品質を実現することを実証する。
論文 参考訳(メタデータ) (2025-10-12T14:30:32Z) - Learning from B Cell Evolution: Adaptive Multi-Expert Diffusion for Antibody Design via Online Optimization [4.4987897173449]
本稿では,オンラインメタ学習システムにおける物理に基づくドメイン知識を活用する,生物を動機とする最初のフレームワークを提案する。
提案手法では, 分子認識, エネルギーバランス, 界面形状など, 繰り返しフィードバックに基づいてパラメータが進化する複数の専門的専門家を用いている。
論文 参考訳(メタデータ) (2025-07-25T03:14:34Z) - BInD: Bond and Interaction-generating Diffusion Model for Multi-objective Structure-based Drug Design [0.0]
本稿では,多目的薬物設計のための知識ベースガイダンスを用いた拡散モデルBInDを提案する。
BInDは、分子と標的タンパク質との相互作用を同時に生成し、全ての主要な目的を等しく考慮するよう設計されている。
総合評価では、BInDは全ての目的に対して頑健な性能を達成し、それぞれが最先端の手法よりも優れ、適合していることを示している。
論文 参考訳(メタデータ) (2024-05-27T06:26:55Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering the Language of Protein [74.64101864289572]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - A Hierarchical Training Paradigm for Antibody Structure-sequence
Co-design [54.30457372514873]
抗体配列構造共設計のための階層的訓練パラダイム(HTP)を提案する。
HTPは4段階の訓練段階から構成され、それぞれが特定のタンパク質のモダリティに対応する。
実証実験により、HTPは共同設計問題において新しい最先端性能を設定できることが示されている。
論文 参考訳(メタデータ) (2023-10-30T02:39:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。