論文の概要: Physio-DPO: Aligning Large Language Models with the Protein Energy Landscape to Eliminate Structural Hallucinations
- arxiv url: http://arxiv.org/abs/2601.00647v1
- Date: Fri, 02 Jan 2026 11:16:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.558396
- Title: Physio-DPO: Aligning Large Language Models with the Protein Energy Landscape to Eliminate Structural Hallucinations
- Title(参考訳): 物理DPO:構造的幻覚を除去するタンパク質エネルギーランドスケープを持つ大規模言語モデル
- Authors: QiWei Meng,
- Abstract要約: 本研究では,タンパク質言語モデルに基づく物理情報アライメントフレームワークであるPhylo-DPOを提案する。
実験により、フィロDPOはSFT、PPO、標準DPOなどの強いベースラインを一貫して上回り、自己整合性RMSDは1.28に減少し、折りたたみ性は92.8%向上した。
- 参考スコア(独自算出の注目度): 3.8556611463028023
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Protein Language Models have shown strong potential for generative protein design, yet they frequently produce structural hallucinations, generating sequences with high linguistic likelihood that fold into thermodynamically unstable conformations. Existing alignment approaches such as Direct Preference Optimization are limited in this setting, as they model preferences as binary labels and ignore the continuous structure of the physical energy landscape. We propose Physio-DPO, a physics informed alignment framework that grounds protein language models in thermodynamic stability. Physio-DPO introduces a magnitude aware objective that scales optimization updates according to the energy gap between native structures and physics perturbed hard negatives. Experiments show that Physio-DPO consistently outperforms strong baselines including SFT, PPO, and standard DPO, reducing self consistency RMSD to 1.28 Å and increasing foldability to 92.8%. Qualitative analysis further demonstrates that Physio-DPO effectively mitigates structural hallucinations by recovering biophysical interactions such as hydrophobic core packing and hydrogen bond networks.
- Abstract(参考訳): 大きなタンパク質言語モデルは、生成タンパク質の設計に強い可能性を示しているが、しばしば構造的幻覚を発生させ、熱力学的に不安定なコンフォメーションに折り畳まれる高い言語的可能性を持つ配列を生成する。
直接選好最適化のような既存のアライメントアプローチはこの設定では制限されており、それらは二進ラベルとして好みをモデル化し、物理エネルギーランドスケープの連続的な構造を無視している。
熱力学的安定性にタンパク質言語モデルを利用する物理情報アライメントフレームワークであるPhylo-DPOを提案する。
物理DPOは、自然構造と物理の摂動強相関の間のエネルギーギャップに応じて最適化の更新をスケールする、微妙に意識した目的を導入している。
実験により、フィロDPOはSFT、PPO、標準DPOなどの強力なベースラインを一貫して上回り、自己整合RMSDを1.28 >に減らし、折りたたみ性は92.8%に向上した。
定性的分析により、Phylo-DPOは疎水性コアパッキングや水素結合ネットワークなどの生体物理学的相互作用を回復することにより、構造幻覚を効果的に緩和することが示された。
関連論文リスト
- Self Distillation Fine-Tuning of Protein Language Models Improves Versatility in Protein Design [61.2846583160056]
Supervised Fine-tuning (SFT) は、大規模言語モデルを特殊なドメインに適応するための標準的なアプローチである。
これは、高品質なアノテートされたデータは、自然言語よりもタンパク質の入手がはるかに難しいためである。
生成したタンパク質配列の忠実度,信頼性,新規性を改善するために設計された,PLMの高速SFTのための簡易かつ汎用的なレシピを提案する。
論文 参考訳(メタデータ) (2025-12-10T05:34:47Z) - EPO: Diverse and Realistic Protein Ensemble Generation via Energy Preference Optimization [14.859985641146672]
本稿では,事前学習したタンパク質アンサンブル生成体をエネルギ対応サンプリング器に変換するオンライン改良であるEnergy Preference Optimization (EPO)を提案する。
テトラペプチド、ATLAS、Fast-Foldingベンチマークでは、EPOは多様な物理的に現実的なアンサンブルを生成することに成功した。
論文 参考訳(メタデータ) (2025-11-13T10:25:50Z) - Modeling Membrane Degradation in PEM Electrolyzers with Physics-Informed Neural Networks [45.32169712547367]
プロトン交換膜 (PEM) 電解器は持続可能な水素製造に重要である。
長期的な性能は膜劣化によって妨げられ、信頼性と安全性の課題を引き起こす。
従来の物理学に基づくモデルが開発され、解釈可能性を提供しているが、測定や校正が難しい多くのパラメータを必要とする。
本研究では,PEM電解器の膜劣化をモデル化するための物理インフォームドニューラルネットワーク(PINN)の最初の応用について述べる。
論文 参考訳(メタデータ) (2025-06-19T15:46:49Z) - DISPROTBENCH: A Disorder-Aware, Task-Rich Benchmark for Evaluating Protein Structure Prediction in Realistic Biological Contexts [76.59606029593085]
DisProtBenchは、構造障害および複雑な生物学的条件下でタンパク質構造予測モデル(PSPM)を評価するためのベンチマークである。
DisProtBenchはデータの複雑さ、タスクの多様性、解釈可能性という3つの重要な軸にまたがっている。
その結果,機能的予測障害と相関する低信頼領域を有する障害下でのモデルロバスト性に有意な変動が認められた。
論文 参考訳(メタデータ) (2025-06-18T23:58:22Z) - EnerBridge-DPO: Energy-Guided Protein Inverse Folding with Markov Bridges and Direct Preference Optimization [8.642286608437344]
この研究は、低エネルギーで安定なタンパク質配列を直接生成するモデルを開発することで、制限を克服することを目的としている。
本稿では,低エネルギーで高安定性なタンパク質配列を生成することを目的とした,新しい逆フォールディングフレームワークであるEnerBridge-DPOを提案する。
評価の結果,EnerBridge-DPOは,最先端モデルに匹敵する配列回復率を維持しつつ,低エネルギーのタンパク質複合体配列を設計可能であることが示された。
論文 参考訳(メタデータ) (2025-06-11T08:12:26Z) - Protein Inverse Folding From Structure Feedback [78.27854221882572]
本稿では,タンパク質の折りたたみモデルからのフィードバックを用いて,逆折りたたみモデルを微調整する手法を提案する。
CATH 4.2 テストセットの結果,DPO の微調整により平均 TM-Score が大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-06-03T16:02:12Z) - Aligning Protein Conformation Ensemble Generation with Physical Feedback [29.730515284798397]
エネルギーベースアライメント(EBA、Energy-based Alignment)は、生成モデルと物理モデルからのフィードバックを整合させる手法である。
EBAは、高品質なタンパク質アンサンブルを生成する際に最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-30T04:33:39Z) - Decomposed Direct Preference Optimization for Structure-Based Drug Design [47.561983733291804]
本稿では,拡散モデルと医薬的ニーズを整合させる構造に基づく最適化手法であるDecompDPOを提案する。
DecompDPOは、様々なタンパク質ファミリーにまたがる分子生成のための微調整済み拡散モデルと、生成後に特定のタンパク質サブポケットを与える分子最適化の2つの主要な目的のために効果的に使用できる。
論文 参考訳(メタデータ) (2024-07-19T02:12:25Z) - State-specific protein-ligand complex structure prediction with a
multi-scale deep generative model [68.28309982199902]
タンパク質-リガンド複合体構造を直接予測できる計算手法であるNeuralPLexerを提案する。
我々の研究は、データ駆動型アプローチがタンパク質と小分子の構造的協調性を捉え、酵素や薬物分子などの設計を加速させる可能性を示唆している。
論文 参考訳(メタデータ) (2022-09-30T01:46:38Z) - EBM-Fold: Fully-Differentiable Protein Folding Powered by Energy-based
Models [53.17320541056843]
本研究では,データ駆動型生成ネットワークを用いたタンパク質構造最適化手法を提案する。
EBM-Foldアプローチは,従来のロゼッタ構造最適化ルーチンと比較して,高品質なデコイを効率よく生成できる。
論文 参考訳(メタデータ) (2021-05-11T03:40:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。