論文の概要: HELM-BERT: A Transformer for Medium-sized Peptide Property Prediction
- arxiv url: http://arxiv.org/abs/2512.23175v1
- Date: Mon, 29 Dec 2025 03:29:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.393362
- Title: HELM-BERT: A Transformer for Medium-sized Peptide Property Prediction
- Title(参考訳): 中規模ペプチド特性予測用変圧器HELM-BERT
- Authors: Seungeon Lee, Takuto Koyama, Itsuki Maeda, Shigeyuki Matsumoto, Yasushi Okuno,
- Abstract要約: HELM表記法で訓練された最初のエンコーダに基づくペプチド言語モデルであるHELM-BERTを提案する。
このモデルは、線形構造と環状構造にまたがる39,079の化学的に多様なペプチドの硬化したコーパスで事前訓練される。
これは、サイクリックペプチド膜透過性予測やペプチドとタンパク質の相互作用予測など、下流タスクにおいて、最先端のSMILESベースの言語モデルよりも大幅に優れている。
- 参考スコア(独自算出の注目度): 0.5510752448348083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Therapeutic peptides have emerged as a pivotal modality in modern drug discovery, occupying a chemically and topologically rich space. While accurate prediction of their physicochemical properties is essential for accelerating peptide development, existing molecular language models rely on representations that fail to capture this complexity. Atom-level SMILES notation generates long token sequences and obscures cyclic topology, whereas amino-acid-level representations cannot encode the diverse chemical modifications central to modern peptide design. To bridge this representational gap, the Hierarchical Editing Language for Macromolecules (HELM) offers a unified framework enabling precise description of both monomer composition and connectivity, making it a promising foundation for peptide language modeling. Here, we propose HELM-BERT, the first encoder-based peptide language model trained on HELM notation. Based on DeBERTa, HELM-BERT is specifically designed to capture hierarchical dependencies within HELM sequences. The model is pre-trained on a curated corpus of 39,079 chemically diverse peptides spanning linear and cyclic structures. HELM-BERT significantly outperforms state-of-the-art SMILES-based language models in downstream tasks, including cyclic peptide membrane permeability prediction and peptide-protein interaction prediction. These results demonstrate that HELM's explicit monomer- and topology-aware representations offer substantial data-efficiency advantages for modeling therapeutic peptides, bridging a long-standing gap between small-molecule and protein language models.
- Abstract(参考訳): 治療ペプチドは、化学的にトポロジカルに豊富な空間を占有し、現代の薬物発見において重要なモダリティとして出現している。
その物理化学的性質の正確な予測はペプチドの発達を促進するのに不可欠であるが、既存の分子言語モデルは、この複雑さを捉えるのに失敗する表現に依存している。
AtomレベルSMILES表記は長いトークン配列を生成し、環状トポロジーを曖昧にするが、アミノ酸レベル表現は現代のペプチド設計の中心となる多様な化学修飾をコードすることができない。
この表現的ギャップを埋めるため、HELM(Hierarchical Editing Language for Macromolecules)はモノマー合成と接続性の両方を正確に記述できる統一されたフレームワークを提供しており、ペプチド言語モデリングの基礎として期待できる。
本稿では,HELM表記法で訓練された最初のエンコーダに基づくペプチド言語モデルであるHELM-BERTを提案する。
DeBERTaに基づいて、HELM-BERTはHELMシーケンス内の階層的依存関係をキャプチャするように設計されている。
このモデルは、線形構造と環状構造にまたがる39,079の化学的に多様なペプチドの硬化したコーパスで事前訓練される。
HELM-BERTは、サイクリックペプチド膜透過性予測やペプチド-タンパク質相互作用予測などの下流タスクにおいて、最先端のSMILESベースの言語モデルよりも著しく優れている。
これらの結果は、HELMの明示的なモノマーおよびトポロジーを意識した表現は、治療ペプチドをモデル化し、小分子とタンパク質言語モデルの間の長年のギャップを埋める、かなりのデータ効率の利点をもたらすことを示した。
関連論文リスト
- Morphology-Specific Peptide Discovery via Masked Conditional Generative Modeling [0.0]
PepMorphはエンドツーエンドのペプチド発見パイプラインである。
配列は凝集しやすいが、特定のフィブリッラーや球形の形態に自己組織化する。
論文 参考訳(メタデータ) (2025-09-02T07:58:12Z) - Molecular Fingerprints Are Strong Models for Peptide Function Prediction [0.0]
長距離分子相互作用はしばしば、複雑なグラフニューラルネットワークと事前訓練されたトランスフォーマーのモデリングを必要とすると仮定される。
単純でドメイン特異的な分子指紋がこれらの仮定なしでペプチド機能を捉えることができるかどうかを検討する。
本研究は, 分子指紋をペプチド予測のための効率的, 解釈可能, 計算的に軽量な代替手段として強調し, 長距離相互作用モデルの必要性を推察するものである。
論文 参考訳(メタデータ) (2025-01-29T10:05:27Z) - Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。
この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-11-03T01:56:15Z) - Structure Language Models for Protein Conformation Generation [66.42864253026053]
伝統的な物理学に基づくシミュレーション手法は、しばしばサンプリング平衡整合に苦しむ。
深い生成モデルは、より効率的な代替としてタンパク質のコンホメーションを生成することを約束している。
本稿では,効率的なタンパク質コンホメーション生成のための新しいフレームワークとして構造言語モデリングを紹介する。
論文 参考訳(メタデータ) (2024-10-24T03:38:51Z) - Multi-Peptide: Multimodality Leveraged Language-Graph Learning of Peptide Properties [5.812284760539713]
Multi-Peptideは、トランスフォーマーベースの言語モデルとグラフニューラルネットワーク(GNN)を組み合わせてペプチドの性質を予測する革新的なアプローチである。
溶血性データセットおよび非汚泥性データセットの評価は、多ペプチドの堅牢性を示し、溶血性予測における最先端86.185%の精度を達成する。
本研究は, 生体情報学におけるマルチモーダル学習の可能性を強調し, ペプチドを用いた研究・応用における正確かつ信頼性の高い予測方法を模索する。
論文 参考訳(メタデータ) (2024-07-02T20:13:47Z) - Diffusion Language Models Are Versatile Protein Learners [75.98083311705182]
本稿では,タンパク質配列の強い生成および予測能力を示す多目的なタンパク質言語モデルである拡散タンパク質言語モデル(DPLM)を紹介する。
まず, 自己制御型離散拡散確率フレームワークを用いて, 進化的タンパク質配列からのスケーラブルDPLMの事前学習を行った。
プレトレーニング後、DPLMは非条件生成のための構造的に可塑性で新規で多様なタンパク質配列を生成する能力を示す。
論文 参考訳(メタデータ) (2024-02-28T18:57:56Z) - Efficient Prediction of Peptide Self-assembly through Sequential and
Graphical Encoding [57.89530563948755]
この研究は、高度なディープラーニングモデルを用いたペプチドエンコーディングのベンチマーク分析を提供する。
等電点や水和自由エネルギーなど、幅広いペプチド関連予測のガイドとして機能する。
論文 参考訳(メタデータ) (2023-07-17T00:43:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。