論文の概要: PepThink-R1: LLM for Interpretable Cyclic Peptide Optimization with CoT SFT and Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2508.14765v1
- Date: Wed, 20 Aug 2025 15:13:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.49392
- Title: PepThink-R1: LLM for Interpretable Cyclic Peptide Optimization with CoT SFT and Reinforcement Learning
- Title(参考訳): PepThink-R1:CoT SFTと強化学習を用いた解釈型ペプチド最適化のためのLLM
- Authors: Ruheng Wang, Hang Zhang, Trieu Nguyen, Shasha Feng, Hao-Wei Pang, Xiang Yu, Li Xiao, Peter Zhiping Zhang,
- Abstract要約: PepThink-R1は、大規模言語モデルとチェーン・オブ・ファインタニングと強化学習を統合した生成フレームワークである。
我々は,PepThink-R1が脂質分解能,安定性,暴露性を著しく増強した環状ペプチドを産生することを示した。
- 参考スコア(独自算出の注目度): 5.484132643431736
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Designing therapeutic peptides with tailored properties is hindered by the vastness of sequence space, limited experimental data, and poor interpretability of current generative models. To address these challenges, we introduce PepThink-R1, a generative framework that integrates large language models (LLMs) with chain-of-thought (CoT) supervised fine-tuning and reinforcement learning (RL). Unlike prior approaches, PepThink-R1 explicitly reasons about monomer-level modifications during sequence generation, enabling interpretable design choices while optimizing for multiple pharmacological properties. Guided by a tailored reward function balancing chemical validity and property improvements, the model autonomously explores diverse sequence variants. We demonstrate that PepThink-R1 generates cyclic peptides with significantly enhanced lipophilicity, stability, and exposure, outperforming existing general LLMs (e.g., GPT-5) and domain-specific baseline in both optimization success and interpretability. To our knowledge, this is the first LLM-based peptide design framework that combines explicit reasoning with RL-driven property control, marking a step toward reliable and transparent peptide optimization for therapeutic discovery.
- Abstract(参考訳): 調整された性質を持つ治療ペプチドの設計は、配列空間の広大さ、限られた実験データ、および現在の生成モデルの弱い解釈可能性によって妨げられる。
これらの課題に対処するために,大規模言語モデル(LLM)とチェーン・オブ・シント(CoT)を統合し,微調整と強化学習(RL)を指導する生成フレームワークであるPepThink-R1を紹介した。
従来のアプローチとは異なり、PepThink-R1は、配列生成中にモノマーレベルの修飾を明示的に理由付け、複数の薬理学的特性を最適化しながら解釈可能な設計選択を可能にした。
化学的妥当性と特性改善のバランスをとる調整された報酬関数によって導かれるこのモデルは、様々な配列の変種を自律的に探索する。
我々は,PepThink-R1がリポフィリシティ,安定性,暴露性を著しく向上した環状ペプチドを産生し,既存のLLM(e , GPT-5)およびドメイン特異的塩基を最適化成功と解釈可能性の両方において優れていたことを実証した。
我々の知る限り、これは、露骨な推論とRL駆動特性制御を組み合わせた最初のLCMベースのペプチド設計フレームワークであり、治療発見のための信頼性と透明なペプチド最適化への一歩である。
関連論文リスト
- Regulatory DNA sequence Design with Reinforcement Learning [56.20290878358356]
本稿では,強化学習を利用して事前学習した自己回帰モデルを微調整する生成手法を提案する。
2つの酵母培地条件下でのプロモーター設計タスクの評価と,3種類のヒト細胞に対するエンハンサー設計タスクの評価を行った。
論文 参考訳(メタデータ) (2025-03-11T02:33:33Z) - DrugImproverGPT: A Large Language Model for Drug Optimization with Fine-Tuning via Structured Policy Optimization [53.27954325490941]
大規模言語モデル(LLM)の微調整は、特定の目的に向けて結果を生成するために不可欠である。
本研究は,薬物最適化LSMに基づく生成モデルを微調整するための新しい強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-11T04:00:21Z) - PepTune: De Novo Generation of Therapeutic Peptides with Multi-Objective-Guided Discrete Diffusion [2.6668932659159905]
治療ペプチドSMILESの同時生成と最適化のための多目的離散拡散モデルであるPepTuneを提案する。
拡散過程を導出するために,推測時間多目的誘導アルゴリズムであるモンテカルロツリーガイダンス(MCTG)を導入する。
PepTune を用いて, 多様な化学修飾ペプチドを同時に生成し, 複数の治療特性に最適化した。
論文 参考訳(メタデータ) (2024-12-23T18:38:49Z) - Teaching LLMs to Refine with Tools [68.23479664749271]
大規模言語モデル(LLM)はフィードバックに基づいて応答を洗練し、反復的なトレーニングやテスト時間の改良を通じて自己改善を可能にする。
外部ツールを用いて同一または他のLLMによって生成されたチェーン・オブ・シント(CoT)応答を洗練するための新しいアプローチであるCaPを提案する。
論文 参考訳(メタデータ) (2024-12-22T05:43:50Z) - Fine-Tuning on Diverse Reasoning Chains Drives Within-Inference CoT Refinement in LLMs [63.36637269634553]
本稿では,LLMを微調整し,一つの推論ステップで思考の逆連鎖(DCoT)を生成する手法を提案する。
DCoTの微調整により,モデルファミリおよびスケール間のCoTベースライン上での性能が向上することを示す。
我々の研究は、定量的解析と手動評価の両方で、観測された利益は、最初の推論連鎖を洗練させるモデルの能力に由来することを明らかにしているため、重要である。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z) - LightCPPgen: An Explainable Machine Learning Pipeline for Rational Design of Cell Penetrating Peptides [0.32985979395737786]
我々は,機械学習(ML)と最適化アルゴリズムの長所を活かして,CPPのデノボ設計に革新的なアプローチを導入する。
私たちの戦略はLight CPPgenと呼ばれ、LightGBMベースの予測モデルと遺伝的アルゴリズム(GA)を統合しています。
GAソリューションは、元の非貫通ペプチドとの類似性を最大化しつつ、候補配列の透過性スコアを特にターゲットとしている。
論文 参考訳(メタデータ) (2024-05-31T10:57:25Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Efficient Prediction of Peptide Self-assembly through Sequential and
Graphical Encoding [57.89530563948755]
この研究は、高度なディープラーニングモデルを用いたペプチドエンコーディングのベンチマーク分析を提供する。
等電点や水和自由エネルギーなど、幅広いペプチド関連予測のガイドとして機能する。
論文 参考訳(メタデータ) (2023-07-17T00:43:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。