論文の概要: Controlling Repetition in Protein Language Models
- arxiv url: http://arxiv.org/abs/2602.00782v1
- Date: Sat, 31 Jan 2026 15:47:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.398289
- Title: Controlling Repetition in Protein Language Models
- Title(参考訳): タンパク質言語モデルにおける繰り返しの制御
- Authors: Jiahao Zhang, Zeqing Zhang, Di Wang, Lijie Hu,
- Abstract要約: タンパク質言語モデル(PLM)における反復に関する最初の体系的研究について述べる。
制約付きデータセットでタンパク質生成を制御できるUCCS(Utility-Controlled Contrastive Steering)を提案する。
以上の結果から, PLMの課題として反復制御が確立され, 信頼性タンパク生成の原則的アプローチとしてデータセット誘導ステアリングが強調された。
- 参考スコア(独自算出の注目度): 15.0735785692416
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Protein language models (PLMs) have enabled advances in structure prediction and de novo protein design, yet they frequently collapse into pathological repetition during generation. Unlike in text, where repetition merely reduces readability, in proteins it undermines structural confidence and functional viability. To unify this problem, we present the first systematic study of repetition in PLMs. We first propose quantitative metrics to characterize motif-level and homopolymer repetition and then demonstrate their negative impact on folding reliability. To address this challenge, we propose UCCS (Utility-Controlled Contrastive Steering), which steers protein generation with a constrained dataset. Instead of naively contrasting high- vs. low-repetition sequences, we construct contrastive sets that maximize differences in repetition while tightly controlling for structural utility. This disentanglement yields steering vectors that specifically target repetition without degrading foldability. Injected at inference, these vectors consistently reduce repetition without retraining or heuristic decoding. Experiments with ESM-3 and ProtGPT2 in CATH, UniRef50, and SCOP show that our method outperforms decoding penalties and other baselines, substantially lowering repetition while preserving AlphaFold confidence scores. Our results establish repetition control as a central challenge for PLMs and highlight dataset-guided steering as a principled approach for reliable protein generation.
- Abstract(参考訳): タンパク質言語モデル(PLMs)は構造予測とデノボタンパク質設計の進歩を可能にしているが、世代ごとの病理学的反復にしばしば崩壊する。
繰り返しが可読性を低下させるテキストとは異なり、タンパク質では構造的信頼性と機能的生存性を損なう。
この問題を統一するために, PLM における繰り返しの体系的研究を行った。
まず, モチーフレベルとホモポリマーの繰り返しを特徴付ける定量的指標を提案し, 折り畳み信頼性に負の影響を示す。
この課題に対処するために、制約付きデータセットでタンパク質生成を制御できるUCCS(Utility-Controlled Contrastive Steering)を提案する。
高繰り返し列と低繰り返し列をネーティブに対比する代わりに、構造的効用のために厳密に制御しながら繰り返しの差を最大化する対照的な集合を構築する。
この絡み合いは、折り畳み性を低下させることなく、特に繰り返しを狙う操舵ベクトルをもたらす。
推論時に注入されたこれらのベクトルは、リトレーニングやヒューリスティックな復号化なしに反復を一貫して減少させる。
CTH, UniRef50, SCOP における ESM-3 と ProtGPT2 を用いた実験により,AlphaFold の信頼度を保ちながら繰り返しを著しく低下させ, ペナルティやその他のベースラインの復号に優れることが示された。
以上の結果から, PLMの課題として反復制御が確立され, 信頼性タンパク生成の原則的アプローチとしてデータセット誘導ステアリングが強調された。
関連論文リスト
- CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - S$^2$Drug: Bridging Protein Sequence and 3D Structure in Contrastive Representation Learning for Virtual Screening [72.89086338778098]
タンパク質リガンドコントラスト表現学習のための2段階フレームワークを提案する。
最初の段階では、ESM2ベースのバックボーンを用いて、ChemBLでタンパク質配列を事前訓練する。
第2段階では、残基レベルゲーティングモジュールを介して配列と構造情報を融合することでPDBBindを微調整する。
この補助的なタスクは、モデルを誘導し、タンパク質配列内の結合残基を正確に局在させ、それらの3次元空間配列をキャプチャする。
論文 参考訳(メタデータ) (2025-11-10T11:57:47Z) - Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails [103.05296856071931]
本稿では,自己進化型大規模言語モデル(LLM)エージェントに特有の,アライメント・ティッピング・プロセス(ATP)を同定する。
ATPは、連続的な相互作用によってエージェントが訓練中に確立されたアライメント制約を放棄し、強化された自己関心の戦略を支持するときに生じる。
実験の結果、アライメントの利点は自己進化の下で急速に低下し、最初は整合性のない状態に収束したモデルであることが判明した。
論文 参考訳(メタデータ) (2025-10-06T14:48:39Z) - Curriculum Learning for Biological Sequence Prediction: The Case of De Novo Peptide Sequencing [21.01399785232482]
本稿では,構造的タンパク質配列学習戦略を取り入れた非自己回帰ペプチドシークエンシングモデルを提案する。
我々のカリキュラム学習戦略は、様々なデータ分布に対するサンプルトレーニングに基づいて、NATトレーニング失敗頻度を90%以上削減する。
論文 参考訳(メタデータ) (2025-06-16T13:44:25Z) - Self-Normalized Resets for Plasticity in Continual Learning [5.57186754179308]
SNR(Self-Normalized Resets)は、ニューロンの重みをリセットすることで可塑性損失を緩和する適応アルゴリズムである。
我々は,SNRが競合するアルゴリズムと比較して常に優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2024-10-26T06:47:13Z) - Mitigating the Learning Bias towards Repetition by Self-Contrastive
Training for Open-Ended Generation [92.42032403795879]
GPT2のような事前訓練された言語モデル(LM)は、繰り返しテキストを生成する傾向にあることを示す。
トークンレベルの反復確率の過大評価は学習バイアスに起因している。
LMは文レベルの繰り返しループの原因となる非繰り返しトークンよりも長い範囲依存を用いて繰り返しトークンを予測する。
論文 参考訳(メタデータ) (2023-07-04T07:53:55Z) - Reprogramming Pretrained Language Models for Antibody Sequence Infilling [72.13295049594585]
抗体の計算設計には、構造的一貫性を維持しながら、新規で多様な配列を生成することが含まれる。
近年のディープラーニングモデルでは優れた結果が得られたが、既知の抗体配列/構造対の数が限られているため、性能が劣化することが多い。
これは、ソース言語でトレーニング済みのモデルを再利用して、異なる言語で、データが少ないタスクに適応するものです。
論文 参考訳(メタデータ) (2022-10-05T20:44:55Z) - Adversarial Sign-Corrupted Isotonic Regression [4.5281658051751785]
textttASCIFITは,textttASCI設定下での3段階推定手法である。
我々は、その理論的な保証を、シャープな高確率上界とミニマックス下界の形で示す。
論文 参考訳(メタデータ) (2022-07-14T17:24:51Z) - Latent Template Induction with Gumbel-CRFs [107.17408593510372]
文生成のための潜在テンプレートを推論するための構造化変分オートエンコーダについて検討する。
構造化推論ネットワークとして、トレーニング中に解釈可能なテンプレートを学習することを示す。
論文 参考訳(メタデータ) (2020-11-29T01:00:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。