論文の概要: Induction Meets Biology: Mechanisms of Repeat Detection in Protein Language Models
- arxiv url: http://arxiv.org/abs/2602.23179v1
- Date: Thu, 26 Feb 2026 16:39:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.779794
- Title: Induction Meets Biology: Mechanisms of Repeat Detection in Protein Language Models
- Title(参考訳): インジェクションと生物学:タンパク質言語モデルにおける反復検出のメカニズム
- Authors: Gal Kesten-Pomeranz, Yaniv Nikankin, Anja Reusch, Tomer Tsaban, Ora Schueler-Furman, Yonatan Belinkov,
- Abstract要約: 近年の研究では、タンパク質言語モデル(PLM)が繰り返しを識別し、その振る舞いをマスクトケン予測で調べている。
近似的反復のメカニズムは、正確な反復のメカニズムを機能的に仮定する。
その結果, PLMが言語に基づくパターンマッチングと専門的な生物学的知識を組み合わせることで, この生物学的課題をいかに解決するかを明らかにした。
- 参考スコア(独自算出の注目度): 33.67786252074827
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Protein sequences are abundant in repeating segments, both as exact copies and as approximate segments with mutations. These repeats are important for protein structure and function, motivating decades of algorithmic work on repeat identification. Recent work has shown that protein language models (PLMs) identify repeats, by examining their behavior in masked-token prediction. To elucidate their internal mechanisms, we investigate how PLMs detect both exact and approximate repeats. We find that the mechanism for approximate repeats functionally subsumes that of exact repeats. We then characterize this mechanism, revealing two main stages: PLMs first build feature representations using both general positional attention heads and biologically specialized components, such as neurons that encode amino-acid similarity. Then, induction heads attend to aligned tokens across repeated segments, promoting the correct answer. Our results reveal how PLMs solve this biological task by combining language-based pattern matching with specialized biological knowledge, thereby establishing a basis for studying more complex evolutionary processes in PLMs.
- Abstract(参考訳): タンパク質配列は、正確なコピーとして、および突然変異を伴う近似セグメントとして、繰り返しセグメントに豊富である。
これらのリピートはタンパク質の構造と機能にとって重要であり、リピート同定における何十年ものアルゴリズム的な研究を動機付けている。
近年の研究では、タンパク質言語モデル(PLM)が繰り返しを識別し、その振る舞いをマスクトケン予測で調べている。
内部機構を解明するために, PLMが正確な繰り返しと近似反復の両方を検出する方法を検討する。
近似的反復のメカニズムは、正確な反復のメカニズムを機能的に仮定する。
PLMは、まず、一般的な位置対応ヘッドと、アミノ酸類似性をコードするニューロンのような生物学的に特異的なコンポーネントの両方を用いて特徴表現を構築する。
そして、誘導ヘッドは繰り返しセグメントをまたいだ整列トークンに出席し、正しい回答を促進する。
以上の結果から, PLMが言語に基づくパターンマッチングと専門的な生物学的知識を組み合わせることで, PLMにおけるより複雑な進化過程を研究する基盤を確立することにより, この生物学的課題をいかに解決するかが明らかとなった。
関連論文リスト
- XAI-Driven Deep Learning for Protein Sequence Functional Group Classification [0.7734726150561088]
本研究では,タンパク質データバンク(PDB)由来のタンパク質配列の機能的グループ分類のためのディープラーニングフレームワークを提案する。
4つのアーキテクチャが実装された: Convolutional Neural Network (CNN)、Bidirectional Long Short-Term Memory (BiLSTM)、CNN-BiLSTM hybrid、CNN with Attention。
CNNは91.8%の検証精度を達成し、局所的なモチーフ検出の有効性を示した。
論文 参考訳(メタデータ) (2025-11-16T18:10:42Z) - An All-Atom Generative Model for Designing Protein Complexes [65.06317264153175]
APM(All-Atom Protein Generative Model)は、マルチチェーンタンパク質をモデル化するためのモデルである。
鎖間相互作用を正確にモデル化し、結合能力を持つタンパク質複合体をゼロから設計することができる。
また、多鎖タンパク質の折りたたみおよび逆折りのタスクも行う。
論文 参考訳(メタデータ) (2025-04-17T16:37:41Z) - evoBPE: Evolutionary Protein Sequence Tokenization [3.4196611972116786]
現在のサブワードトークン化技術は主に自然言語処理のために開発されたが、タンパク質配列の複雑な構造と機能的特性を適切に表現できないことが多い。
本研究は、進化的突然変異パターンを配列分割に統合する新しいトークン化手法であるevoBPEを紹介する。
evoBPEは、タンパク質機能予測、構造モデリング、進化解析における機械学習応用の新しい可能性を開く。
論文 参考訳(メタデータ) (2025-03-11T19:19:48Z) - The Signed Two-Space Proximity Model for Learning Representations in Protein-Protein Interaction Networks [16.396309363020908]
複雑なタンパク質-タンパク質相互作用(PPI)の正確な予測は、生物学的プロセスの復号に不可欠である。
署名されたPPIネットワークに対して,S2-SPM(Signed Two-Space Proximity Model)を提案する。
我々のアプローチは、極端なタンパク質プロファイルを表すアーチタイプを識別することを可能にする。
論文 参考訳(メタデータ) (2025-03-05T21:08:58Z) - Life-Code: Central Dogma Modeling with Multi-Omics Sequence Unification [55.98854157265578]
Life-Codeは、様々な生物学的機能にまたがる包括的なフレームワークである。
本稿では、RNAを逆転写し、アミノ酸をヌクレオチド配列に変換することで、マルチオミクスデータを統合する統一パイプラインを提案する。
Life-Codeは3つのオミクスにまたがる様々なタスクの最先端の結果を達成し、マルチオミクス分析と解釈の進歩の可能性を強調している。
論文 参考訳(メタデータ) (2025-02-11T06:53:59Z) - InterPLM: Discovering Interpretable Features in Protein Language Models via Sparse Autoencoders [24.150250149027883]
タンパク質言語モデル(PLM)は、タンパク質モデリングと設計において顕著な成功を収めている。
スパースオートエンコーダを用いてPLMから解釈可能な特徴を抽出・解析する体系的手法を提案する。
実用的な応用として、これらの潜伏する機能は、タンパク質データベースに欠落したアノテーションをいかに満たすかを示す。
論文 参考訳(メタデータ) (2024-11-13T18:51:21Z) - Long-context Protein Language Modeling Using Bidirectional Mamba with Shared Projection Layers [76.95505296417866]
言語モデル(LM)の自己教師による訓練は、有意義な表現の学習や創薬設計において、タンパク質配列に大きな成功を収めている。
ほとんどのタンパク質LMは、短い文脈長を持つ個々のタンパク質に基づいて訓練されたトランスフォーマーアーキテクチャに基づいている。
そこで本研究では,選択的構造化状態空間モデルに基づく代替タンパク質であるBiMamba-Sに基づくLC-PLMを提案する。
論文 参考訳(メタデータ) (2024-10-29T16:43:28Z) - Structure-Enhanced Protein Instruction Tuning: Towards General-Purpose Protein Understanding with LLMs [43.811432723460534]
本稿では,このギャップを埋めるために,構造強化タンパク質インストラクションチューニング(SEPIT)フレームワークを紹介する。
提案手法では,新しい構造認識モジュールをpLMに組み込んで構造知識を充実させる。
我々はこれまでで最大かつ最も包括的なタンパク質命令データセットを構築し、汎用タンパク質理解モデルの訓練と評価を可能にした。
論文 参考訳(メタデータ) (2024-10-04T16:02:50Z) - BERTology Meets Biology: Interpreting Attention in Protein Language
Models [124.8966298974842]
注目レンズを用いたタンパク質トランスフォーマーモデルの解析方法を示す。
注意はタンパク質の折りたたみ構造を捉え、基礎となる配列では遠く離れているが、三次元構造では空間的に近接しているアミノ酸を接続する。
また、注意とタンパク質構造との相互作用を三次元的に可視化する。
論文 参考訳(メタデータ) (2020-06-26T21:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。