論文の概要: Protein Structure Tokenization via Geometric Byte Pair Encoding
- arxiv url: http://arxiv.org/abs/2511.11758v1
- Date: Thu, 13 Nov 2025 22:53:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.287976
- Title: Protein Structure Tokenization via Geometric Byte Pair Encoding
- Title(参考訳): 幾何学的バイトペアエンコーディングによるタンパク質構造トークン化
- Authors: Michael Sun, Weize Yuan, Gang Liu, Wojciech Matusik, Marinka Zitnik,
- Abstract要約: 原理的タンパク質構造プロテタイザ(PST)であるGeoBPEを紹介する。
GeoBPEは、連続的でノイズの多いマルチスケールのバックボーンコンフォメーションを、大域的な制約を課しながら、幾何学の離散文'に変換する。
圧縮(類似の歪み率で1ビットあたり10倍の圧縮)、データ効率(10倍のトレーニングデータ)、一般化を提供する。
- 参考スコア(独自算出の注目度): 36.39587248348813
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Protein structure is central to biological function, and enabling multimodal protein models requires joint reasoning over sequence, structure, and function. A key barrier is the lack of principled protein structure tokenizers (PSTs): existing approaches fix token size or rely on continuous vector codebooks, limiting interpretability, multi-scale control, and transfer across architectures. We introduce GeoBPE, a geometry-grounded PST that transforms continuous, noisy, multi-scale backbone conformations into discrete ``sentences'' of geometry while enforcing global constraints. Analogous to byte-pair encoding, GeoBPE generates a hierarchical vocabulary of geometric primitives by iteratively (i) clustering Geo-Pair occurrences with k-medoids to yield a resolution-controllable vocabulary; (ii) quantizing each Geo-Pair to its closest medoid prototype; and (iii) reducing drift through differentiable inverse kinematics that optimizes boundary glue angles under an $\mathrm{SE}(3)$ end-frame loss. GeoBPE offers compression ($>$10x reduction in bits-per-residue at similar distortion rate), data efficiency ($>$10x less training data), and generalization (maintains test/train distortion ratio of $1.0-1.1$). It is architecture-agnostic: (a) its hierarchical vocabulary provides a strong inductive bias for coarsening residue-level embeddings from large PLMs into motif- and protein-level representations, consistently outperforming leading PSTs across $12$ tasks and $24$ test splits; (b) paired with a transformer, GeoBPE supports unconditional backbone generation via language modeling; and (c) tokens align with CATH functional families and support expert-interpretable case studies, offering functional meaning absent in prior PSTs. Code is available at https://github.com/shiningsunnyday/PT-BPE/.
- Abstract(参考訳): タンパク質構造は生物学的機能の中心であり、マルチモーダルタンパク質モデルの実現には、配列、構造、機能に関する共同推論が必要である。
既存のアプローチではトークンのサイズを固定したり、連続的なベクターコードブックに依存したり、解釈可能性の制限、マルチスケール制御、アーキテクチャ間の転送などがあった。
我々はジオBPE(GeoBPE)を紹介した。これは、連続的、ノイズの多い、マルチスケールのバックボーンのコンフォメーションを、大域的な制約を課しながら、幾何学の離散な ``sents'' に変換する。
バイトペア符号化に類似したGeoBPEは、反復的に幾何学的プリミティブの階層的な語彙を生成する
一 分解能制御可能な語彙を生成するため、k-メドイドでジオペア発生をクラスタリングすること。
二 各ジオペアをその最も近いメドイドのプロトタイプに定量化すること。
3) $\mathrm{SE}(3)$ end-frame loss の下で境界グルー角を最適化する微分可能な逆キネマティクスによるドリフトを低減する。
GeoBPEは圧縮(10倍)、データ効率(10倍)、一般化(テスト/トレイン歪み比1.0-1.1ドル)を提供する。
アーキテクチャに依存しない。
(a)その階層的な語彙は、大きなPLMからモチーフおよびタンパク質レベルの表現への粗大化残基レベルの埋め込みに対して強い誘導バイアスを与え、12ドルのタスクと24ドルのテスト分割でリードPSTを上回っている。
(b)トランスと組み合わせたGeoBPEは、言語モデリングによる無条件バックボーン生成をサポートします。
c)トークンはCATH機能ファミリーと整合し、専門家が解釈可能なケーススタディをサポートし、以前のPSTに欠如している機能的意味を提供する。
コードはhttps://github.com/shiningsunnyday/PT-BPE/で入手できる。
関連論文リスト
- Test time training enhances in-context learning of nonlinear functions [51.56484100374058]
テストタイムトレーニング(TTT)は、各予測に先立って指定されたパラメータを明示的に更新することで、モデル性能を向上させる。
本研究では,TTTとテキスト内学習(ICL)の組み合わせについて検討する。
論文 参考訳(メタデータ) (2025-09-30T03:56:44Z) - ProtInvTree: Deliberate Protein Inverse Folding with Reward-guided Tree Search [77.55575655986252]
ProtInvTreeはタンパク質逆フォールディングのための報酬誘導ツリー検索フレームワークである。
シークエンス生成は、意図的に、ステップワイズな意思決定プロセスとして再構成される。
検索深度と幅を広げて、再トレーニングすることなく、フレキシブルなテストタイムスケーリングをサポートする。
論文 参考訳(メタデータ) (2025-06-01T09:34:20Z) - HoLa: B-Rep Generation using a Holistic Latent Representation [51.07878285790399]
我々は、$textitboundary representations$ (B-Reps)という形式でコンピュータ支援設計(CAD)モデルを学習し、生成するための新しい表現を導入する。
我々の表現は、B-Repプリミティブの連続幾何学的性質を異なる順序で統一する。
提案手法は生成したB-Repプリミティブ間のあいまいさ,冗長性,不整合性を著しく低減する。
論文 参考訳(メタデータ) (2025-04-19T10:34:24Z) - Distributed Learning over Arbitrary Topology: Linear Speed-Up with Polynomial Transient Time [3.1789549088190414]
本研究では, ピアツーピア通信によるローカルコスト関数の和を協調的に共有する分散学習問題について検討する。
本稿では、一般的な通信グラフから抽出した2本の木を用いて、モデルパラメータと位相パラメータの両方を分散する新しいEmph Tree PushPull-(STPP)を提案する。
論文 参考訳(メタデータ) (2025-03-20T13:11:44Z) - DTGBrepGen: A Novel B-rep Generative Model through Decoupling Topology and Geometry [3.859930277034918]
幾何学モデルの境界表現(B-rep)はCADの基本形式である
B-rep生成のための新しいトポロジ・ジオメトリ・デカップリングフレームワークDTGBrepGenを提案する。
論文 参考訳(メタデータ) (2025-03-17T12:34:14Z) - Understanding Token-level Topological Structures in Transformer-based Time Series Forecasting [52.364260925700485]
Transformer-based method has achieved state-of-the-art performance in time series forecasting (TSF)
既存のトランスフォーマーが中間層全体を通してトークン間の固有位相構造を完全に活用しているかどうかは不明である。
トークンレベルのトポロジを明示的にかつ適応的に保存するトランスフォーマーベースの新しいTSF手法であるトポロジ拡張法(TEM)を提案する。
論文 参考訳(メタデータ) (2024-04-16T07:21:39Z) - DNABERT-2: Efficient Foundation Model and Benchmark For Multi-Species Genome [10.051595222470304]
我々は、k-merトークン化によって導入された計算とサンプルの非効率性が、大規模なゲノム基盤モデルの開発における主要な障害であると主張している。
我々は、k-merトークン化をByte Pair$に置き換えることを提案するゲノムトークン化に関する概念的および実証的な洞察を提供する。
DNABERT-2は、効率的なトークン化を施し、入力長制約を克服するために複数の戦略を用いるゲノム基盤モデルである。
論文 参考訳(メタデータ) (2023-06-26T18:43:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。