論文の概要: Adaptive Protein Tokenization
- arxiv url: http://arxiv.org/abs/2602.06418v1
- Date: Fri, 06 Feb 2026 06:15:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.25646
- Title: Adaptive Protein Tokenization
- Title(参考訳): Adaptive Protein Tokenization
- Authors: Rohit Dilip, Ayush Varshney, David Van Valen,
- Abstract要約: 既存のタンパク質構造トークン化剤は、周辺地域の情報をプールすることでトークンを作成する。
本稿では,タンパク質構造のグローバルなトークン化手法について述べる。
適応トークンが情報コンテンツに基づく推論基準をどのように実現し,設計可能性を高めるかを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tokenization is a promising path to multi-modal models capable of jointly understanding protein sequences, structure, and function. Existing protein structure tokenizers create tokens by pooling information from local neighborhoods, an approach that limits their performance on generative and representation tasks. In this work, we present a method for global tokenization of protein structures in which successive tokens contribute increasing levels of detail to a global representation. This change resolves several issues with generative models based on local protein tokenization: it mitigates error accumulation, provides embeddings without sequence-reduction operations, and allows task-specific adaptation of a tokenized sequence's information content. We validate our method on reconstruction, generative, and representation tasks and demonstrate that it matches or outperforms existing models based on local protein structure tokenizers. We show how adaptive tokens enable inference criteria based on information content, which boosts designability. We validate representations generated from our tokenizer on CATH classification tasks and demonstrate that non-linear probing on our tokenized sequences outperforms equivalent probing on representations from other tokenizers. Finally, we demonstrate how our method supports zero-shot protein shrinking and affinity maturation.
- Abstract(参考訳): トークン化は、タンパク質配列、構造、機能を共同で理解できるマルチモーダルモデルへの有望な経路である。
既存のタンパク質構造トークンーザは、生成タスクと表現タスクのパフォーマンスを制限するアプローチである、局所的な近隣からの情報をプールすることでトークンを作成する。
本研究では,タンパク質構造のグローバルなトークン化手法を提案する。
この変更は、局所的なタンパク質のトークン化に基づく生成モデルに関するいくつかの問題を解決する: エラーの蓄積を緩和し、シーケンス還元操作なしで埋め込みを提供し、トークン化されたシーケンスの情報内容のタスク固有の適応を可能にする。
本手法の再現性, 生成性, 表現性について検証し, 局所的なタンパク質構造を指標とした既存モデルの適合性, 性能を実証する。
適応トークンが情報コンテンツに基づく推論基準をどのように実現し,設計可能性を高めるかを示す。
我々は,CATH分類タスクにおいて,トークン化器から生成された表現を検証し,トークン化シーケンス上の非線形プローブが他のトークン化器からの表現に対する等価なプローブよりも優れていることを示す。
最後に,ゼロショットタンパク質の収縮と親和性成熟をサポートする方法を示す。
関連論文リスト
- MergeDNA: Context-aware Genome Modeling with Dynamic Tokenization through Token Merging [65.07273789940116]
本稿では,動的ゲノミクストークンと潜在トランスフォーマーをコンテキスト対応事前学習タスクで協調的に最適化する階層型アーキテクチャを提案する。
MergeDNAは3つの人気のあるDNAベンチマークと、微調整やゼロショット評価を伴う複数のマルチオミクスタスクにおいて優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-11-17T19:27:41Z) - Flow Autoencoders are Effective Protein Tokenizers [0.0]
本稿では,タンパク質構造のトークン化と生成のためのフローベーストークン化ツールであるKanziを紹介する。
Kanziは、フローマッチング損失でトレーニングされた拡散オートエンコーダで構成される。
これらの変化は、既存のトークン化器よりも優れたパラメータ効率モデルの訓練を安定化させることが判明した。
論文 参考訳(メタデータ) (2025-09-30T23:29:39Z) - Broken Tokens? Your Language Model can Secretly Handle Non-Canonical Tokenizations [83.93566096400723]
ランダムにサンプリングされたトークン化が与えられた場合、命令調整されたモデルは元の性能の最大93.4%を維持している。
文字レベルのセグメンテーションは文字列操作とコード理解タスクを最大+14%改善する。
右列桁のグルーピングは、大数の算術を+33%向上させる。
論文 参考訳(メタデータ) (2025-06-23T18:02:26Z) - "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - Learning the Language of Protein Structure [8.364087723533537]
本稿では,タンパク質構造を離散表現に効果的にトークン化するベクトル量子化オートエンコーダを用いたアプローチを提案する。
学習した表現の有効性を示すために、コードブック上でトレーニングされた単純なGPTモデルにより、新規で多様性があり、設計可能なタンパク質構造を生成することができることを示す。
論文 参考訳(メタデータ) (2024-05-24T16:03:47Z) - FoldToken: Learning Protein Language via Vector Quantization and Beyond [56.19308144551836]
タンパク質配列構造を離散シンボルとして表現するために textbfFoldTokenizer を導入する。
学習したシンボルを textbfFoldToken と呼び、FoldToken の配列が新しいタンパク質言語として機能する。
論文 参考訳(メタデータ) (2024-02-04T12:18:51Z) - Pre-training Co-evolutionary Protein Representation via A Pairwise
Masked Language Model [93.9943278892735]
タンパク質配列表現学習の鍵となる問題は、配列中の残基間の共変量によって反映される共進化情報をキャプチャすることである。
Pairwise Masked Language Model (PMLM) と呼ばれる専用言語モデルによる事前学習により,この情報を直接キャプチャする新しい手法を提案する。
提案手法は, 相互関係を効果的に把握し, ベースラインと比較して, 接触予測性能を最大9%向上できることを示す。
論文 参考訳(メタデータ) (2021-10-29T04:01:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。