論文の概要: Flow Autoencoders are Effective Protein Tokenizers
- arxiv url: http://arxiv.org/abs/2510.00351v1
- Date: Tue, 30 Sep 2025 23:29:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 14:32:17.180404
- Title: Flow Autoencoders are Effective Protein Tokenizers
- Title(参考訳): フローオートエンコーダは効果的なタンパク質トケナイザである
- Authors: Rohit Dilip, Evan Zhang, Ayush Varshney, David Van Valen,
- Abstract要約: 本稿では,タンパク質構造のトークン化と生成のためのフローベーストークン化ツールであるKanziを紹介する。
Kanziは、フローマッチング損失でトレーニングされた拡散オートエンコーダで構成される。
これらの変化は、既存のトークン化器よりも優れたパラメータ効率モデルの訓練を安定化させることが判明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Protein structure tokenizers enable the creation of multimodal models of protein structure, sequence, and function. Current approaches to protein structure tokenization rely on bespoke components that are invariant to spatial symmetries, but that are challenging to optimize and scale. We present Kanzi, a flow-based tokenizer for tokenization and generation of protein structures. Kanzi consists of a diffusion autoencoder trained with a flow matching loss. We show that this approach simplifies several aspects of protein structure tokenizers: frame-based representations can be replaced with global coordinates, complex losses are replaced with a single flow matching loss, and SE(3)-invariant attention operations can be replaced with standard attention. We find that these changes stabilize the training of parameter-efficient models that outperform existing tokenizers on reconstruction metrics at a fraction of the model size and training cost. An autoregressive model trained with Kanzi outperforms similar generative models that operate over tokens, although it does not yet match the performance of state-of-the-art continuous diffusion models. Code is available here: https://github.com/rdilip/kanzi/.
- Abstract(参考訳): タンパク質構造トークン化剤は、タンパク質構造、配列、機能のマルチモーダルモデルの作成を可能にする。
タンパク質構造トークン化への現在のアプローチは、空間対称性に不変なベスポークコンポーネントに依存しているが、最適化とスケールが難しい。
本稿では,タンパク質構造のトークン化と生成のためのフローベーストークン化ツールであるKanziを紹介する。
Kanziは、フローマッチング損失でトレーニングされた拡散オートエンコーダで構成される。
フレームベースの表現をグローバル座標に置き換えることができ、複雑な損失を単一フローマッチング損失に置き換えることができ、SE(3)不変の注意操作を標準注意に置き換えることができる。
これらの変化は, モデルサイズとトレーニングコストのごく一部で, 既存のトークン化器よりも優れたパラメータ効率モデルのトレーニングを安定化することを発見した。
カンジで訓練された自己回帰モデルは、トークン上で動作する類似の生成モデルよりも優れるが、最先端の連続拡散モデルの性能とはまだ一致しない。
コードは、https://github.com/rdilip/kanzi/.com/で入手できる。
関連論文リスト
- Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation [85.82112629564942]
本稿では,離散トークンのモデリングをシンプルに保ちながら,連続トークンの強力な表現能力を維持するTokenBridgeを提案する。
本稿では,各特徴次元を独立に離散化し,軽量な自己回帰予測機構と組み合わせた次元ワイド量子化戦略を提案する。
提案手法は,標準的なカテゴリー予測を用いて,連続的手法と同等に再現および生成品質を実現する。
論文 参考訳(メタデータ) (2025-03-20T17:59:59Z) - Learning the Language of Protein Structure [8.364087723533537]
本稿では,タンパク質構造を離散表現に効果的にトークン化するベクトル量子化オートエンコーダを用いたアプローチを提案する。
学習した表現の有効性を示すために、コードブック上でトレーニングされた単純なGPTモデルにより、新規で多様性があり、設計可能なタンパク質構造を生成することができることを示す。
論文 参考訳(メタデータ) (2024-05-24T16:03:47Z) - FoldToken: Learning Protein Language via Vector Quantization and Beyond [56.19308144551836]
タンパク質配列構造を離散シンボルとして表現するために textbfFoldTokenizer を導入する。
学習したシンボルを textbfFoldToken と呼び、FoldToken の配列が新しいタンパク質言語として機能する。
論文 参考訳(メタデータ) (2024-02-04T12:18:51Z) - Ophiuchus: Scalable Modeling of Protein Structures through Hierarchical
Coarse-graining SO(3)-Equivariant Autoencoders [1.8835495377767553]
天然タンパク質の3次元ネイティブ状態は、繰り返しおよび階層的なパターンを示す。
従来のグラフに基づくタンパク質構造のモデリングは、単一の微細な解像度でしか動作しないことが多い。
オフィチュス(Ophiuchus)は、全原子タンパク質構造を効率的に操作するSO(3)等価な粗粒化モデルである。
論文 参考訳(メタデータ) (2023-10-04T01:01:11Z) - Symbolic Regression by Exhaustive Search: Reducing the Search Space
Using Syntactical Constraints and Efficient Semantic Structure Deduplication [2.055204980188575]
シンボリック回帰は、モデル構造に関する事前の知識が得られない産業シナリオにおいて、強力なシステム識別技術である。
この章では、これらの問題に対処するために特別に設計された決定論的シンボリック回帰アルゴリズムを紹介します。
全ての可能なモデルの有限列挙は、構造的制約と意味論的に等価な解を検出するキャッシング機構によって保証される。
論文 参考訳(メタデータ) (2021-09-28T17:47:51Z) - Structured Reordering for Modeling Latent Alignments in Sequence
Transduction [86.94309120789396]
本稿では,分離可能な置換の辺りを正確に推定する効率的な動的プログラミングアルゴリズムを提案する。
結果のSeq2seqモデルは、合成問題やNLPタスクの標準モデルよりも体系的な一般化が優れている。
論文 参考訳(メタデータ) (2021-06-06T21:53:54Z) - Masked Language Modeling for Proteins via Linearly Scalable Long-Context
Transformers [42.93754828584075]
我々は、高速注意Via Orthogonal Random機能(FAVOR)に基づく新しいトランスフォーマーアーキテクチャPerformerを提案する。
我々の機構は、列内のトークンの数で2次ではなく2次的にスケールし、四次空間の複雑さが特徴であり、スパーシティパターンの先行を含まない。
これは強い理論的保証を与える:注意行列の偏りのない推定と一様収束である。
論文 参考訳(メタデータ) (2020-06-05T17:09:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。