論文の概要: From Static Structures to Ensembles: Studying and Harnessing Protein Structure Tokenization
- arxiv url: http://arxiv.org/abs/2511.10056v1
- Date: Fri, 14 Nov 2025 01:29:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.669321
- Title: From Static Structures to Ensembles: Studying and Harnessing Protein Structure Tokenization
- Title(参考訳): 静的構造からアンサンブルへ:タンパク質構造トークン化の研究と調和
- Authors: Zijing Liu, Bin Feng, He Cao, Yu Li,
- Abstract要約: タンパク質構造トークン化は、3D構造を離散的あるいはベクトル化された表現に変換する。
構造トークン化に関する最近の多くの研究にもかかわらず、基礎となる離散表現の性質はよく理解されていない。
構造予測のための言語モデルにおける構造トークンの有効利用は、リッチで訓練済みのシーケンス埋め込みを使うことに依存していることを示す。
- 参考スコア(独自算出の注目度): 15.864659611818661
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Protein structure tokenization converts 3D structures into discrete or vectorized representations, enabling the integration of structural and sequence data. Despite many recent works on structure tokenization, the properties of the underlying discrete representations are not well understood. In this work, we first demonstrate that the successful utilization of structural tokens in a language model for structure prediction depends on using rich, pre-trained sequence embeddings to bridge the semantic gap between the sequence and structural "language". The analysis of the structural vocabulary itself then reveals significant semantic redundancy, where multiple distinct tokens correspond to nearly identical local geometries, acting as "structural synonyms". This redundancy, rather than being a flaw, can be exploited with a simple "synonym swap" strategy to generate diverse conformational ensembles by perturbing a predicted structure with its structural synonyms. This computationally lightweight method accurately recapitulates protein flexibility, performing competitively with state-of-the-art models. Our study provides fundamental insights into the nature of discrete protein structure representations and introduces a powerful, near-instantaneous method for modeling protein dynamics. Source code is available in https://github.com/IDEA-XL/TokenMD.
- Abstract(参考訳): タンパク質構造トークン化は、3D構造を離散的あるいはベクトル化された表現に変換し、構造データとシーケンスデータの統合を可能にする。
構造トークン化に関する最近の多くの研究にもかかわらず、基礎となる離散表現の性質はよく理解されていない。
本研究では、構造予測のための言語モデルにおける構造トークンの有効利用が、構造的"言語"と構造的"言語"のセマンティックギャップを埋めるために、リッチでトレーニング済みのシーケンス埋め込みを使うことに依存することを最初に実証する。
構造語彙自体の分析は、複数の異なるトークンがほぼ同一の局所的ジオメトリーに対応し、「構造的同義語」として機能する重要な意味的冗長性を明らかにする。
この冗長性は欠陥ではなく、単純な「シンノニムスワップ」戦略で利用でき、予測された構造をその構造的同義語で摂動することで様々なコンフォメーションアンサンブルを生成することができる。
この計算的に軽量な方法はタンパク質の柔軟性を正確に再カプセル化し、最先端のモデルと競合する。
本研究は、タンパク質構造表現の性質に関する基本的な知見を提供し、タンパク質の動態をモデル化するための強力な、ほぼ瞬時的な手法を導入する。
ソースコードはhttps://github.com/IDEA-XL/TokenMDで入手できる。
関連論文リスト
- Probability Signature: Bridging Data Semantics and Embedding Structure in Language Models [8.87728727154868]
トークン間の意味的関係を反映した確率シグネチャのセットを提案する。
Pile corpus のサブセット上で Qwen2.5 アーキテクチャをトレーニングすることで,我々の作業を大規模言語モデル (LLM) に一般化する。
論文 参考訳(メタデータ) (2025-09-24T13:49:44Z) - StructCoh: Structured Contrastive Learning for Context-Aware Text Semantic Matching [10.000850856259866]
StructCohはグラフ強化のコントラスト学習フレームワークである。
階層的な対照的な目的は、複数の粒度で一貫性を強制する。
3つの法的な文書マッチングベンチマークと学術的プラジャリズム検出データセットの実験は、大幅な改善を示している。
論文 参考訳(メタデータ) (2025-09-02T07:21:36Z) - Large Language Model-driven Meta-structure Discovery in Heterogeneous Information Network [29.149367323751413]
進化過程に推論を統合するメタ構造探索フレームワークReStructを提案する。
ReStructは推薦タスクとノード分類タスクの両方で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-02-18T09:21:12Z) - FoldToken: Learning Protein Language via Vector Quantization and Beyond [56.19308144551836]
タンパク質配列構造を離散シンボルとして表現するために textbfFoldTokenizer を導入する。
学習したシンボルを textbfFoldToken と呼び、FoldToken の配列が新しいタンパク質言語として機能する。
論文 参考訳(メタデータ) (2024-02-04T12:18:51Z) - StructRe: Rewriting for Structured Shape Modeling [60.20359722058389]
本稿では,構造化形状モデリングの新しいアプローチとして,構造書換えシステムであるStructReを提案する。
ポイントとコンポーネントで表される3Dオブジェクトが与えられたら、StructReはそれを上向きに、より簡潔な構造に書き直すか、より詳細な構造に書き直すことができる。
論文 参考訳(メタデータ) (2023-11-29T10:35:00Z) - StrAE: Autoencoding for Pre-Trained Embeddings using Explicit Structure [5.2869308707704255]
StrAEは構造化オートエンコーダフレームワークであり、明示的な構造に厳格に固執することで、マルチレベル表現の効果的な学習を可能にする。
本研究の結果は,入力として提供される構造に直接的な関連性があることを示し,既存のツリーモデルではそうではないことを示す。
次に、StrAEを拡張して、単純なローカライズ・マージアルゴリズムを用いてモデルが独自の構成を定義する。
論文 参考訳(メタデータ) (2023-05-09T16:20:48Z) - How Do Transformers Learn Topic Structure: Towards a Mechanistic
Understanding [56.222097640468306]
我々は、トランスフォーマーが「意味構造」を学ぶ方法の機械的理解を提供する
数学的解析とウィキペディアデータの実験を組み合わせることで、埋め込み層と自己保持層がトピック構造をエンコードしていることを示す。
論文 参考訳(メタデータ) (2023-03-07T21:42:17Z) - Autoregressive Structured Prediction with Language Models [73.11519625765301]
本稿では, PLM を用いた自己回帰的手法を用いて, モデル構造を行動列として記述する。
我々のアプローチは、私たちが見てきた全ての構造化予測タスクにおいて、新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-10-26T13:27:26Z) - Unsupervised Distillation of Syntactic Information from Contextualized
Word Representations [62.230491683411536]
我々は,ニューラルネットワーク表現における意味論と構造学の非教師なしの絡み合いの課題に取り組む。
この目的のために、構造的に類似しているが意味的に異なる文群を自動的に生成する。
我々は、我々の変換クラスタベクトルが、語彙的意味論ではなく構造的特性によって空間に現れることを実証する。
論文 参考訳(メタデータ) (2020-10-11T15:13:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。