論文の概要: Transformers trained on proteins can learn to attend to Euclidean distance
- arxiv url: http://arxiv.org/abs/2502.01533v1
- Date: Mon, 03 Feb 2025 17:12:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:01:17.807721
- Title: Transformers trained on proteins can learn to attend to Euclidean distance
- Title(参考訳): タンパク質で訓練されたトランスフォーマーはユークリッド距離を学習できる
- Authors: Isaac Ellmen, Constantin Schneider, Matthew I. J. Raybould, Charlotte M. Deane,
- Abstract要約: 座標の線形埋め込みをパスした場合,トランスフォーマーは構造モデルとして独立に機能することを示す。
また,事前学習したタンパク質トランスフォーマーエンコーダの構造により,下流タスクの性能が向上することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: While conventional Transformers generally operate on sequence data, they can be used in conjunction with structure models, typically SE(3)-invariant or equivariant graph neural networks (GNNs), for 3D applications such as protein structure modelling. These hybrids typically involve either (1) preprocessing/tokenizing structural features as input for Transformers or (2) taking Transformer embeddings and processing them within a structural representation. However, there is evidence that Transformers can learn to process structural information on their own, such as the AlphaFold3 structural diffusion model. In this work we show that Transformers can function independently as structure models when passed linear embeddings of coordinates. We first provide a theoretical explanation for how Transformers can learn to filter attention as a 3D Gaussian with learned variance. We then validate this theory using both simulated 3D points and in the context of masked token prediction for proteins. Finally, we show that pre-training protein Transformer encoders with structure improves performance on a downstream task, yielding better performance than custom structural models. Together, this work provides a basis for using standard Transformers as hybrid structure-language models.
- Abstract(参考訳): 従来のトランスフォーマーは、一般的にシーケンスデータを扱うが、タンパク質構造モデリングのような3Dアプリケーションでは、SE(3)不変または同変グラフニューラルネットワーク(GNN)という構造モデルと併用することができる。
これらのハイブリッドは、(1) トランスフォーマーの入力として構造的特徴を前処理/トークン化するか、(2) トランスフォーマーを埋め込んで構造的表現で処理する。
しかし、AlphaFold3構造拡散モデルなど、トランスフォーマーが独自の構造情報を処理することができるという証拠がある。
本研究では,座標の線形埋め込みを経た場合,トランスフォーマーは構造モデルとして独立に機能することを示す。
まず,変圧器が3次元ガウス解析器として注意をフィルタする方法を理論的に説明する。
次に、シミュレーションされた3Dポイントとタンパク質のマスク付きトークン予測の両方を用いて、この理論を検証する。
最後に、構造を持つ事前学習タンパク質トランスフォーマーエンコーダにより、下流タスクの性能が向上し、カスタム構造モデルよりも優れた性能が得られることを示す。
この研究は、標準トランスフォーマーをハイブリッド構造言語モデルとして使用する基盤を提供する。
関連論文リスト
- (How) Can Transformers Predict Pseudo-Random Numbers? [7.201095605457193]
線形合同生成器(LCG)から擬似ランダム数列を学習するトランスフォーマーの能力について検討する。
我々の分析によれば、トランスフォーマーは無意味なmoduli(m$)とパラメータ(a,c$)でLCGシーケンスのコンテキスト内予測を行うことができる。
論文 参考訳(メタデータ) (2025-02-14T18:59:40Z) - Converting Transformers into DGNNs Form [7.441691512676916]
ダイグラフフーリエ変換に基づく合成ユニタリグラフ畳み込みを導入する。
Converterと呼ぶ結果のモデルは、トランスフォーマーをダイレクトグラフニューラルネットワーク形式に効果的に変換する。
我々は、Long-Range Arenaベンチマーク、Long-Range Arena分類、DNAシークエンスに基づく分類でConverterを検証した。
論文 参考訳(メタデータ) (2025-02-01T22:44:46Z) - What Does It Mean to Be a Transformer? Insights from a Theoretical Hessian Analysis [8.008567379796666]
Transformerアーキテクチャは、間違いなくディープラーニングに革命をもたらした。
中心となる注意ブロックは、ディープラーニングにおける他のほとんどのアーキテクチャコンポーネントと形式と機能の違いです。
これらの外向きの表現の背後にある根本原因と、それらを管理する正確なメカニズムは、まだ理解されていないままである。
論文 参考訳(メタデータ) (2024-10-14T18:15:02Z) - On the Convergence of Encoder-only Shallow Transformers [62.639819460956176]
エンコーダのみの浅部変圧器のグローバル収束理論を現実的な条件下で構築する。
我々の結果は、現代のトランスフォーマー、特にトレーニング力学の理解を深める道を開くことができる。
論文 参考訳(メタデータ) (2023-11-02T20:03:05Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - Characterizing Intrinsic Compositionality in Transformers with Tree
Projections [72.45375959893218]
トランスのようなニューラルモデルは、入力の異なる部分間で情報を任意にルーティングすることができる。
3つの異なるタスクに対するトランスフォーマーは、トレーニングの過程でより木のようなものになることを示す。
これらの木はモデル挙動を予測し、より木のようなモデルは構成的一般化のテストにおいてより良く一般化する。
論文 参考訳(メタデータ) (2022-11-02T17:10:07Z) - Structural Biases for Improving Transformers on Translation into
Morphologically Rich Languages [120.74406230847904]
TP-Transformerは従来のTransformerアーキテクチャを拡張し、構造を表現するコンポーネントを追加する。
第2の方法は、形態的トークン化でデータをセグメント化することで、データレベルで構造を付与する。
これらの2つのアプローチのそれぞれが、ネットワークがより良いパフォーマンスを達成することを可能にすることは分かっていますが、この改善はデータセットのサイズに依存します。
論文 参考訳(メタデータ) (2022-08-11T22:42:24Z) - Your Transformer May Not be as Powerful as You Expect [88.11364619182773]
連続列列列関数を近似できるかどうかに関して, RPE ベースの変換器のパワーを数学的に解析する。
RPEをベースとしたトランスフォーマーでは,ニューラルネットワークの深さや幅がどんなに深くても近似できない連続列列列列関数が存在することを示す。
我々は,その条件を満たす,Universal RPE-based (URPE) Attentionと呼ばれる新しいアテンションモジュールを開発する。
論文 参考訳(メタデータ) (2022-05-26T14:51:30Z) - SIT3: Code Summarization with Structure-Induced Transformer [48.000063280183376]
シーケンシャル入力を高効率な構造モデリングでエンコードする構造誘起自己保持に基づく新しいモデルを提案する。
新たに提案したモデルでは,一般的なベンチマークで最新の結果が得られる。
論文 参考訳(メタデータ) (2020-12-29T11:37:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。