Fugu-MT 論文翻訳(概要): Transformers trained on proteins can learn to attend to Euclidean distance

論文の概要: Transformers trained on proteins can learn to attend to Euclidean distance

arxiv url: http://arxiv.org/abs/2502.01533v1
Date: Mon, 03 Feb 2025 17:12:44 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-05 15:21:55.169508
Title: Transformers trained on proteins can learn to attend to Euclidean distance
Title（参考訳）: タンパク質で訓練されたトランスフォーマーはユークリッド距離を学習できる
Authors: Isaac Ellmen, Constantin Schneider, Matthew I. J. Raybould, Charlotte M. Deane,
Abstract要約: 座標の線形埋め込みをパスした場合,トランスフォーマーは構造モデルとして独立に機能することを示す。また,事前学習したタンパク質トランスフォーマーエンコーダの構造により,下流タスクの性能が向上することを示す。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While conventional Transformers generally operate on sequence data, they can be used in conjunction with structure models, typically SE(3)-invariant or equivariant graph neural networks (GNNs), for 3D applications such as protein structure modelling. These hybrids typically involve either (1) preprocessing/tokenizing structural features as input for Transformers or (2) taking Transformer embeddings and processing them within a structural representation. However, there is evidence that Transformers can learn to process structural information on their own, such as the AlphaFold3 structural diffusion model. In this work we show that Transformers can function independently as structure models when passed linear embeddings of coordinates. We first provide a theoretical explanation for how Transformers can learn to filter attention as a 3D Gaussian with learned variance. We then validate this theory using both simulated 3D points and in the context of masked token prediction for proteins. Finally, we show that pre-training protein Transformer encoders with structure improves performance on a downstream task, yielding better performance than custom structural models. Together, this work provides a basis for using standard Transformers as hybrid structure-language models.
Abstract（参考訳）: 従来のトランスフォーマーは、一般的にシーケンスデータを扱うが、タンパク質構造モデリングのような3Dアプリケーションでは、SE(3)不変または同変グラフニューラルネットワーク(GNN)という構造モデルと併用することができる。これらのハイブリッドは、(1) トランスフォーマーの入力として構造的特徴を前処理/トークン化するか、(2) トランスフォーマーを埋め込んで構造的表現で処理する。しかし、AlphaFold3構造拡散モデルなど、トランスフォーマーが独自の構造情報を処理することができるという証拠がある。本研究では,座標の線形埋め込みを経た場合,トランスフォーマーは構造モデルとして独立に機能することを示す。まず,変圧器が3次元ガウス解析器として注意をフィルタする方法を理論的に説明する。次に、シミュレーションされた3Dポイントとタンパク質のマスク付きトークン予測の両方を用いて、この理論を検証する。最後に、構造を持つ事前学習タンパク質トランスフォーマーエンコーダにより、下流タスクの性能が向上し、カスタム構造モデルよりも優れた性能が得られることを示す。この研究は、標準トランスフォーマーをハイブリッド構造言語モデルとして使用する基盤を提供する。

関連論文リスト

Plain Transformers Can be Powerful Graph Learners [64.50059165186701]
研究者たちは、Transformerをグラフ学習に移行しようとしたが、ほとんどの高度なGraph Transformerは、普通のTransformerから遠く離れている。この研究は、普通のTransformerアーキテクチャが強力なグラフ学習者になれることを示した。
論文参考訳（メタデータ） (2025-04-17T02:06:50Z)
Disentangling Feature Structure: A Mathematically Provable Two-Stage Training Dynamics in Transformers [14.775485895006323]
本稿では, 変圧器においてこのような2段階のトレーニング力学がどのように起こるかを理論的に示す。最もよく知られているのは、トランスにおける2段階最適化プロセスに関して、これが最初の厳密な結果である。
論文参考訳（メタデータ） (2025-02-28T03:27:24Z)
(How) Can Transformers Predict Pseudo-Random Numbers? [7.201095605457193]
線形合同生成器(LCG)から擬似ランダム数列を学習するトランスフォーマーの能力について検討する。我々の分析によれば、トランスフォーマーは無意味なmoduli(m$)とパラメータ(a,c$)でLCGシーケンスのコンテキスト内予測を行うことができる。
論文参考訳（メタデータ） (2025-02-14T18:59:40Z)
Converting Transformers into DGNNs Form [7.441691512676916]
ダイグラフフーリエ変換に基づく合成ユニタリグラフ畳み込みを導入する。 Converterと呼ぶ結果のモデルは、トランスフォーマーをダイレクトグラフニューラルネットワーク形式に効果的に変換する。我々は、Long-Range Arenaベンチマーク、Long-Range Arena分類、DNAシークエンスに基づく分類でConverterを検証した。
論文参考訳（メタデータ） (2025-02-01T22:44:46Z)
Beyond Scaling Laws: Understanding Transformer Performance with Associative Memory [11.3128832831327]
Transformerのサイズが大きくなると、パフォーマンスが向上するとは限らない。本稿では,変圧器を用いた言語モデルの事前学習において,記憶に光を当てる理論的枠組みを提案する。
論文参考訳（メタデータ） (2024-05-14T15:48:36Z)
On the Convergence of Encoder-only Shallow Transformers [62.639819460956176]
エンコーダのみの浅部変圧器のグローバル収束理論を現実的な条件下で構築する。我々の結果は、現代のトランスフォーマー、特にトレーニング力学の理解を深める道を開くことができる。
論文参考訳（メタデータ） (2023-11-02T20:03:05Z)
Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文参考訳（メタデータ） (2022-12-15T09:21:21Z)
Characterizing Intrinsic Compositionality in Transformers with Tree Projections [72.45375959893218]
トランスのようなニューラルモデルは、入力の異なる部分間で情報を任意にルーティングすることができる。 3つの異なるタスクに対するトランスフォーマーは、トレーニングの過程でより木のようなものになることを示す。これらの木はモデル挙動を予測し、より木のようなモデルは構成的一般化のテストにおいてより良く一般化する。
論文参考訳（メタデータ） (2022-11-02T17:10:07Z)
Structural Biases for Improving Transformers on Translation into Morphologically Rich Languages [120.74406230847904]
TP-Transformerは従来のTransformerアーキテクチャを拡張し、構造を表現するコンポーネントを追加する。第2の方法は、形態的トークン化でデータをセグメント化することで、データレベルで構造を付与する。これらの2つのアプローチのそれぞれが、ネットワークがより良いパフォーマンスを達成することを可能にすることは分かっていますが、この改善はデータセットのサイズに依存します。
論文参考訳（メタデータ） (2022-08-11T22:42:24Z)
Your Transformer May Not be as Powerful as You Expect [88.11364619182773]
連続列列列関数を近似できるかどうかに関して, RPE ベースの変換器のパワーを数学的に解析する。 RPEをベースとしたトランスフォーマーでは,ニューラルネットワークの深さや幅がどんなに深くても近似できない連続列列列列関数が存在することを示す。我々は,その条件を満たす,Universal RPE-based (URPE) Attentionと呼ばれる新しいアテンションモジュールを開発する。
論文参考訳（メタデータ） (2022-05-26T14:51:30Z)
Incorporating Convolution Designs into Visual Transformers [24.562955955312187]
我々は、低レベル特徴抽出におけるCNNの利点、局所性の向上、長距離依存の確立におけるトランスフォーマーの利点を組み合わせた新しいtextbfConvolution-enhanced image Transformer (CeiT) を提案する。 ImageNetと7つの下流タスクの実験結果は、大量のトレーニングデータや追加のCNN教師を必要とすることなく、従来のトランスフォーマーや最先端CNNと比較してCeiTの有効性と一般化能力を示している。
論文参考訳（メタデータ） (2021-03-22T13:16:12Z)
SIT3: Code Summarization with Structure-Induced Transformer [48.000063280183376]
シーケンシャル入力を高効率な構造モデリングでエンコードする構造誘起自己保持に基づく新しいモデルを提案する。新たに提案したモデルでは,一般的なベンチマークで最新の結果が得られる。
論文参考訳（メタデータ） (2020-12-29T11:37:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。