Fugu-MT 論文翻訳(概要): Sampling at intermediate temperatures is optimal for training large language models in protein structure prediction

論文の概要: Sampling at intermediate temperatures is optimal for training large language models in protein structure prediction

arxiv url: http://arxiv.org/abs/2603.29529v1
Date: Tue, 31 Mar 2026 10:09:30 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-01 15:25:03.534489
Title: Sampling at intermediate temperatures is optimal for training large language models in protein structure prediction
Title（参考訳）: 中間温度でのサンプリングはタンパク質構造予測における大規模言語モデルの訓練に最適である
Authors: L. Ghiringhelli, A. Zambon, G. Tiana,
Abstract要約: タンパク質配列データに基づいて訓練されたトランスモデルのパラメータ空間を統計力学フレームワークを用いて検討する。フィードフォワードネットワークとの相違により,変圧器の損失における1次的な遷移の欠如は,学習特性のよい中間温度を生じることがわかった。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We investigate the parameter space of transformer models trained on protein sequence data using a statistical mechanics framework, sampling the loss landscape at varying temperatures by Langevin dynamics to characterize the low-loss manifold and understand the mechanisms underlying the superior performance of transformers in protein structure prediction. We find that, at variance with feedforward networks, the lack of a first--order--like transition in the loss of the transformer produces a range of intermediate temperatures with good learning properties. We show that the parameters of most layers are highly conserved at these temperatures if the dimension of the embedding is optimal, and we provide an operative way to find this dimension. Finally, we show that the attention matrix is more predictive of the contact maps of the protein at higher temperatures and for higher dimensions of the embedding than those optimal for learning.
Abstract（参考訳）: 本稿では, タンパク質配列データに基づいて訓練されたトランスファーモデルのパラメータ空間について, 統計力学フレームワークを用いて検討し, 低損失多様体のキャラクタリゼーションと, タンパク質構造予測におけるトランスフォーマーの優れた性能の基礎となるメカニズムを理解するために, ランゲヴィン力学による温度変化による損失景観のサンプリングを行った。フィードフォワードネットワークとの相違により、トランスフォーマーの損失における1次的な遷移が欠如していることは、学習特性に優れた中間温度を生じることが判明した。埋め込みの寸法が最適であれば,ほとんどの層のパラメータは,この温度で高度に保たれることを示し,この次元を求めるための協調的な方法を提案する。最後に, 注意行列は, 温度の高いタンパク質の接触マップと, 学習に最適なタンパク質よりも埋め込みの次元を予測できることを示す。

関連論文リスト

Exploring the Impact of Temperature Scaling in Softmax for Classification and Adversarial Robustness [8.934328206473456]
この研究は「温度」として知られるソフトマックス関数内でしばしば見過ごされるパラメータを掘り下げる。畳み込みニューラルネットワークとトランスフォーマーを採用した我々の実証研究は、温暖化によって全体的なパフォーマンスが向上することを示した。一般的な腐敗に対するモデルロバスト性の向上、自然摂動、そして投影されたグラディエント・ダイスンのような非標的の敵攻撃などです。
論文参考訳（メタデータ） (2025-02-28T00:07:45Z)
Prion-ViT: Prions-Inspired Vision Transformers for Temperature prediction with Specklegrams [0.0]
本研究では,プリオンインスパイアされたビジョントランスモデルであるPrion-ViTを導入し,FSSデータを用いた長期依存性モデリングと温度予測精度を向上させる。 Prion-ViTは永続的なメモリ状態を利用して、レイヤ間のキー機能の保持と伝搬を行い、平均絶対誤差(MAE)を0.71$circ$Cに削減し、ResNet、Inception Net V2、Standard Vision Transformersなどのモデルよりも優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-11-06T12:28:26Z)
Temperature Optimization for Bayesian Deep Learning [9.610060788662972]
テストログ予測密度を最大化する温度を選択するためのデータ駆動手法を提案する。提案手法は,グリッド探索において,コストのごく一部で比較可能な性能を実証的に証明する。
論文参考訳（メタデータ） (2024-10-08T07:32:22Z)
Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization [88.5582111768376]
本研究では, ソフトマックスを用いた自己保持層と, 勾配勾配下での完全連結層からなるトランスフォーマーの最適化について検討した。この結果から,データモデルにおける信号対雑音比に基づいて,小さなテストエラー位相と大規模なテストエラー状態とを区別できるシャープ条件を確立した。
論文参考訳（メタデータ） (2024-09-28T13:24:11Z)
Non-asymptotic Convergence of Training Transformers for Next-token Prediction [48.9399496805422]
トランスフォーマーは、シーケンシャルなデータを扱う優れた能力のために、現代の機械学習において驚くべき成功を収めています。本稿では, 単層変圧器のトレーニング力学の微細な非漸近解析を行う。トレーニングされたトランスフォーマーは,データセットシフトによる非トーケン予測能力を示すことを示す。
論文参考訳（メタデータ） (2024-09-25T20:22:06Z)
EBM-Fold: Fully-Differentiable Protein Folding Powered by Energy-based Models [53.17320541056843]
本研究では,データ駆動型生成ネットワークを用いたタンパク質構造最適化手法を提案する。 EBM-Foldアプローチは,従来のロゼッタ構造最適化ルーチンと比較して,高品質なデコイを効率よく生成できる。
論文参考訳（メタデータ） (2021-05-11T03:40:29Z)
Parameterized Temperature Scaling for Boosting the Expressive Power in Post-Hoc Uncertainty Calibration [57.568461777747515]
我々は新しいキャリブレーション手法であるパラメタライズド温度スケーリング(PTS)を導入する。最新のポストホックキャリブレータの精度保持性能は、その本質的な表現力によって制限されることを実証します。当社の新しい精度保存手法が,多数のモデルアーキテクチャやデータセット,メトリクスにおいて,既存のアルゴリズムを一貫して上回っていることを示す。
論文参考訳（メタデータ） (2021-02-24T10:18:30Z)
On Layer Normalization in the Transformer Architecture [112.40350994368741]
まず,学習速度のウォームアップが重要である理由を理論的に検討し,レイヤー正規化の位置が重要であることを示す。ウォームアップステージのないPre-LNトランスフォーマーはベースラインと同等の結果が得られることを示す。
論文参考訳（メタデータ） (2020-02-12T00:33:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。