論文の概要: From Words to Amino Acids: Does the Curse of Depth Persist?
- arxiv url: http://arxiv.org/abs/2602.21750v1
- Date: Wed, 25 Feb 2026 10:06:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.78947
- Title: From Words to Amino Acids: Does the Curse of Depth Persist?
- Title(参考訳): 単語からアミノ酸へ:深さのカールは持続するか?
- Authors: Aleena Siji, Amir Mohammad Karimi Mamaghan, Ferdinand Kapl, Tobias Höppe, Emmanouil Angelis, Andrea Dittadi, Maurice Brenner, Michael Heinzinger, Karl Henrik Johansson, Kaitlin Maile, Johannes von Oswald, Stefan Bauer,
- Abstract要約: そこで本研究では,モデルファミリとスケールの6つのポピュラーなタンパク質言語モデル (PLM) の深度解析を行った。
大規模言語モデル(LLM)における事前発見を拡張する一貫した深度依存パターンを観察する。
以上の結果から, PLMは深度非効率性を示し, より深度効率のよいアーキテクチャやトレーニング手法の今後の研究を動機付けていると考えられる。
- 参考スコア(独自算出の注目度): 41.90462432884248
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Protein language models (PLMs) have become widely adopted as general-purpose models, demonstrating strong performance in protein engineering and de novo design. Like large language models (LLMs), they are typically trained as deep transformers with next-token or masked-token prediction objectives on massive sequence corpora and are scaled by increasing model depth. Recent work on autoregressive LLMs has identified the Curse of Depth: later layers contribute little to the final output predictions. These findings naturally raise the question of whether a similar depth inefficiency also appears in PLMs, where many widely used models are not autoregressive, and some are multimodal, accepting both protein sequence and structure as input. In this work, we present a depth analysis of six popular PLMs across model families and scales, spanning three training objectives, namely autoregressive, masked, and diffusion, and quantify how layer contributions evolve with depth using a unified set of probing- and perturbation-based measurements. Across all models, we observe consistent depth-dependent patterns that extend prior findings on LLMs: later layers depend less on earlier computations and mainly refine the final output distribution, and these effects are increasingly pronounced in deeper models. Taken together, our results suggest that PLMs exhibit a form of depth inefficiency, motivating future work on more depth-efficient architectures and training methods.
- Abstract(参考訳): タンパク質言語モデル(PLM)は汎用モデルとして広く採用され、タンパク質工学とデノボ設計において強力な性能を示している。
大規模言語モデル (LLMs) と同様に、それらは通常、大規模なシーケンスコーパス上の次のトーケンまたはマスクされたトーケン予測目標を持つディープトランスフォーマーとして訓練され、モデル深度を増大させることでスケールされる。
自己回帰LDMに関する最近の研究で、深さの曲線が特定されている: 後の層は最終的な出力予測にはほとんど寄与しない。
これらの知見は、多くの広く使われているモデルが自己回帰的ではなく、いくつかのモデルはマルチモーダルであり、タンパク質配列と構造の両方を入力として受け入れている PLM にも同様の深度不効率が現れるかどうかという疑問を自然に提起する。
本研究では,モデルファミリとスケールにまたがる6つの人気のあるPLMの深度解析を行い,自己回帰,マスク,拡散という3つの学習目標にまたがる。
全てのモデルにおいて、LLMの先行的な発見を延長する一貫した深さ依存パターンが観察される: 後続の層は、以前の計算に頼らず、主に最終出力分布を洗練し、これらの効果はより深いモデルで顕著になる。
この結果から, PLMは深度非効率性を示し, より深度効率のよいアーキテクチャやトレーニング手法の今後の研究を動機付けていることが示唆された。
関連論文リスト
- What Affects the Effective Depth of Large Language Models? [44.85395501835759]
モデルスケール,トレーニングタイプ,タスクの難易度によって,効果的な深さがどう変化するかを検討する。
有効層数はモデルサイズとともに増加するが, 有効深さ比は安定である。
以上の結果から,現在のLLMでは,スケール,トレーニングパラダイム,難易度が異なるタスクにおいて,利用可能な深度を過小評価していることが示唆された。
論文 参考訳(メタデータ) (2025-12-16T04:07:17Z) - How Do LLMs Use Their Depth? [17.148445769990907]
大規模言語モデルは深度を均一に用いていないが,層レベルでの予測力学の詳細な理解はいまだに得られていない。
本稿では,LLMが内部的に計算を構成して予測を行う方法について説明する。
論文 参考訳(メタデータ) (2025-10-21T17:59:05Z) - Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs [78.09559830840595]
本稿では拡散に基づく言語モデルの定量化に関する最初の体系的研究について述べる。
異常に大きなアクティベーション値によって特徴付けられるアクティベーションアウトリーチの存在を同定する。
我々は最先端のPTQ手法を実装し、包括的な評価を行う。
論文 参考訳(メタデータ) (2025-08-20T17:59:51Z) - Do Language Models Use Their Depth Efficiently? [61.0037917291838]
Llama 3.1, Qwen 3, OLMo 2 モデルの残留ストリームを解析した。
後半のレイヤが前半のレイヤよりもはるかに少ないことが分かりました。
マルチホップタスクでは、モデルが深度を増してサブレサルを構成するという証拠が見つからない。
論文 参考訳(メタデータ) (2025-05-20T04:00:56Z) - LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - The Curse of Depth in Large Language Models [28.37870372690079]
大きな言語モデルでは、約半数のレイヤが予想よりも効果が低い。
層ノルムスケーリング(LNS)は、層正規化の出力の分散を、その深さの平方根によって逆向きにスケールする。
LNSは、LLM事前学習性能の向上において、従来の正規化およびスケーリング技術よりも一貫して優れている。
論文 参考訳(メタデータ) (2025-02-09T07:03:36Z) - DepthART: Monocular Depth Estimation as Autoregressive Refinement Task [2.3884184860468136]
DepthART - Depth Autoregressive Refinement Taskとして定式化された新しいトレーニング手法を紹介する。
モデル自身の予測を入力として利用することにより、目標を残留最小化とし、トレーニングと推論手順の相違を効果的に軽減する。
提案手法を用いてHypersimデータセットをトレーニングすると、既存の生成的および識別的ベースラインと比較して、複数の未確認ベンチマークで優れた結果が得られる。
論文 参考訳(メタデータ) (2024-09-23T13:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。