論文の概要: Reverse Distillation: Consistently Scaling Protein Language Model Representations
- arxiv url: http://arxiv.org/abs/2603.07710v1
- Date: Sun, 08 Mar 2026 16:24:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.091852
- Title: Reverse Distillation: Consistently Scaling Protein Language Model Representations
- Title(参考訳): Reverse Distillation: Consistently Scaling Protein Language Representation
- Authors: Darius Catrina, Christian Bepler, Samuel Sledzieski, Rohit Singh,
- Abstract要約: リバース蒸留(Reverse Distillation)は、PLMの表現を同じ家系のより小さなモデルで導かれる部分空間に分解する原理的なフレームワークである。
動機となる直感は、キャパシティによって制約されたより小さなモデルが、広く共有されたタンパク質の特徴を優先的にエンコードすることである。
ProteinGymベンチマークでは、逆蒸留ESM-2変種がそれぞれのベースラインを同じ埋め込み次元で上回り、逆蒸留された15億のパラメータモデルが最も高い性能を達成した。
- 参考スコア(独自算出の注目度): 0.6066775336291516
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Unlike the predictable scaling laws in natural language processing and computer vision, protein language models (PLMs) scale poorly: for many tasks, models within the same family plateau or even decrease in performance, with mid-sized models often outperforming the largest in the family. We introduce Reverse Distillation, a principled framework that decomposes large PLM representations into orthogonal subspaces guided by smaller models of the same family. The resulting embeddings have a nested, Matryoshka-style structure: the first k dimensions of a larger model's embedding are exactly the representation from the smaller model. This ensures that larger reverse-distilled models consistently outperform smaller ones. A motivating intuition is that smaller models, constrained by capacity, preferentially encode broadly-shared protein features. Reverse distillation isolates these shared features and orthogonally extracts additional contributions from larger models, preventing interference between the two. On ProteinGym benchmarks, reverse-distilled ESM-2 variants outperform their respective baselines at the same embedding dimensionality, with the reverse-distilled 15 billion parameter model achieving the strongest performance. Our framework is generalizable to any model family where scaling challenges persist. Code and trained models are available at https://github.com/rohitsinghlab/plm_reverse_distillation.
- Abstract(参考訳): 自然言語処理やコンピュータビジョンにおける予測可能なスケーリング法則とは異なり、タンパク質言語モデル(PLM)は、多くのタスクにおいて、同じファミリーの台地内にあるモデルや、パフォーマンスの低下さえも、低スケールである。
逆蒸留(Reverse Distillation)は、大きなPLM表現を同じ家系のより小さなモデルで導かれる直交部分空間に分解する原理的なフレームワークである。
より大きなモデルの埋め込みの最初の k 次元は、ちょうど小さなモデルからの表現である。
これにより、大きな逆蒸留モデルの方が、より小さなモデルよりも一貫して優れている。
動機となる直感は、キャパシティによって制約されたより小さなモデルが、広く共有されたタンパク質の特徴を優先的にエンコードすることである。
逆蒸留はこれらの共有特徴を分離し、より大きなモデルから直交的に追加の寄与を抽出し、両者の干渉を防ぐ。
ProteinGymベンチマークでは、逆蒸留ESM-2変種がそれぞれのベースラインを同じ埋め込み次元で上回り、逆蒸留された15億のパラメータモデルが最も高い性能を達成した。
私たちのフレームワークは、スケーリングの課題が持続するモデルファミリに一般化可能です。
コードとトレーニングされたモデルはhttps://github.com/rohitsinghlab/plm_reverse_distillation.comで公開されている。
関連論文リスト
- Dispersion Loss Counteracts Embedding Condensation and Improves Generalization in Small Language Models [55.908141398092646]
大規模言語モデル(LLM)はパラメータ数の増加によって顕著な性能を達成するが、スケーリングは計算コストの急激な増加を招く。
本研究では,LLMと小型モデルの表現特性を再現することを目的として,LLMと小型モデルの表現特性の相違について検討する。
我々は、 $textttGPT2$ や $textttQwen3-0.6B$ のような小さなモデルは、深刻な凝縮を示し、 $textttGPT2-xl$ や $textttQwen3-32B のような大きなモデルは、
論文 参考訳(メタデータ) (2026-01-30T16:07:03Z) - Towards Reversible Model Merging For Low-rank Weights [5.100622189286672]
モデルマージは、複数の微調整されたモデルを1セットの重みにまとめることを目的としており、すべてのソースタスクでうまく機能する。
従来のマージ法を低ランクウェイトに適用すると, マージモデルの性能が著しく低下することを示す。
すべてのアダプタを1組の重みに分解する代わりに、コンパクトな基底を構築する。
これは、単一のマージモデルを生成するのではなく、再構成可能なモデル空間を生成するものとしてマージされる。
論文 参考訳(メタデータ) (2025-10-15T23:22:38Z) - Boomerang Distillation Enables Zero-Shot Model Size Interpolation [30.74896485280105]
既存のアプローチは、各サイズを個別にトレーニングすることでモデルファミリを構築する。
本研究では,ブーメラン蒸留と呼ばれる新しい現象を同定する。
最初は小さな学生に蒸留し、その後、教師層のブロックを学生に組み込むことで、段階的に中間サイズのモデルを再構築する。
論文 参考訳(メタデータ) (2025-10-06T17:41:20Z) - SurgeryV2: Bridging the Gap Between Model Merging and Multi-Task Learning with Deep Representation Surgery [54.866490321241905]
モデルマージに基づくマルチタスク学習(MTL)は、複数のエキスパートモデルをマージしてMTLを実行するための有望なアプローチを提供する。
本稿では,統合モデルの表現分布について検討し,「表現バイアス」の重要な問題を明らかにする。
このバイアスは、マージされたMTLモデルの表現と専門家モデルの間の大きな分布ギャップから生じ、マージされたMTLモデルの最適下性能に繋がる。
論文 参考訳(メタデータ) (2024-10-18T11:49:40Z) - PLeaS -- Merging Models with Permutations and Least Squares [43.17620198572947]
PLeaSと呼ばれるモデルをマージする2段階の新たなアルゴリズムを提案し、制約を緩和する。
PLeaSはアライメントを最大化することで各層のノードに部分的にマッチする。
また、細調整されたドメインからデータを入手できないという難題に対処するために、我々のメソッドをどのように拡張できるかを実証する。
論文 参考訳(メタデータ) (2024-07-02T17:24:04Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - When Ensembling Smaller Models is More Efficient than Single Large
Models [52.38997176317532]
アンサンブルは高い精度で単一モデルより優れており、計算に要する総FLOPは少ない。
これは、アンサンブルの出力の多様性がより大きなモデルを訓練するよりも効率的であることを示す興味深い観察結果である。
論文 参考訳(メタデータ) (2020-05-01T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。