論文の概要: Scaling Probabilistic Transformer via Efficient Cross-Scale Hyperparameter Transfer
- arxiv url: http://arxiv.org/abs/2604.25409v1
- Date: Tue, 28 Apr 2026 09:22:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.793093
- Title: Scaling Probabilistic Transformer via Efficient Cross-Scale Hyperparameter Transfer
- Title(参考訳): クロススケールハイパーパラメータ転送による確率変換器のスケーリング
- Authors: Penghao Kuang, Haoyi Wu, Kewei Tu,
- Abstract要約: Probabilistic Transformer (PT) は文脈表現のためのホワイトボックス確率モデルである。
我々はPTのパラメータを再スケールし、追加のチューニングなしで大きなモデルに転送できるようにした。
実験により、PTは同じパラメータ予算の下で標準変圧器を一貫して上回っていることが示された。
- 参考スコア(独自算出の注目度): 42.15960760908218
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Probabilistic Transformer (PT), a white-box probabilistic model for contextual word representation, has demonstrated substantial similarity to standard Transformers in both computational structure and downstream task performance on small models and small to medium sized datasets. However, PT is less robust to hyperparameter choices than standard Transformers, making it harder to scale efficiently. In this work, we follow Maximal Update Parametrization (muP) to rescale PT's parameters, so that hyperparameters optimized on small models can be transferred to larger models without additional tuning. With this approach, we successfully scale PT to models with up to 0.4B parameters. Experiments show that PT consistently outperforms standard transformer under the same parameter budget on Masked Language Modeling (MLM) tasks. We hope this work will contribute to the practical deployment of probabilistic models at substantially larger scales in the future.
- Abstract(参考訳): 文脈表現のためのホワイトボックス確率モデルである確率変換器(PT)は,小モデルと中~中規模のデータセットにおいて,計算構造および下流タスク性能の両方において標準変換器とかなりの類似性を示した。
しかし、PTは標準のTransformerよりもハイパーパラメータ選択に対して堅牢ではないため、効率よくスケールすることが困難である。
本研究では、最大更新パラメータ化(muP)に従ってPTのパラメータを再スケールし、小さなモデルに最適化されたハイパーパラメータを追加チューニングなしで大きなモデルに転送する。
このアプローチにより、最大0.4Bパラメータを持つモデルにPTを拡張できる。
実験の結果,PT は Masked Language Modeling (MLM) タスクにおいて,同じパラメータ予算の下で標準トランスフォーマーを一貫して上回っていることがわかった。
この取り組みが,将来,はるかに大規模な確率モデルの実践的展開に寄与することを期待している。
関連論文リスト
- Hyperparameter Transfer with Mixture-of-Expert Layers [51.03005470884366]
現代のニューラルネットワークをスケールアップするための重要なツールとして、Mixture-of-Experts(MoE)層が登場した。
モデル幅,深さ,専門家の数,(隠れた)サイズを拡大する際,MoE層を有するトランスフォーマーモデルのパラメータ化を提案する。
論文 参考訳(メタデータ) (2026-01-28T03:02:30Z) - MoEUT: Mixture-of-Experts Universal Transformers [75.96744719516813]
ユニバーサルトランスフォーマー(UT)は、合成一般化の学習において標準トランスフォーマーよりも有利である。
層共有は、同じ次元を持つ非共有モデルと比較してパラメータ数を大幅に削減する。
従来の作業では、言語モデリングのようなパラメータ数の支配的なタスクと競合する共有層トランスフォーマー設計の提案に成功しなかった。
論文 参考訳(メタデータ) (2024-05-25T03:24:32Z) - Diffscaler: Enhancing the Generative Prowess of Diffusion Transformers [34.611309081801345]
本稿では,1つの事前学習拡散変圧器モデルにより,複数のデータセットを高速にスケールできるようにすることに焦点をあてる。
DiffScalerは拡散モデルの効率的なスケーリング戦略であり、異なるタスクに適応するために最小限のパラメータを訓練する。
変換器に基づく拡散モデルは,より小さなデータセットに対して微調整を行いながら,CNNに基づく拡散モデルよりも大幅に優れていることがわかった。
論文 参考訳(メタデータ) (2024-04-15T17:55:43Z) - Understanding Parameter Sharing in Transformers [53.75988363281843]
トランスフォーマーに関するこれまでの研究は、異なるレイヤでパラメータを共有することに集中しており、モデルの深さを増大させることで、限られたパラメータを持つモデルの性能を向上させることができる。
このアプローチの成功は, モデル複雑性の増加により, ごく一部に過ぎず, 収束性の向上に大きく寄与することを示す。
8つの機械翻訳タスクの実験結果から,パラメータ共有モデルのモデル複雑性を半分に抑えて,我々のモデルが競合性能を達成することが示された。
論文 参考訳(メタデータ) (2023-06-15T10:48:59Z) - Efficient GPT Model Pre-training using Tensor Train Matrix
Representation [65.96485282393361]
大規模なトランスフォーマーモデルは数十億のパラメータを特徴としており、デプロイが困難になり、スクラッチからトレーニングコストが禁じられている。
GPT-2アーキテクチャのパラメータ数を削減すべく、完全に接続された層の行列を対応するTrain Matrix(TTM)構造に置き換える。
GPTベースのモデルは最大40%のパラメータを格納し、元のモデルに匹敵するパープレキシティを示す。
論文 参考訳(メタデータ) (2023-06-05T08:38:25Z) - READ: Recurrent Adaptation of Large Transformers [7.982905666062059]
モデルサイズとタスク数が増加するにつれて、微調整の大規模トランスフォーマーは実用的ではない。
textbfREcurrent textbfADaption (READ) を導入する。
論文 参考訳(メタデータ) (2023-05-24T16:59:41Z) - Mnemosyne: Learning to Train Transformers with Transformers [18.36543176998175]
Mnemosyneは最小限の計算資源を必要とする単純なメタトレーニング戦略を用いてトランスフォーマーのトレーニングを成功させることができることを示す。
Mnemosyneは、手作業で設計された一階述語に匹敵する複雑さを提供する。
論文 参考訳(メタデータ) (2023-02-02T14:40:28Z) - Subformer: Exploring Weight Sharing for Parameter Efficiency in
Generative Transformers [16.88840622945725]
パラメータ効率の良いトランスフォーマーモデルであるSubformerを開発した。
機械翻訳、抽象的要約、および言語モデリングに関する実験は、サブフォーマーが大幅に少ないパラメータを使用してもトランスフォーマーを上回ることができることを示しています。
論文 参考訳(メタデータ) (2021-01-01T13:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。