論文の概要: Allocation of Parameters in Transformers
- arxiv url: http://arxiv.org/abs/2510.03784v1
- Date: Sat, 04 Oct 2025 11:22:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.252873
- Title: Allocation of Parameters in Transformers
- Title(参考訳): 変圧器におけるパラメータの割り当て
- Authors: Ruoxi Yu, Haotian Jiang, Jingpu Cheng, Penghao Yu, Qianxiao Li, Zhong Li,
- Abstract要約: モデルパラメーター(主に注意頭と頭部次元)が、表現性と効率のバランスをとるために層全体にどのように配置されるべきかを検討する。
ソフトマックスアクティベーションのエンハンサレーション挙動を理論と実験の両方で実証する。
本稿では,トランスフォーマー層にまたがるアテンションヘッドと次元を割り当てるための基本戦略を提案する。
- 参考スコア(独自算出の注目度): 31.7433692306049
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers have achieved remarkable successes across a wide range of applications, yet the theoretical foundation of their model efficiency remains underexplored. In this work, we investigate how the model parameters -- mainly attention heads and head dimensions -- should be allocated across layers to balance expressivity and efficiency. We first provide mathematical analysis on the role of early layers in information extraction from an approximation perspective, with a theoretical characterization on the trade-off between the number of heads and head dimension under a fixed parameter budget. In addition, we uncover and prove the \emph{saturation} behavior of softmax activations: Continuously increasing head dimensions can lead to diminishing returns in learning errors, particularly for long sequences. Supported by both theory and experiments, this saturation pattern suggests that later layers can operate more efficiently with reduced parameters. Combining these insights, we propose principled strategies for allocating attention heads and dimensions across Transformers' layers, shedding light on theoretically-grounded model efficiency of Transformer-based architectures.
- Abstract(参考訳): トランスフォーマーは広範囲のアプリケーションで顕著な成功を収めてきたが、モデル効率の理論的な基礎は未解明のままである。
本研究では, モデルパラメーター(主に注目ヘッドと頭部次元)が, 表現性と効率のバランスをとるために, 層間にどのように配置されるかを検討する。
まず,近似の観点から情報抽出における初期層の役割を数学的に解析し,頭部数と頭部次元とのトレードオフを定量的に評価する。
さらに、ソフトマックスアクティベーションの「emph{saturation}」の振る舞いを明らかにし、証明する: 連続的に増大する頭部次元は、特に長いシーケンスにおいて、学習エラーのリターンを減少させる。
理論と実験の両方で支持されているこの飽和パターンは、後続の層がパラメータを減らしてより効率的に動作できることを示唆している。
これらの知見を組み合わせることで、トランスフォーマーの層をまたいだアテンションヘッドと次元を割り当て、トランスフォーマーをベースとしたアーキテクチャの理論的基盤モデル効率に光を当てるための原則的戦略を提案する。
関連論文リスト
- Efficient Hyperparameter Tuning via Trajectory Invariance Principle [35.90572735438328]
学習速度と重み減衰を組み合わせた量に関して, 学習前損失曲線, 勾配雑音, 勾配ノルムがほぼ重なり合う, トラジェクトリ不変(trajectory invariance)と呼ばれる現象を同定する。
この現象は、元の2次元のハイパーパラメータ空間を1次元に効果的に還元し、効率的なチューニング規則をもたらす。
全体として,本研究は,効率的なチューニングのための新しい原則を提案し,スケーリング法則に関する今後の研究を刺激するものである。
論文 参考訳(メタデータ) (2025-09-29T17:01:19Z) - Weight Spectra Induced Efficient Model Adaptation [54.8615621415845]
微調整された大規模な基礎モデルは、計算コストを禁ずる。
微調整が最上位特異値を大きく増幅する一方で,残りはほとんど無傷であることを示す。
本稿では,トップ特異方向の学習可能な再スケーリングを利用する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-05-29T05:03:29Z) - Efficient Orthogonal Fine-Tuning with Principal Subspace Adaptation [43.719298075378425]
パラメータ効率の良いファインチューニングのための主部分空間適応(PSOFT)を用いたオルソゴンファインチューニングを提案する。
35のNLPタスクとCVタスクの実験により、PEFTにおける意味保存、表現性、多次元効率を同時に達成するために、PSOFTは実用的でスケーラブルなソリューションを提供することが示された。
論文 参考訳(メタデータ) (2025-05-16T13:26:48Z) - Towards Understanding the Optimization Mechanisms in Deep Learning [5.281849820329249]
本稿では,ディープニューラルネットワークを用いた教師付き分類のメカニズムを探るため,分布推定の観点を採用する。
後者では、オーバー・アンド・確率ランダム化のようなメカニズムに関する理論的洞察を提供する。
論文 参考訳(メタデータ) (2025-03-29T08:46:13Z) - How Transformers Utilize Multi-Head Attention in In-Context Learning? A Case Study on Sparse Linear Regression [19.64743851296488]
本研究では、疎線形回帰問題を考察し、訓練されたマルチヘッドトランスがコンテキスト内学習を行う方法を検討する。
マルチヘッドの利用は層間における異なるパターンを示すことが実験的に明らかになった。
このような前処理列最適化アルゴリズムは、直交勾配勾配とリッジ回帰アルゴリズムを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-08-08T15:33:02Z) - See Further for Parameter Efficient Fine-tuning by Standing on the Shoulders of Decomposition [56.87609859444084]
パラメータ効率の細かいチューニング(PEFT)は、パラメータの選択したサブセットを最適化し、残りを固定し、計算とストレージのオーバーヘッドを大幅に削減することに焦点を当てている。
分解の観点からそれらを分離することで、すべてのアプローチを統一する第一歩を踏み出します。
本稿では,PEFT技術の性能向上を目的とした,単純かつ効果的なフレームワークとともに,新しい2つのPEFT手法を提案する。
論文 参考訳(メタデータ) (2024-07-07T15:44:42Z) - Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Analysis of Catastrophic Forgetting for Random Orthogonal Transformation
Tasks in the Overparameterized Regime [9.184987303791292]
可変MNIST画像分類タスクでは,バニラ勾配降下により訓練された多層パーセプトロンの性能を向上させることができることを示す。
定性的に類似した2タスク線形回帰問題を研究することによって、この効果を理論的に説明する。
モデルが追加の正規化なしで連続的に2つのタスクで訓練された場合、最初のタスクのリスクゲインは小さくなることを示す。
論文 参考訳(メタデータ) (2022-06-01T18:04:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。