論文の概要: Training Transformers in Cosine Coefficient Space
- arxiv url: http://arxiv.org/abs/2604.04440v2
- Date: Thu, 09 Apr 2026 03:32:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 14:10:47.866449
- Title: Training Transformers in Cosine Coefficient Space
- Title(参考訳): コサイン係数空間における変圧器の訓練
- Authors: Mohamed Amine Bergach,
- Abstract要約: キャラクターレベルのシェイクスピアのスクラッチから訓練されたトランスフォーマーは、検証損失が1.604$で$K = mn/2$に達した。
同じトレーニング可能なパラメータ数でのランク48のLoRA分解は、わずか1.801$である。
ランダムな正規直交基底はノイズ中のDCTを$K = mn/2$で一致させ、$K = mn/10$と$K = mn/20$で圧縮すると、高階行列をホストできる部分空間が損失を低く保つことを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Linear layers hold most of a transformer's parameters. We replace each linear layer with one that stores $K$ out of $mn$ two-dimensional DCT coefficients per weight matrix and reconstructs the full matrix through an inverse DCT at every forward pass; the $K$ coefficients are the trainable parameters. A 4-layer, 128-dim transformer trained from scratch on character-level Shakespeare reaches validation loss $1.604$ at $K = mn/2$, against $1.580$ for a standard dense baseline -- a gap of $+0.024$ at half the trainable parameter count, within the terminal-epoch variation of the dense run. A rank-48 LoRA factorization at the same trainable parameter count reaches only $1.801$ ($+0.221$). The structural advantage of sparse-coefficient over low-rank parameterizations at matched $K$ is qualitative. We identify rank flexibility as the mechanism. A random orthonormal basis matches the DCT within noise at $K = mn/2$, and a compression sweep through $K = mn/10$ and $K = mn/20$ shows that subspaces that can host high-rank matrices keep the loss low, while subspaces that flatten into a low-rank block (zigzag-selection variants) converge onto the observed stable rank \emph{and} the loss line of the rank-48 LoRA reference in lock-step. Among these orthonormal bases, the DCT is preferred because its separable fast transform admits a fused reconstruction kernel: the materialized weight matrix never leaves on-chip memory, so the parameter saving translates into a bandwidth saving as well.
- Abstract(参考訳): 線形層は変圧器のパラメータの大部分を保持する。
重み行列あたりの2次元DCT係数を$mn$$$mn$から$K$に置き換え、すべての前方通過で逆DCTを通して全行列を再構成する。
キャラクタレベルのシェイクスピアでスクラッチからトレーニングされた4層128ディムトランスフォーマーは、検証損失が1.604$=K = mn/2$、標準の高密度ベースラインで1.580$ -- トレーニング可能なパラメータ数の半分で+0.024$のギャップ -- に達した。
同じトレーニング可能なパラメータ数でのランク48のLoRA分解は、わずか1.801$$+0.221$である。
一致する$K$における低ランクパラメータ化に対するスパース係数の構造上の利点は質的である。
ランクの柔軟性をメカニズムとして識別する。
ランダム正規直交基底はノイズ中のDCTを$K = mn/2$で一致させ、$K = mn/10$と$K = mn/20$で圧縮すると、高階行列をホストできる部分空間は損失を低く保ち、一方、低階ブロック(ジグザグ選択変種)に平坦化した部分空間はロックステップでランク48のLoRA参照の損失線に収束する。
これらの正規基底のうち、DCTは分離可能な高速変換は融合した再構成カーネルを許容するので、物質化された重み行列はオンチップメモリを決して残さないため、パラメータの節約も帯域幅の節約に繋がる。
関連論文リスト
- Compressing Transformer Language Models via Matrix Product Operator Decomposition: A Case Study on PicoGPT [0.0]
トランスフォーマーベースの言語モデルは、NLPタスク間で強力なパフォーマンスを実現するが、その2次パラメータスケーリングは、リソース制約のあるハードウェアへのデプロイを高くする。
変圧器の原理圧縮法として行列積演算子分解について検討する。
MPOは、重み行列を低ランクコアの鎖に分解し、近似品質は結合次元chiによって制御される。
論文 参考訳(メタデータ) (2026-03-30T14:57:47Z) - Rethinking Attention Output Projection: Structured Hadamard Transforms for Efficient Transformers [0.0]
マルチヘッドアテンションにおける高密度出力プロジェクションをパラメータフリーのWalsh Hadamard変換に置き換えることを提案する。
異なるモデルサイズにわたって、この構造的置換は、下流タスクのパフォーマンスが同等またはわずかに優れていることを実証する。
本研究では, 構造化アダマールモデルを用いて, FLOPと比較して高い検証損失曲線を示し, トレーニング中の計算利用がより良好であることが示唆された。
論文 参考訳(メタデータ) (2026-03-09T13:05:08Z) - Structured Multidimensional Representation Learning for Large Language Models [0.0]
トランスフォーマーアーキテクチャは、幅広いパターン認識と自然言語処理タスクで最先端のパフォーマンスを達成する。
三次元テンソルのL-積に基づく埋め込み空間の構造的スペクトル分解を導入する。
提案するL-Transformerは,少ない埋め込みで動作するp並列変換器とスペクトル的に等価であることを示す。
論文 参考訳(メタデータ) (2026-03-05T22:34:45Z) - MLPMoE: Zero-Shot Architectural Metamorphosis of Dense LLM MLPs into Static Mixture-of-Experts [0.0]
大規模言語モデル(LLM)は、主に高密度トランスフォーマーとしてデプロイされ、すべてのトークンに対してフィードフォワードブロック内の全てのパラメータがアクティブになる。
MoEfication、CMoE、ToMoE、MoOREといった最近のアップサイクリング手法は、高密度フィードフォワードネットワーク内の疎小で半モジュラーなサブ構造に有用な計算の大部分が存在していることを明らかにしている。
本稿では,高密度の変圧器ブロックを静的な高心性混合体に再構成する学習自由変換であるMoE(MLP-Experts)を紹介する。
論文 参考訳(メタデータ) (2025-11-26T06:14:26Z) - Robust Layerwise Scaling Rules by Proper Weight Decay Tuning [50.11170157029911]
現代のスケール不変アーキテクチャでは、トレーニングは急速に劣化したグラデーション状態に入る。
我々は,AdamWに対して,幅をまたいだサブ層ゲインを保ったウェイトデカイスケーリングルールを導入する。
この結果は,パラメータが設定した定常スケールを明示的に制御することにより,ほぼ入出力体制を超えて$mu$Pを拡大する。
論文 参考訳(メタデータ) (2025-10-17T02:58:35Z) - Diversity-Guided MLP Reduction for Efficient Large Vision Transformers [62.33249256133204]
トランスフォーマーモデルは優れたスケーリング特性を実現し、モデルキャパシティの増大により性能が向上する。
大規模モデルパラメータは、計算とメモリの大幅なコストにつながる。
そこで本稿では,大規模な視覚変換器のパラメータを著しく削減するDGMR法を提案する。
論文 参考訳(メタデータ) (2025-06-10T08:59:27Z) - Dynamic Layer Tying for Parameter-Efficient Transformers [65.268245109828]
トレーニング中にレイヤを選択し、それらを結びつけるために強化学習を採用しています。
これにより、重量共有が容易になり、トレーニング可能なパラメータの数を減らし、効果的な正規化技術としても機能する。
特に、トレーニング中のメモリ消費は、従来のトレーニング方法よりも1桁も少ない。
論文 参考訳(メタデータ) (2024-01-23T14:53:20Z) - $\rm SP^3$: Enhancing Structured Pruning via PCA Projection [24.74632458058136]
本稿では,PCAプロジェクション(SP3)を用いた新規な構造化プルーニング手法を提案する。
実験の結果、SP3はdを70%削減し、BERTベースモデルの94%を圧縮し、96%以上の精度を維持し、同じ圧縮比でdを6%圧縮する他の方法よりも優れていた。
論文 参考訳(メタデータ) (2023-08-31T05:40:14Z) - Hybrid Model-based / Data-driven Graph Transform for Image Coding [54.31406300524195]
予測内残差ブロックを符号化するハイブリッドモデルベース/データ駆動方式を提案する。
変換行列の最初の$K$固有ベクトルは、安定性のための非対称離散正弦変換(ADST)のような統計モデルから導かれる。
WebPをベースライン画像として使用することにより、我々のハイブリッドグラフ変換は、デフォルトの離散コサイン変換(DCT)よりもエネルギーの圧縮が良く、KLTよりも安定性がよいことを示す。
論文 参考訳(メタデータ) (2022-03-02T15:36:44Z) - End-to-End Multi-speaker Speech Recognition with Transformer [88.22355110349933]
音声認識モデルにおけるRNNベースのエンコーダデコーダをトランスフォーマーアーキテクチャに置き換える。
また、計算量を削減するために、シーケンス全体ではなくセグメントに制限されるセルフアテンションコンポーネントを変更します。
論文 参考訳(メタデータ) (2020-02-10T16:29:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。