論文の概要: Training Transformers in Cosine Coefficient Space
- arxiv url: http://arxiv.org/abs/2604.04440v1
- Date: Mon, 06 Apr 2026 05:39:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.102369
- Title: Training Transformers in Cosine Coefficient Space
- Title(参考訳): コサイン係数空間における変圧器の訓練
- Authors: Mohamed Amine Bergach,
- Abstract要約: 二次元離散コサイン変換領域における変圧器の重み行列をパラメータ化する。
文字レベルの言語モデリングでは、この表現でスクラッチから訓練された4層トランスフォーマーが標準パラメータ化の難易度と一致する。
この方法は、アーキテクチャの変更も、事前訓練されたチェックポイントも、補助的な損失も不要である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We parameterize the weight matrices of a transformer in the two-dimensional discrete cosine transform (DCT) domain, retaining only the lowest-frequency coefficients. At each forward pass the full weight matrix is reconstructed via the inverse DCT; gradients propagate through the reconstruction to update the spectral coefficients directly. On character-level language modeling (Shakespeare, 1M characters), a 4-layer transformer trained from scratch in this representation matches the perplexity of the standard parameterization (6.1 vs.\ 6.1) while storing 52\% of the parameters. At 4$\times$ compression (29\% of parameters), the model reaches perplexity 6.9 -- outperforming a low-rank baseline (perplexity 8.8 at 21\% of parameters) at a comparable reduction. The method requires no architectural changes, no pre-trained checkpoint, and no auxiliary loss. It reduces to replacing each \texttt{nn.Linear} with a drop-in spectral layer that stores $K$ DCT coefficients instead of $n \times m$ weights.
- Abstract(参考訳): 2次元離散コサイン変換(DCT)領域における変圧器の重み行列をパラメタライズし、最低周波数係数のみを保持する。
各前方通過時に、全重み行列は逆DCTを介して再構成され、勾配は再構成を通して伝播し、スペクトル係数を直接更新する。
文字レベルの言語モデリング(Shakespeare、1M文字)では、この表現でスクラッチから訓練された4層トランスフォーマーが標準パラメータ化の難易度(6.1対)と一致する。
\ 6.1) パラメータの52\%を格納する。
4$\times$圧縮(パラメータの29.%)では、モデルがパープレキシティ6.9に達する。
この方法は、アーキテクチャの変更も、事前訓練されたチェックポイントも、補助的な損失も不要である。
それぞれの \texttt{nn.Linear} を、$n \times m$ weightsの代わりに$K$ DCT係数を格納するドロップインスペクトル層に置き換える。
関連論文リスト
- Compressing Transformer Language Models via Matrix Product Operator Decomposition: A Case Study on PicoGPT [0.0]
トランスフォーマーベースの言語モデルは、NLPタスク間で強力なパフォーマンスを実現するが、その2次パラメータスケーリングは、リソース制約のあるハードウェアへのデプロイを高くする。
変圧器の原理圧縮法として行列積演算子分解について検討する。
MPOは、重み行列を低ランクコアの鎖に分解し、近似品質は結合次元chiによって制御される。
論文 参考訳(メタデータ) (2026-03-30T14:57:47Z) - Rethinking Attention Output Projection: Structured Hadamard Transforms for Efficient Transformers [0.0]
マルチヘッドアテンションにおける高密度出力プロジェクションをパラメータフリーのWalsh Hadamard変換に置き換えることを提案する。
異なるモデルサイズにわたって、この構造的置換は、下流タスクのパフォーマンスが同等またはわずかに優れていることを実証する。
本研究では, 構造化アダマールモデルを用いて, FLOPと比較して高い検証損失曲線を示し, トレーニング中の計算利用がより良好であることが示唆された。
論文 参考訳(メタデータ) (2026-03-09T13:05:08Z) - Structured Multidimensional Representation Learning for Large Language Models [0.0]
トランスフォーマーアーキテクチャは、幅広いパターン認識と自然言語処理タスクで最先端のパフォーマンスを達成する。
三次元テンソルのL-積に基づく埋め込み空間の構造的スペクトル分解を導入する。
提案するL-Transformerは,少ない埋め込みで動作するp並列変換器とスペクトル的に等価であることを示す。
論文 参考訳(メタデータ) (2026-03-05T22:34:45Z) - MLPMoE: Zero-Shot Architectural Metamorphosis of Dense LLM MLPs into Static Mixture-of-Experts [0.0]
大規模言語モデル(LLM)は、主に高密度トランスフォーマーとしてデプロイされ、すべてのトークンに対してフィードフォワードブロック内の全てのパラメータがアクティブになる。
MoEfication、CMoE、ToMoE、MoOREといった最近のアップサイクリング手法は、高密度フィードフォワードネットワーク内の疎小で半モジュラーなサブ構造に有用な計算の大部分が存在していることを明らかにしている。
本稿では,高密度の変圧器ブロックを静的な高心性混合体に再構成する学習自由変換であるMoE(MLP-Experts)を紹介する。
論文 参考訳(メタデータ) (2025-11-26T06:14:26Z) - Robust Layerwise Scaling Rules by Proper Weight Decay Tuning [50.11170157029911]
現代のスケール不変アーキテクチャでは、トレーニングは急速に劣化したグラデーション状態に入る。
我々は,AdamWに対して,幅をまたいだサブ層ゲインを保ったウェイトデカイスケーリングルールを導入する。
この結果は,パラメータが設定した定常スケールを明示的に制御することにより,ほぼ入出力体制を超えて$mu$Pを拡大する。
論文 参考訳(メタデータ) (2025-10-17T02:58:35Z) - Diversity-Guided MLP Reduction for Efficient Large Vision Transformers [62.33249256133204]
トランスフォーマーモデルは優れたスケーリング特性を実現し、モデルキャパシティの増大により性能が向上する。
大規模モデルパラメータは、計算とメモリの大幅なコストにつながる。
そこで本稿では,大規模な視覚変換器のパラメータを著しく削減するDGMR法を提案する。
論文 参考訳(メタデータ) (2025-06-10T08:59:27Z) - Dynamic Layer Tying for Parameter-Efficient Transformers [65.268245109828]
トレーニング中にレイヤを選択し、それらを結びつけるために強化学習を採用しています。
これにより、重量共有が容易になり、トレーニング可能なパラメータの数を減らし、効果的な正規化技術としても機能する。
特に、トレーニング中のメモリ消費は、従来のトレーニング方法よりも1桁も少ない。
論文 参考訳(メタデータ) (2024-01-23T14:53:20Z) - $\rm SP^3$: Enhancing Structured Pruning via PCA Projection [24.74632458058136]
本稿では,PCAプロジェクション(SP3)を用いた新規な構造化プルーニング手法を提案する。
実験の結果、SP3はdを70%削減し、BERTベースモデルの94%を圧縮し、96%以上の精度を維持し、同じ圧縮比でdを6%圧縮する他の方法よりも優れていた。
論文 参考訳(メタデータ) (2023-08-31T05:40:14Z) - Hybrid Model-based / Data-driven Graph Transform for Image Coding [54.31406300524195]
予測内残差ブロックを符号化するハイブリッドモデルベース/データ駆動方式を提案する。
変換行列の最初の$K$固有ベクトルは、安定性のための非対称離散正弦変換(ADST)のような統計モデルから導かれる。
WebPをベースライン画像として使用することにより、我々のハイブリッドグラフ変換は、デフォルトの離散コサイン変換(DCT)よりもエネルギーの圧縮が良く、KLTよりも安定性がよいことを示す。
論文 参考訳(メタデータ) (2022-03-02T15:36:44Z) - End-to-End Multi-speaker Speech Recognition with Transformer [88.22355110349933]
音声認識モデルにおけるRNNベースのエンコーダデコーダをトランスフォーマーアーキテクチャに置き換える。
また、計算量を削減するために、シーケンス全体ではなくセグメントに制限されるセルフアテンションコンポーネントを変更します。
論文 参考訳(メタデータ) (2020-02-10T16:29:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。