論文の概要: Structured Multidimensional Representation Learning for Large Language Models
- arxiv url: http://arxiv.org/abs/2603.05727v1
- Date: Thu, 05 Mar 2026 22:34:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:44.676753
- Title: Structured Multidimensional Representation Learning for Large Language Models
- Title(参考訳): 大規模言語モデルのための構造化多次元表現学習
- Authors: Alaa El Ichi, Khalide Jbilou, Mohamed El Guide, Franck Dufrenois,
- Abstract要約: トランスフォーマーアーキテクチャは、幅広いパターン認識と自然言語処理タスクで最先端のパフォーマンスを達成する。
三次元テンソルのL-積に基づく埋め込み空間の構造的スペクトル分解を導入する。
提案するL-Transformerは,少ない埋め込みで動作するp並列変換器とスペクトル的に等価であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer architectures achieve state-of-the-art performance across a wide range of pattern recognition and natural language processing tasks, but their scaling is accompanied by substantial parameter growth and redundancy in the embedding dimension. In this work, we introduce a structured spectral factorization of the embedding space based on the L-product for third-order tensors. By reshaping token representations into spectral tensor slices and performing attention and feed-forward operations in the transform domain, we obtain a Tensor Transformer architecture that decomposes the encoder into p independent spectral sub-transformers while preserving standard Transformer semantics. We prove that the proposed L-Transformer is spectrally equivalent to p parallel Transformers operating on reduceddimensional embeddings, which yields approximately 1/p reduction (up to lower-order terms such as biases and normalization parameters) in encoder parameters under fixed total embedding size. When instantiated with a real-valued Discrete Cosine Transform (DCT), the method remains fully differentiable and compatible with existing training pipelines. Beyond compression, the spectral decomposition introduces an inductive bias over embedding frequencies, enabling slice-dependent frequency scaling that improves generalization. Experiments on IMDB and AG~News show that the proposed model can substantially reduce encoder parameters (up to 75\% for p=4) while maintaining competitive accuracy. On IMDB, the tensorized encoder matches or improves upon the standard baseline under compression, whereas on AG~News at moderate width we observe a small accuracy decrease in exchange for a 4 times encoder reduction; at BERT-base width (d=768), performance returns to parity.
- Abstract(参考訳): トランスフォーマーアーキテクチャは、幅広いパターン認識や自然言語処理タスクにまたがって最先端のパフォーマンスを実現するが、そのスケーリングは、埋め込み次元におけるかなりのパラメータ成長と冗長性を伴う。
本研究では, 3次テンソルのL-積に基づく埋め込み空間の構造的スペクトル分解を導入する。
トークン表現をスペクトルテンソルスライスに変換し、変換領域における注意とフィードフォワード操作を行うことで、標準的なトランスフォーマーセマンティクスを維持しつつ、エンコーダをp個の独立スペクトルサブトランスフォーマーに分解するテンソルトランスフォーマーアーキテクチャを得る。
提案するL-Transformerは, 固定全埋め込みサイズ下でのエンコーダパラメータにおける約1/p削減(バイアスや正規化パラメータなどの低次項まで)を行う, 縮小次元埋め込みで動作するp並列変換器とスペクトル的に等価であることを示す。
実数値離散コサイン変換(DCT)でインスタンス化されると、この手法は完全に微分可能であり、既存のトレーニングパイプラインと互換性がある。
圧縮以外にも、スペクトル分解は埋め込み周波数よりも誘導バイアスを導入し、スライス依存の周波数スケーリングを可能にし、一般化を改善する。
IMDB と AG~News の実験から,提案モデルでは,競合精度を維持しつつ,エンコーダパラメータ(p=4 に対して 75 % まで)を大幅に削減できることが示された。
IMDBでは、テンソル化エンコーダが圧縮下の標準ベースラインと一致または改善するのに対し、AG~Newsでは4倍のエンコーダ削減と引き換えに、小さな精度の低下が観察され、BERTベース幅(d=768)では、性能はパリティに戻す。
関連論文リスト
- Generalization Bounds for Transformer Channel Decoders [61.55280736553095]
本稿では,ECCTの一般化性能を学習理論の観点から検討する。
我々の知る限りでは、この研究はこの種のデコーダに対する最初の理論的一般化保証を提供する。
論文 参考訳(メタデータ) (2026-01-11T15:56:37Z) - WUSH: Near-Optimal Adaptive Transforms for LLM Quantization [52.77441224845925]
低ビット幅への量子化は、大きな言語モデルをデプロイするための標準的なアプローチである。
いくつかの極端な重みと活性化は、ダイナミックレンジを拡張し、量子化器の有効分解能を減少させる。
結合重みアクティベーション量子化のための閉形式最適線形ブロックワイズ変換を初めて導出する。
論文 参考訳(メタデータ) (2025-11-30T16:17:34Z) - Bottlenecked Transformers: Periodic KV Cache Consolidation for Generalised Reasoning [16.35681450323654]
トランスフォーマーLSMは推論時間計算でスケールする強力な推論能力を示すことが示されている。
KVキャッシュの書き直しによるメモリ(re)統合が、推論の改善に有効である理由を理論的に正当化する。
我々のモデルでは、バニラトランスフォーマーと停止する拡張ベースラインに対して一貫したパフォーマンス向上が見られ、選択されたタスク/バックボーンに対して最大6.6ppのゲインが得られる。
論文 参考訳(メタデータ) (2025-05-22T17:33:49Z) - Variable-size Symmetry-based Graph Fourier Transforms for image compression [65.7352685872625]
可変サイズのグラフフーリエ変換を符号化フレームワークに導入する。
提案アルゴリズムは,ノード間の特定の対称接続を追加することにより,グリッド上の対称グラフを生成する。
実験により、SBGFTは、明示的な多重変換選択に統合された一次変換よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-11-24T13:00:44Z) - White-Box Transformers via Sparse Rate Reduction: Compression Is All There Is? [27.58916930770997]
数学的に完全に解釈可能なCRATEという,ホワイトボックストランスフォーマーのようなディープネットワークアーキテクチャのファミリーを示す。
実験によると、これらのネットワークは単純さにもかかわらず、大規模な実世界の画像とテキストデータセットの表現を圧縮し、分散化することを学習している。
論文 参考訳(メタデータ) (2023-11-22T02:23:32Z) - On the Convergence of Encoder-only Shallow Transformers [62.639819460956176]
エンコーダのみの浅部変圧器のグローバル収束理論を現実的な条件下で構築する。
我々の結果は、現代のトランスフォーマー、特にトレーニング力学の理解を深める道を開くことができる。
論文 参考訳(メタデータ) (2023-11-02T20:03:05Z) - Cost Aggregation with 4D Convolutional Swin Transformer for Few-Shot
Segmentation [58.4650849317274]
Volumetric Aggregation with Transformers (VAT)は、数ショットセグメンテーションのためのコスト集約ネットワークである。
VATは、コスト集約が中心的な役割を果たすセマンティック対応のための最先端のパフォーマンスも達成する。
論文 参考訳(メタデータ) (2022-07-22T04:10:30Z) - Degradation-Aware Unfolding Half-Shuffle Transformer for Spectral
Compressive Imaging [142.11622043078867]
圧縮画像と物理マスクからパラメータを推定し,これらのパラメータを用いて各イテレーションを制御する,DAUF(Degradation-Aware Unfolding Framework)を提案する。
HST を DAUF に接続することにより,HSI 再構成のための変換器の深部展開法であるデグレーション・アウェア・アンフォールディング・ハーフシャッフル変換器 (DAUHST) を確立した。
論文 参考訳(メタデータ) (2022-05-20T11:37:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。