論文の概要: A general tensor-structured compression scheme for efficient large language models
- arxiv url: http://arxiv.org/abs/2605.25344v1
- Date: Mon, 25 May 2026 02:00:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.238757
- Title: A general tensor-structured compression scheme for efficient large language models
- Title(参考訳): 効率的な大言語モデルのための一般的なテンソル構造圧縮スキーム
- Authors: Ying Lu, Peng-Fei Zhou, Qi-Xuan Fang, Pan Zhang, Shi-Ju Ran, Gang Su,
- Abstract要約: 対象とする密度線形層をテンソル作用素の実行可能な混合に置き換える一般的なテンソル構造圧縮スキームを提案する。
MixTはTransformerベースの大規模言語モデル(LLM)や他の高密度ニューラルネットワークにも適用可能である。
LLaMA2-7B遷移境界において、MixTはフルモデルパラメータを47.5%、推論FLOPを37.1%、FLOPを52.1%、ピーク推論メモリを60.4%削減する。
- 参考スコア(独自算出の注目度): 8.85443988406591
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are dominated by dense linear transformations, whose storage, memory and computational overheads hinder efficient adaptation and deployment while masking the functional impacts of structural simplification. Here we present Tensor Mixture (MixT), a general tensor-structured compression scheme that replaces targeted dense linear layers with natively executable mixtures of tensor operators. Operating directly on generic linear projections instead of model-specific components, MixT is potentially applicable across Transformer-based LLMs and other dense neural mappings. We evaluate MixT on Qwen3-8B and LLaMA2-7B under a unified recovery protocol, identifying a broad compressible regime in which MMLU accuracy is largely preserved before an abrupt transition at model-specific boundaries. This transition coincides with coordinated shifts in output entropy, prediction entropy and inter-layer geometry. At the LLaMA2-7B transition boundary, MixT reduces full-model parameters by 47.5\%, inference FLOPs by 37.1\%, training FLOPs by 52.1\% and peak inference memory by 60.4\%, demonstrating its practical potential for lower-cost LLM compression.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ストレージ、メモリ、計算オーバーヘッドが効率的な適応と配置を妨げ、構造的単純化による機能的影響を隠蔽する密度の高い線形変換によって支配される。
ここでは、ターゲットとする高密度線形層をテンソル作用素のネイティブに実行可能な混合に置き換える一般的なテンソル構造圧縮スキームであるテンソル混合(MixT)を提案する。
モデル固有のコンポーネントではなく、ジェネリックリニアプロジェクションを直接操作するMixTは、TransformerベースのLLMや他の高密度ニューラルネットワークに応用できる可能性がある。
我々は,Qwen3-8BとLLaMA2-7BのMixTを統一回復プロトコルで評価し,MMLUの精度がモデル固有境界における急激な遷移の前に大半が保存される広い圧縮可能な状態を特定した。
この遷移は、出力エントロピー、予測エントロピー、層間幾何学における座標シフトと一致する。
LLaMA2-7B遷移境界において、MixTはフルモデルパラメータを47.5\%、推論FLOPを37.1\%、FLOPを52.1\%、ピーク推論メモリを60.4\%削減し、低コストのLCM圧縮の実用的な可能性を示している。
関連論文リスト
- Fast Tensorization of Neural Networks via Slice-wise Feature Distillation [0.0]
本稿ではスライスワイズ特性蒸留に基づくニューラルネットワーク圧縮のためのスケーラブルなテンソル化フレームワークを提案する。
従来の大域的テンソル化よりも顕著に向上し,中程度の圧縮速度でほぼロスレス圧縮を実現した。
GPT-2 XLの結果はさらに,本手法のスケーラビリティと大規模モデルへの適用性を実証した。
論文 参考訳(メタデータ) (2026-05-19T13:37:53Z) - Generalization and Scaling Laws for Mixture-of-Experts Transformers [0.0]
我々は,Mixture-of-Experts (MoE) 変換器の一般化とスケーリングの理論を開発する。
本手法は, アクティブパラメータの予算で計量エントロピーがスケールする超ノルム被覆数界を導出し, MoE 固有のルーティングオーバヘッドを発生させる。
我々は,MoE アーキテクチャの構成的近似定理を証明し,近似構成の下では,アクティブキャパシティのスケーリングや専門家数の増加によって誤差が減少することを示した。
論文 参考訳(メタデータ) (2026-04-10T09:59:48Z) - Rethinking Attention Output Projection: Structured Hadamard Transforms for Efficient Transformers [0.0]
マルチヘッドアテンションにおける高密度出力プロジェクションをパラメータフリーのWalsh Hadamard変換に置き換えることを提案する。
異なるモデルサイズにわたって、この構造的置換は、下流タスクのパフォーマンスが同等またはわずかに優れていることを実証する。
本研究では, 構造化アダマールモデルを用いて, FLOPと比較して高い検証損失曲線を示し, トレーニング中の計算利用がより良好であることが示唆された。
論文 参考訳(メタデータ) (2026-03-09T13:05:08Z) - JTok: On Token Embedding as another Axis of Scaling Law via Joint Token Self-modulation [46.64215658042213]
補助埋め込みテーブルから得られる変調ベクトルを用いてトランスフォーマー層を拡大するジョイント・トケン(JTok)とジョイント・トケン(JTok-M)の混合を導入する。
これらのベクトルは、軽量な要素演算によってバックボーンを変調し、無視可能なFLOPのオーバーヘッドを発生させる。
我々のアプローチは、検証損失を継続的に減らし、ダウンストリームタスクのパフォーマンスを大幅に改善します。
論文 参考訳(メタデータ) (2026-01-31T16:15:18Z) - WUSH: Near-Optimal Adaptive Transforms for LLM Quantization [52.77441224845925]
低ビット幅への量子化は、大きな言語モデルをデプロイするための標準的なアプローチである。
いくつかの極端な重みと活性化は、ダイナミックレンジを拡張し、量子化器の有効分解能を減少させる。
結合重みアクティベーション量子化のための閉形式最適線形ブロックワイズ変換を初めて導出する。
論文 参考訳(メタデータ) (2025-11-30T16:17:34Z) - MLPMoE: Zero-Shot Architectural Metamorphosis of Dense LLM MLPs into Static Mixture-of-Experts [0.0]
大規模言語モデル(LLM)は、主に高密度トランスフォーマーとしてデプロイされ、すべてのトークンに対してフィードフォワードブロック内の全てのパラメータがアクティブになる。
MoEfication、CMoE、ToMoE、MoOREといった最近のアップサイクリング手法は、高密度フィードフォワードネットワーク内の疎小で半モジュラーなサブ構造に有用な計算の大部分が存在していることを明らかにしている。
本稿では,高密度の変圧器ブロックを静的な高心性混合体に再構成する学習自由変換であるMoE(MLP-Experts)を紹介する。
論文 参考訳(メタデータ) (2025-11-26T06:14:26Z) - MoEUT: Mixture-of-Experts Universal Transformers [75.96744719516813]
ユニバーサルトランスフォーマー(UT)は、合成一般化の学習において標準トランスフォーマーよりも有利である。
層共有は、同じ次元を持つ非共有モデルと比較してパラメータ数を大幅に削減する。
従来の作業では、言語モデリングのようなパラメータ数の支配的なタスクと競合する共有層トランスフォーマー設計の提案に成功しなかった。
論文 参考訳(メタデータ) (2024-05-25T03:24:32Z) - SDPose: Tokenized Pose Estimation via Circulation-Guide Self-Distillation [53.675725490807615]
SDPoseは小型変圧器モデルの性能向上のための新しい自己蒸留法である。
SDPose-Tは4.4Mパラメータと1.8 GFLOPを持つ69.7%のmAPを取得し、SDPose-S-V2はMSCOCO検証データセット上で73.5%のmAPを取得する。
論文 参考訳(メタデータ) (2024-04-04T15:23:14Z) - AffineQuant: Affine Transformation Quantization for Large Language Models [58.45460102764]
ポストトレーニング量子化(PTQ)は、その圧縮効率とトレーニングの文脈における費用対効果により、かなりの関心を集めている。
既存の大規模言語モデル(LLM)のPTQ手法は、事前量子化重みと後量子化重みの間の変換のスケーリングに最適化範囲を制限している。
本稿では,PTQ(AffineQuant)における等価アフィン変換を用いた直接最適化を提唱する。
論文 参考訳(メタデータ) (2024-03-19T08:40:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。