論文の概要: Rethinking the Role of Tensor Decompositions in Post-Training LLM Compression
- arxiv url: http://arxiv.org/abs/2606.03465v1
- Date: Tue, 02 Jun 2026 10:45:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.945934
- Title: Rethinking the Role of Tensor Decompositions in Post-Training LLM Compression
- Title(参考訳): トレーニング後LLM圧縮におけるテンソル分解の役割の再考
- Authors: Artur Zagitov, Alexander Miasnikov, Maxim Krutikov, Vladimir Aletov, Gleb Molodtsov, Nail Bashirov, Artem Tsedenov, Aleksandr Beznosikov,
- Abstract要約: 分解は有望な方向として現れ、トランスフォーマーの重み構造に適したコンパクトなパラメータ化を提供する。
既存の研究では、これらの手法を狭い環境で評価しており、大規模展開においてテンソル化が有効かどうかは不明である。
我々は高密度およびMoEのテンソル圧縮を体系的に評価し、経験的解析と理論的解析の両方に基礎を置いた性能トレードオフを確立する。
- 参考スコア(独自算出の注目度): 68.1291440835878
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-training compression is essential for deploying large language models (LLMs) under tight resource constraints. Tensor decompositions have emerged as a promising direction, offering compact parameterizations well suited to Transformer weight structures. However, existing studies evaluate these methods in narrow settings, leaving unclear whether tensorization is effective at large-scale deployment. We systematically evaluate tensor compression across dense and MoE architectures, establishing performance trade-offs grounded in both empirical analysis and theoretical analysis. We identify a fundamental mismatch between the shared subspaces assumed by tensor decompositions and the heterogeneous representations learned by modern LLMs, thereby delineating their practical limits and clarifying their viable role in large-scale deployment. The code is available at https://github.com/brain-lab-research/TT-LLM.
- Abstract(参考訳): トレーニング後の圧縮は、リソースの厳しい制約下での大規模言語モデル(LLM)のデプロイに不可欠である。
テンソル分解は有望な方向として現れ、トランスフォーマーの重み構造に適したコンパクトなパラメータ化を提供する。
しかし,本研究は,これらの手法を狭義に評価し,大規模展開においてテンソル化が有効かは明らかになっていない。
我々は高密度およびMoEアーキテクチャにおけるテンソル圧縮を体系的に評価し、経験的解析と理論的解析の両方に基づく性能トレードオフを確立する。
テンソル分解によって仮定される共有部分空間と現代のLLMによって学習される異種表現の基本的なミスマッチを同定し,それらの実用的限界を明確にし,大規模展開におけるそれらの役割を明らかにする。
コードはhttps://github.com/brain-lab-research/TT-LLMで公開されている。
関連論文リスト
- HE-SNR: Uncovering Latent Logic via Entropy for Guiding Mid-Training on SWE-BENCH [11.643006508214887]
SWE-benchは、複雑なソフトウェアエンジニアリングタスクで大規模言語モデルを評価するための主要なベンチマークとして登場した。
Perplexity(PPL)のような標準メトリクスは、"Long-Context Tax"によって妥協され、下流SWEのパフォーマンスと弱い相関を示す。
提案するエントロピー圧縮仮説は,スカラートップ1圧縮ではなく,エントロピー圧縮状態に不確実性を構築する能力によって,インテリジェンスを再定義するものである。
論文 参考訳(メタデータ) (2026-01-28T05:03:24Z) - How to Set the Learning Rate for Large-Scale Pre-training? [73.03133634525635]
我々はこの調査を2つの異なる研究パラダイムであるフィッティングとトランスファーに定式化する。
フィッティングパラダイムでは,探索係数のスケーリング法則を導入し,O(n3) から O(n*C_D*C_) への探索複雑性を予測モデルにより効果的に低減する。
我々は、$Transferの原則をMixture of Experts (MoE)アーキテクチャに拡張し、モデル深さ、重量減衰、トークン水平線を含む適用範囲を広げる。
論文 参考訳(メタデータ) (2026-01-08T15:55:13Z) - LatentLLM: Attention-Aware Joint Tensor Compression [50.33925662486034]
大規模言語モデル(LLM)と大規模マルチモーダルモデル(LMM)は膨大な計算量とメモリ資源を必要とする。
本稿では,LLM/LMMを低次元潜在構造に変換するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-23T22:39:54Z) - Compression Hacking: A Supplementary Perspective on Informatics Properties of Language Models from Geometric Distortion [56.12939353271623]
幾何学的観点から、高度に圧縮されたLMのワード表現空間は、非常に異方性のある状態に縮退する傾向がある。
この同期性は基本的にLM表現におけるCompression Hacking''である。
幾何学的歪み解析を取り入れ, 自己評価パイプラインに統合することにより, 高精度な3つの圧縮指標を提案する。
論文 参考訳(メタデータ) (2025-05-23T12:11:03Z) - Structured Agent Distillation for Large Language Model [56.38279355868093]
本研究では,LLMをベースとした大規模エージェントを小さな学生モデルに圧縮するフレームワークであるStructured Agent Distillationを提案する。
提案手法は, [REASON] と [ACT] にトラジェクトリを分割し, 各コンポーネントを教師の行動に合わせるためにセグメント特異的な損失を適用した。
ALFWorld、HotPotQA-ReAct、WebShopの実験は、我々のアプローチがトークンレベルと模倣学習のベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-05-20T02:01:55Z) - Mask-Encoded Sparsification: Mitigating Biased Gradients in Communication-Efficient Split Learning [15.78336840511033]
本稿では,スプリットラーニング(SL)シナリオにおいて,高い圧縮率を達成するために設計された新しいフレームワークを提案する。
本研究は, SL内の特徴写像の圧縮が, 収束率に負の影響を及ぼすバイアス勾配をもたらすことを示す。
我々は、時間的複雑さの順序を増大させることなく、スペーシフィケーションエラーを補うために、狭いビット幅の符号化マスクを用いる。
論文 参考訳(メタデータ) (2024-08-25T09:30:34Z) - Surgical Feature-Space Decomposition of LLMs: Why, When and How? [8.826164604720738]
トランス言語モデルにおける重みと特徴空間の分解の有効性を実験的に検討する。
本稿では, 外科的切除が, 圧縮と言語モデリング性能のトレードオフに関する重要な洞察を与えることを示す。
モデルバイアスに対する低ランク近似の影響について検討する。
論文 参考訳(メタデータ) (2024-05-17T07:34:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。