論文の概要: DOTResize: Reducing LLM Width via Discrete Optimal Transport-based Neuron Merging
- arxiv url: http://arxiv.org/abs/2507.04517v1
- Date: Sun, 06 Jul 2025 19:49:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.222044
- Title: DOTResize: Reducing LLM Width via Discrete Optimal Transport-based Neuron Merging
- Title(参考訳): DOTResize:離散移動型ニューロンマージによるLDM幅の低減
- Authors: Neha Verma, Kenton Murray, Kevin Duh,
- Abstract要約: DOTResizeは、最適輸送理論を用いてモデル重みを変換・圧縮する新しいトランスフォーマー圧縮法である。
DOTResizeは、実世界の計算コストを計測可能な削減を実現しつつ、単純な、あるいは最先端のニューロンワイド・プルーニング技術より優れていることを示す。
- 参考スコア(独自算出の注目度): 16.746335565636976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model compression offers a promising path to reducing the cost and inaccessibility of large pre-trained models, without significantly compromising their impressive performance. Large Transformer models, including large language models (LLMs), often contain computational redundancy, which can serve as a target for new model compression methods. In this work, we specifically target neuron-level redundancies in model layers by combining groups of similar neurons into fewer neurons. We frame this width reduction as a Discrete Optimal Transport problem, and propose DOTResize, a novel Transformer compression method that uses optimal transport theory to transform and compress model weights. To ensure applicability within the Transformer architecture, we motivate and incorporate entropic regularization and matrix factorization into the transportation maps produced by our method. Unlike pruning-based approaches which discard neurons based on importance measures, DOTResize re-projects the entire neuron width, allowing the retention and redistribution of useful signal across the reduced layer. Empirical results show that compared to simple or state-of-the-art neuron width-pruning techniques, DOTResize can outperform these methods across multiple LLM families and sizes, while achieving measurable reductions in real-world computational cost.
- Abstract(参考訳): モデル圧縮は、大きな事前訓練されたモデルのコストとアクセシビリティを低減し、その印象的な性能を著しく損なうことなく、有望な経路を提供する。
大きな言語モデル(LLM)を含む大きなトランスフォーマーモデルは、しばしば計算冗長性を含み、新しいモデル圧縮手法のターゲットとして機能する。
本研究では, 類似ニューロン群を少ないニューロンに結合することにより, モデル層内のニューロンレベルの冗長性を特に狙う。
我々は,この幅削減を離散最適輸送問題とみなし,モデル重みを変換・圧縮する最適輸送理論を用いた新しいトランスフォーマー圧縮法であるDOTResizeを提案する。
トランスフォーマーアーキテクチャにおける適用性を確保するため,我々はエントロピー正則化と行列分解を,本手法で作成した輸送地図に組み入れた。
重要度に基づいてニューロンを破棄するプルーニングベースのアプローチとは異なり、DOTResizeは神経細胞の幅全体を再計画し、縮小された層をまたいだ有用なシグナルの保持と再分配を可能にする。
実験結果から, 単純あるいは最先端のニューロンワイドプルーニング技術と比較して, DOTResizeは, 実世界の計算コストを計測可能な削減を実現しつつ, 複数のLLMファミリやサイズでこれらの手法より優れることが示された。
関連論文リスト
- tCURLoRA: Tensor CUR Decomposition Based Low-Rank Parameter Adaptation and Its Application in Medical Image Segmentation [1.3281936946796913]
伝達学習は、事前訓練されたモデルからの知識を活用することで、目標タスクの性能を大幅に向上させた。
ディープニューラルネットワークのスケールアップに伴って、フル微調整によって、計算とストレージの大幅な課題がもたらされる。
テンソルCUR分解に基づく新しい微調整法であるtCURLoRAを提案する。
論文 参考訳(メタデータ) (2025-01-04T08:25:32Z) - Pushing the Limits of Large Language Model Quantization via the Linearity Theorem [71.3332971315821]
本稿では,階層的$ell$再構成誤差と量子化によるモデルパープレキシティ増加との直接的な関係を確立する「線形定理」を提案する。
この知見は,(1)アダマール回転とHIGGSと呼ばれるMSE最適格子を用いた単純なデータフリーLCM量子化法,(2)非一様層ごとの量子化レベルを求める問題に対する最適解の2つの新しい応用を可能にする。
論文 参考訳(メタデータ) (2024-11-26T15:35:44Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - LLIC: Large Receptive Field Transform Coding with Adaptive Weights for Learned Image Compression [27.02281402358164]
学習画像圧縮のための適応重み付き大規模受容場変換符号化を提案する。
カーネルをベースとした奥行きに関する大規模な畳み込みを導入し,複雑さを抑えながら冗長性を向上する。
我々のLLICモデルは最先端のパフォーマンスを実現し、パフォーマンスと複雑さのトレードオフを改善する。
論文 参考訳(メタデータ) (2023-04-19T11:19:10Z) - Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z) - Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文 参考訳(メタデータ) (2021-06-15T17:22:59Z) - Exploiting Non-Linear Redundancy for Neural Model Compression [26.211513643079993]
本稿では,線形依存の活用に基づく新しいモデル圧縮手法を提案する。
その結果,ネットワークサイズが最大99%減少し,性能が低下することがわかった。
論文 参考訳(メタデータ) (2020-05-28T15:13:21Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。