Fugu-MT 論文翻訳(概要): Efficient Dynamic Structured Sparse Training with Learned Shuffles

論文の概要: Efficient Dynamic Structured Sparse Training with Learned Shuffles

arxiv url: http://arxiv.org/abs/2510.14812v1
Date: Thu, 16 Oct 2025 15:48:17 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-17 21:15:14.928089
Title: Efficient Dynamic Structured Sparse Training with Learned Shuffles
Title（参考訳）: 学習シャッフルを用いた効率的な動的構造化スパーストレーニング
Authors: Abhishek Tyagi, Arjun Iyer, Liam Young, William H Renninger, Christopher Kanan, Yuhao Zhu,
Abstract要約: ImageNet-1K(ViT-B/16)とWikiText-103(GPT-2)の90-95%の間隔で、置換強化動的スパーストレーニング(DST)が非構造化ベースラインと一致することを示す。結果, 精度と効率の相違点として, 位置構造+学習順応が認められた。
参考スコア（独自算出の注目度）: 8.28650954528206
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Structured sparsity accelerates training and inference on modern GPUs, yet it still trails unstructured dynamic sparse training (DST) in accuracy. The shortfall stems from a loss of expressivity: whereas a dense layer can realize every possible mask obtained by choosing any $w$ active weights out of $n$, a fixed block or N:M layout explores only a subset of those possibilities. We propose to close this gap by learning, for each layer, a single permutation matrix jointly with the structured weight matrix. Applied to three canonical structures -- block, N:M, and diagonals -- we show that permutation-augmented DST (PA-DST) matches unstructured baselines (RigL, SET) at 90--95\% sparsity on ImageNet-1K (ViT-B/16) and WikiText-103 (GPT-2), yet trains up to $1.21\times$ and infers up to $2.9\times$ faster. The results position structure + learned permutation as a sweet spot between accuracy and efficiency.
Abstract（参考訳）: 構造化されたスパース性は、現代のGPUでのトレーニングと推論を加速させるが、正確さで非構造化された動的スパーストレーニング(DST)を追従する。密度の高い層は、$n$、固定ブロックまたはN:Mレイアウトから$w$のアクティブウェイトを選択して得られるあらゆる可能なマスクを実現できる。本稿では,各層について,構造重み行列と結合した単一置換行列を学習することにより,このギャップを埋めることを提案する。ブロック、N:M、対角線という3つの標準構造に適用すると、置換強化DST (PA-DST) は、ImageNet-1K (ViT-B/16) とWikiText-103 (GPT-2) の90-95%の間隔で非構造化ベースライン (RigL, SET) と一致しているが、最大1.21\times$までトレーニングし、最大2.9\times$を高速に推論する。結果, 精度と効率の相違点として, 位置構造+学習順応が認められた。

関連論文リスト

MaskPro: Linear-Space Probabilistic Learning for Strict (N:M)-Sparsity on Large Language Models [53.36415620647177]
半構造化された空間は、M$M$の重みからN$の要素を戦略的に保持することで、有望なソリューションを提供する。既存の(N:M)互換のアプローチは通常、かなりのエラーに悩まされるルールベースの階層的な欲求探索と、禁止的なトレーニングコストを引き起こす勾配駆動学習の2つのカテゴリに分類される。 MaskProという新しい線形空間確率的フレームワークを提案する。これは、M$連続重みごとに事前のカテゴリー分布を学習し、その後、この分布を活用して(N:M)スパーシリティを$N$-wayサンプリングを通じて生成することを目的としている。
論文参考訳（メタデータ） (2025-06-15T15:02:59Z)
Dynamic Sparse Training of Diagonally Sparse Networks [15.13506569122892]
構造のない空間はしばしば現代のハードウェアの実用的なスピードアップに変換できない本研究では,非構造空間と同等に機能する新規なスパース・ツー・スパース法であるDynaDiagを提案する。 ViTの90%の線形層で、我々はモデル性能を犠牲にすることなく、オンライン推論の3.13倍のスピードアップを観測する。
論文参考訳（メタデータ） (2025-06-13T04:01:34Z)
Compute Better Spent: Replacing Dense Layers with Structured Matrices [77.61728033234233]
画像領域における畳み込みネットワークの成功が示すように、高密度行列に対するより効率的な代替手段を同定する。異なる構造は、しばしばパフォーマンスに不可欠な、非常に異なる初期化尺度と学習率を必要とする。本稿では,モナール行列を含む新しい行列族Block-Trainを提案する。
論文参考訳（メタデータ） (2024-06-10T13:25:43Z)
DYAD: A Descriptive Yet Abjuring Density efficient approximation to linear neural network layers [19.949611634077634]
我々はDYADを考案し、実装し、性能評価する。DYADは線形層を高速でよりメモリ効率の良い近似的に置き換えることができる。 DYADは、行列がそのような層、a.a.DENSEの典型的な実現において入力を乗算する濃厚な「重い」行列Wを近似するベスポーク近傍スパース行列構造に基づいている。
論文参考訳（メタデータ） (2023-12-11T23:04:48Z)
Dynamic Sparse Training with Structured Sparsity [11.778353786208765]
ダイナミックスパーストレーニング(DST)法は、スパースニューラルネットワークトレーニングにおいて最先端の結果を達成する。本研究では, 微細構造N:M空間の変形を学習するために, スパース・ツー・スパースDST法, Structured RigL (SRigL)を提案する。オンライン推論用CPUでは3.4x/2.5x、GPUでは1.7x/13.0x、バッチサイズは256である。
論文参考訳（メタデータ） (2023-05-03T17:48:55Z)
Monarch: Expressive Structured Matrices for Efficient and Accurate Training [64.6871423399431]
大規模なニューラルネットワークは多くのドメインで優れているが、トレーニングや微調整は高価である。計算やメモリ要件を減らすための一般的なアプローチは、重み付け行列を構造化行列に置き換えることである。ハードウェア効率のよい行列(Monarch)のクラスを提案する。
論文参考訳（メタデータ） (2022-04-01T17:37:29Z)
Coarsening the Granularity: Towards Structurally Sparse Lottery Tickets [127.56361320894861]
ロッテリーチケット仮説 (LTH) は、密集したモデルには厳密なスパースワーク(すなわち当選チケット)が含まれており、完全な正確性に合わせるために単独で訓練できることを示した。本稿では,構造的にスパースな入賞券が一般に有効に発見できるという,最初の肯定的な結果を示す。具体的には、まず、重要と考えられるいくつかのチャネルで「再充填」された要素を返却し、次に非ゼロ要素を「再群」して、柔軟なグループ単位の構造パターンを作成します。
論文参考訳（メタデータ） (2022-02-09T21:33:51Z)
Dynamic Probabilistic Pruning: A general framework for hardware-constrained pruning at different granularities [80.06422693778141]
異なる粒度(重み、カーネル、フィルタ/フィーチャーマップ)での刈り取りを容易にするフレキシブルな新しい刈り取り機構を提案する。このアルゴリズムをDPP(Dynamic Probabilistic Pruning)と呼ぶ。 DPPは、画像分類のための異なるベンチマークデータセットで訓練された一般的なディープラーニングモデルを刈り取る際に、競合圧縮率と分類精度を達成する。
論文参考訳（メタデータ） (2021-05-26T17:01:52Z)
Learning N:M Fine-grained Structured Sparse Neural Networks From Scratch [75.69506249886622]
ディープニューラルネットワーク(DNN)におけるスパーシティは、資源制約された環境でモデルを圧縮し、加速するために広く研究されている。本稿では,N:M細粒構造スパースネットワークのスクラッチからトレーニングを初めて行う。
論文参考訳（メタデータ） (2021-02-08T05:55:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。