論文の概要: Learning Best Combination for Efficient N:M Sparsity
- arxiv url: http://arxiv.org/abs/2206.06662v1
- Date: Tue, 14 Jun 2022 07:51:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-16 02:10:16.938100
- Title: Learning Best Combination for Efficient N:M Sparsity
- Title(参考訳): 効率的なN:M空間の最適組み合わせ学習
- Authors: Yuxin Zhang, Mingbao Lin, Zhihang Lin, Yiting Luo, Ke Li, Fei Chao,
Yongjian Wu, Rongrong Ji
- Abstract要約: N:M学習は自然に有限コレクション内で最高の組み合わせを求める問題として特徴づけられる。
学習の最良の組み合わせ (LBC) は, 様々なネットワークにおいて, 市販のN:Mスポーサリティ手法よりも一貫して優れていることを示す。
- 参考スコア(独自算出の注目度): 75.34103761423803
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: By forcing at most N out of M consecutive weights to be non-zero, the recent
N:M network sparsity has received increasing attention for its two attractive
advantages: 1) Promising performance at a high sparsity. 2) Significant
speedups on NVIDIA A100 GPUs. Recent studies require an expensive pre-training
phase or a heavy dense-gradient computation. In this paper, we show that the
N:M learning can be naturally characterized as a combinatorial problem which
searches for the best combination candidate within a finite collection.
Motivated by this characteristic, we solve N:M sparsity in an efficient
divide-and-conquer manner. First, we divide the weight vector into
$C_{\text{M}}^{\text{N}}$ combination subsets of a fixed size N. Then, we
conquer the combinatorial problem by assigning each combination a learnable
score that is jointly optimized with its associate weights. We prove that the
introduced scoring mechanism can well model the relative importance between
combination subsets. And by gradually removing low-scored subsets, N:M
fine-grained sparsity can be efficiently optimized during the normal training
phase. Comprehensive experiments demonstrate that our learning best combination
(LBC) performs consistently better than off-the-shelf N:M sparsity methods
across various networks. Our code is released at
\url{https://github.com/zyxxmu/LBC}.
- Abstract(参考訳): 最近のN:Mネットワークのスパシティは、Mの連続重みのうちNをゼロ以下にすることで、2つの魅力的なアドバンテージに注目を集めている。
1)高い間隔で性能を向上する。
2)NVIDIA A100 GPUにおける重要なスピードアップ。
最近の研究では、高価な事前学習フェーズや高密度勾配計算が必要である。
本稿では,n:m学習を,有限集合の中で最適な組合せ候補を探索する組合せ問題として,自然に特徴づけることができることを示す。
この特徴に感化され、我々はN:M空間を効率的に分割・収束的に解決する。
まず、重みベクトルを固定サイズ N の組合せ部分集合 $C_{\text{M}}^{\text{N}}$ に分割する。
導入したスコアリング機構が組合せ部分集合間の相対的重要性をうまくモデル化できることを実証する。
また,低彩度部分集合を徐々に除去することにより,N:M微細粒度を通常のトレーニング段階で効率的に最適化することができる。
包括的実験により、学習の最良の組み合わせ(LBC)は、様々なネットワークにおける既成のN:M空間法よりも一貫して優れていることが示された。
私たちのコードは \url{https://github.com/zyxxmu/lbc} でリリースされる。
関連論文リスト
- Zeroth-Order Adaptive Neuron Alignment Based Pruning without Re-Training [3.195234044113248]
我々は、高密度事前学習モデルの関数情報を利用して、アクティベーションのアライメントw.r.tを最大化するスパースモデルを得る。
我々は,アクティベーション間のニューロンアライメントを最大化するために,ブロックワイドと行ワイドの間隔比を変更するエンフェップアップアルゴリズムであるtextscNeuroAlを提案する。
提案手法は,4つの異なるLLMファミリーと3つの異なる空間比で検証し,最新の最先端技術よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2024-11-11T15:30:16Z) - BOND: Aligning LLMs with Best-of-N Distillation [63.254031574394965]
BOND(Best-of-N Distillation)は,Best-of-Nをエミュレートする新しいRLHFアルゴリズムである。
具体的には、BONDは、ポリシーから世代分布をBest-of-N分布に近づけるように強制する分布マッチングアルゴリズムである。
本稿では,抽象的な要約モデルとGemmaモデルの実験を通じて,提案手法の有効性といくつかの設計選択を実証する。
論文 参考訳(メタデータ) (2024-07-19T18:38:25Z) - Exact Combinatorial Optimization with Temporo-Attentional Graph Neural
Networks [17.128882942475]
本稿では,機械学習アルゴリズムの時間的特徴と注意点の2つの重要な側面について検討する。
分岐とバウンド(B&B)アルゴリズムにおける変数選択のタスクでは、時間情報と二部グラフの注意を組み込むことで、解法の性能が向上すると主張している。
論文 参考訳(メタデータ) (2023-11-23T08:07:15Z) - Solving a Class of Non-Convex Minimax Optimization in Federated Learning [84.98927714326908]
ミニマックス問題は、機械学習のトレーニングから大規模学習まで、機械学習アプリケーション全体にわたって発生する。
本稿では,非ミニマックス問題 (emphi) に対するアルゴリズムのクラスを提案し,複雑性を$varepsilon-6)$に減らした。
我々は、FedSGDA-Mが$O(kappa2-3)$と$O(kappa2-3)$の最もよく知られた通信量を持つことを示す。
論文 参考訳(メタデータ) (2023-10-05T15:48:41Z) - Implicitly normalized forecaster with clipping for linear and non-linear
heavy-tailed multi-armed bandits [85.27420062094086]
Implicitly Normalized Forecaster (INF) は、敵対的マルチアームバンディット(MAB)問題に対する最適解であると考えられている。
重み付き設定のMAB問題に対するクリッピング(INFclip)を用いたINFの新バージョン"Implicitly Normalized Forecaster"を提案する。
INFclipは線形重み付きMAB問題に対して最適であり、非線形問題に対して有効であることを示す。
論文 参考訳(メタデータ) (2023-05-11T12:00:43Z) - Searching Large Neighborhoods for Integer Linear Programs with
Contrastive Learning [39.40838358438744]
線形プログラム(ILP)は、多数の最適化問題のモデリングと解決のための強力なツールである。
アルゴリズムとしてLarge Neighborhood Search (LNS)は、ブランチやバウンドよりも高速に、ILPの高品質なソリューションを見つけることができる。
本稿では,メトリクスによって測定された複数のILPベンチマークに対して,最先端のリアルタイム性能を実現する新しいアプローチCL-LNSを提案する。
論文 参考訳(メタデータ) (2023-02-03T07:15:37Z) - DOGE-Train: Discrete Optimization on GPU with End-to-end Training [28.795080637690095]
0-1整数線形プログラムの緩和を解くために,高速でスケーラブルなデータ駆動型手法を提案する。
グラフニューラルネットワーク(GNN)とラグランジュ分解に基づくアルゴリズムであるFastDOGを用いる。
論文 参考訳(メタデータ) (2022-05-23T21:09:41Z) - SiMaN: Sign-to-Magnitude Network Binarization [165.5630656849309]
重みバイナライゼーションは、高倍率重みを+1s、0sに符号化することで分析ソリューションを提供する。
二元化ネットワークの学習重みは、エントロピーを許さないラプラシアン分布に概ね従うことが証明される。
CIFAR-10 と ImageNet を用いて,シマナライゼーション (SiMaN) と呼ばれる手法の評価を行った。
論文 参考訳(メタデータ) (2021-02-16T07:03:51Z) - Learning N:M Fine-grained Structured Sparse Neural Networks From Scratch [75.69506249886622]
ディープニューラルネットワーク(DNN)におけるスパーシティは、資源制約された環境でモデルを圧縮し、加速するために広く研究されている。
本稿では,N:M細粒構造スパースネットワークのスクラッチからトレーニングを初めて行う。
論文 参考訳(メタデータ) (2021-02-08T05:55:47Z) - Curriculum learning for multilevel budgeted combinatorial problems [7.804994311050265]
マルチレベル最適化問題はそれらの一般化であり、複数のプレイヤーが逐次決定を下す状況を含んでいる。
グラフ上のゼロサムゲームにおいて、2人のプレイヤーが関与する多段階の予算問題を解決するための価値ベース手法を考案する。
我々のフレームワークは単純なカリキュラムに基づいており、もしエージェントが$B$までの予算を持つインスタンスの価値を見積もる方法を知っているなら、可能なすべての余剰状態の方向に関係なく、予算が$B+1$のインスタンスを時間内に解決することができる。
論文 参考訳(メタデータ) (2020-07-07T01:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。