Fugu-MT 論文翻訳(概要): NxMTransformer: Semi-Structured Sparsification for Natural Language Understanding via ADMM

論文の概要: NxMTransformer: Semi-Structured Sparsification for Natural Language Understanding via ADMM

arxiv url: http://arxiv.org/abs/2110.15766v1
Date: Thu, 28 Oct 2021 17:43:06 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-02 01:49:01.144270
Title: NxMTransformer: Semi-Structured Sparsification for Natural Language Understanding via ADMM
Title（参考訳）: NxM Transformer:ADMMによる自然言語理解のための半構造化スカラー化
Authors: Connor Holmes, Minjia Zhang, Yuxiong He, and Bo Wu
Abstract要約: 我々はNxMTransformerと呼ばれる新しい学習フレームワークを導入し、事前訓練された言語モデル上でNxM半構造化空間を誘導する。我々は,制約付き最適化問題としてNxM空間を定式化し,下流タスクの最適化に Alternating Direction Method of Multipliers (ADMM) を用いることを提案する。提案手法は,GLUEスコアの1.7ポイントの精度を現行の手法よりも高い精度で達成できる。
参考スコア（独自算出の注目度）: 16.464030458567187
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Natural Language Processing (NLP) has recently achieved success by using huge pre-trained Transformer networks. However, these models often contain hundreds of millions or even billions of parameters, bringing challenges to online deployment due to latency constraints. Recently, hardware manufacturers have introduced dedicated hardware for NxM sparsity to provide the flexibility of unstructured pruning with the runtime efficiency of structured approaches. NxM sparsity permits arbitrarily selecting M parameters to retain from a contiguous group of N in the dense representation. However, due to the extremely high complexity of pre-trained models, the standard sparse fine-tuning techniques often fail to generalize well on downstream tasks, which have limited data resources. To address such an issue in a principled manner, we introduce a new learning framework, called NxMTransformer, to induce NxM semi-structured sparsity on pretrained language models for natural language understanding to obtain better performance. In particular, we propose to formulate the NxM sparsity as a constrained optimization problem and use Alternating Direction Method of Multipliers (ADMM) to optimize the downstream tasks while taking the underlying hardware constraints into consideration. ADMM decomposes the NxM sparsification problem into two sub-problems that can be solved sequentially, generating sparsified Transformer networks that achieve high accuracy while being able to effectively execute on newly released hardware. We apply our approach to a wide range of NLP tasks, and our proposed method is able to achieve 1.7 points higher accuracy in GLUE score than current practices. Moreover, we perform detailed analysis on our approach and shed light on how ADMM affects fine-tuning accuracy for downstream tasks. Finally, we illustrate how NxMTransformer achieves performance improvement with knowledge distillation.
Abstract（参考訳）: 自然言語処理(NLP)は、最近、巨大なトレーニング済みトランスフォーマーネットワークを使用することで成功している。しかしながら、これらのモデルには数億ないし数十億のパラメータが含まれており、レイテンシの制約によるオンラインデプロイメントに課題をもたらすことが多い。近年、ハードウェアメーカーは、非構造化プラニングの柔軟性と構造化アプローチのランタイム効率を提供するため、nxm sparsity専用のハードウェアを導入した。 NxM 空間性は、密度表現における N の連続群から M のパラメータを任意に選択することができる。しかし、事前訓練されたモデルの非常に高い複雑さのため、標準のスパース微調整技術は、データリソースが限られている下流のタスクをうまく一般化できないことが多い。このような問題に対処するために,自然言語理解のための事前学習された言語モデルにnxm半構造化スパーシティを誘導し,よりよい性能を得るための新しい学習フレームワークnxmtransformerを導入する。特に,制約付き最適化問題としてnxmのスパーシティを定式化し,ハードウェア制約を考慮しつつ下流タスクを最適化するために乗算器の交互方向法(admm)を用いることを提案する。 admmはnxmのスパーシフィケーション問題を2つのサブプロブレムに分解し、シーケンシャルに解決し、新しくリリースされたハードウェア上で効果的に実行できながら精度の高いスパーシフィケーショントランスフォーマーネットワークを生成する。提案手法は幅広いnlpタスクに適用可能であり,提案手法は接着剤スコアにおいて,従来の手法よりも1.7ポイント高い精度が得られる。さらに,提案手法の詳細な解析を行い,admmが下流タスクの微調整精度に与える影響を明らかにした。最後に,NxMTransformerの知識蒸留による性能向上について述べる。

関連論文リスト

Reinforced Model Merging [53.84354455400038]
本稿では,タスク統合に適した環境とエージェントを含むRMM(Reinforced Model Merging)という,革新的なフレームワークを提案する。評価プロセス中にデータサブセットを利用することで、報酬フィードバックフェーズのボトルネックに対処し、RMMを最大100倍高速化する。
論文参考訳（メタデータ） (2025-03-27T08:52:41Z)
Panacea: Novel DNN Accelerator using Accuracy-Preserving Asymmetric Quantization and Energy-Saving Bit-Slice Sparsity [2.78181759570722]
低ビット精度とそれらのビットスライス間隔は、大規模ディープニューラルネットワーク(DNN)推論において、GEMM(GeneralMatrix-multiplications)を加速するために研究されている。近年の研究では、追加の操作を必要とせず、アクティベーションに非対称量子化を積極的に活用している。本稿では,非対称化ビットスライスGEMMを初めて提案する。
論文参考訳（メタデータ） (2024-12-13T11:44:09Z)
Progressive Mixed-Precision Decoding for Efficient LLM Inference [49.05448842542558]
我々は,デコーディングのメモリバウンドネスに対処するために,プログレッシブ・ミックス・プレシジョン・デコーディング(PMPD)を導入する。 PMPDはfp16モデルの行列ベクトル乗算において1.4$-$12.2$times$ Speedupを達成する。我々の手法は、fp16モデルよりも3.8$-$8.0$times$、均一量子化アプローチよりも1.54$times$のスループット向上をもたらす。
論文参考訳（メタデータ） (2024-10-17T11:46:33Z)
Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。 In-Context Learning (ICL) など。効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。下流タスクへのLLM。我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文参考訳（メタデータ） (2024-09-30T10:48:20Z)
N-1 Reduced Optimal Power Flow Using Augmented Hierarchical Graph Neural Network [0.2900810893770134]
AHGNN対応のN-1 ROPFは、解の質を維持しながら計算時間を著しく短縮することができる。ケーススタディは、提案したAHGNNと関連するN-1 ROPFが、解の質を維持しながら計算時間を短縮するのに非常に有効であることを証明している。
論文参考訳（メタデータ） (2024-02-09T07:23:27Z)
Dynamically configured physics-informed neural network in topology optimization applications [4.403140515138818]
物理インフォームドニューラルネットワーク(PINN)は、前方問題を解決する際に大量のデータを生成するのを避けることができる。動的に構成された PINN-based Topology Optimization (DCPINN-TO) 法を提案する。変位予測と最適化結果の精度は,DCPINN-TO法が効率的かつ効率的であることを示している。
論文参考訳（メタデータ） (2023-12-12T05:35:30Z)
E-Sparse: Boosting the Large Language Model Inference through Entropy-based N:M Sparsity [6.434967516411846]
隠れ状態特徴の情報エントロピーをプルーニング計量設計、すなわちE-Sparseに導入する。 E-Sparseはチャネルの重要性を活用するために情報豊かさを使用し、さらにいくつかの新しいテクニックを取り入れて効果を発揮させる。 E-Sparseは、高密度モデル(最大1.53X)に対するモデル推論を著しく高速化し、大きなメモリ節約(最大43.52%)を得ることができ、精度の低下を許容できる。
論文参考訳（メタデータ） (2023-10-24T15:27:15Z)
Use Your INSTINCT: INSTruction optimization for LLMs usIng Neural bandits Coupled with Transformers [66.823588073584]
大規模言語モデル (LLM) は命令追従能力に優れ、様々なアプリケーションで優れた性能を発揮している。最近の研究は、ブラックボックスLLMに与えられる命令を自動的に最適化するために、クエリ効率のよいベイズ最適化(BO)アルゴリズムを用いている。 NNサロゲートによりBOのGPを置換し,ブラックボックスLLMの命令を最適化するニューラルバンディットアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-10-02T02:01:16Z)
A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。 MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文参考訳（メタデータ） (2023-09-02T11:01:16Z)
Learning to Solve the AC-OPF using Sensitivity-Informed Deep Neural Networks [52.32646357164739]
最適な電力フロー(ACOPF)のソリューションを解決するために、ディープニューラルネットワーク(DNN)を提案します。提案されたSIDNNは、幅広いOPFスキームと互換性がある。他のLearning-to-OPFスキームとシームレスに統合できる。
論文参考訳（メタデータ） (2021-03-27T00:45:23Z)
Joint Deep Reinforcement Learning and Unfolding: Beam Selection and Precoding for mmWave Multiuser MIMO with Lens Arrays [54.43962058166702]
離散レンズアレイを用いたミリ波マルチユーザマルチインプット多重出力(MU-MIMO)システムに注目が集まっている。本研究では、DLA を用いた mmWave MU-MIMO システムのビームプリコーディング行列の共同設計について検討する。
論文参考訳（メタデータ） (2021-01-05T03:55:04Z)
Deep unfolding of the weighted MMSE beamforming algorithm [9.518010235273783]
MISOダウンリンクチャネルに対するWMMSEアルゴリズムに対する深部展開の新たな適用法を提案する。深層展開は、自然に専門家の知識を取り入れており、即時かつしっかりとしたアーキテクチャ選択の利点、トレーニング可能なパラメータの少ないこと、説明可能性の向上がある。シミュレーションにより、ほとんどの設定において、展開されたWMMSEは、一定回数の反復に対して、WMMSEよりも優れているか、等しく動作することを示す。
論文参考訳（メタデータ） (2020-06-15T14:51:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。