Fugu-MT 論文翻訳(概要): Adapting by Pruning: A Case Study on BERT

論文の概要: Adapting by Pruning: A Case Study on BERT

arxiv url: http://arxiv.org/abs/2105.03343v1
Date: Fri, 7 May 2021 15:51:08 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-10 15:27:30.557853
Title: Adapting by Pruning: A Case Study on BERT
Title（参考訳）: プルーニングによる適応:BERTを事例として
Authors: Yang Gao and Nicolo Colombo and Wei Wang
Abstract要約: 対象タスクの性能を最適化するために,事前学習したモデルの神経接続をpruneするプラニングにより適応する新しいモデル適応パラダイムを提案する。本稿では, 最適化問題として適応分割法を定式化し, モデル作成のための効率的なアルゴリズムを提案する。以上の結果から,提案手法は細調整フルモデルと同等の性能を示しながら,BERTの最大50%の重み付けが可能であることが示唆された。
参考スコア（独自算出の注目度）: 9.963251767416967
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Adapting pre-trained neural models to downstream tasks has become the standard practice for obtaining high-quality models. In this work, we propose a novel model adaptation paradigm, adapting by pruning, which prunes neural connections in the pre-trained model to optimise the performance on the target task; all remaining connections have their weights intact. We formulate adapting-by-pruning as an optimisation problem with a differentiable loss and propose an efficient algorithm to prune the model. We prove that the algorithm is near-optimal under standard assumptions and apply the algorithm to adapt BERT to some GLUE tasks. Results suggest that our method can prune up to 50% weights in BERT while yielding similar performance compared to the fine-tuned full model. We also compare our method with other state-of-the-art pruning methods and study the topological differences of their obtained sub-networks.
Abstract（参考訳）: 学習済みのニューラルモデルを下流タスクに適応させることが、高品質なモデルを得るための標準的なプラクティスとなっている。そこで本研究では,プレトレーニングモデルにおけるニューラルコネクションを具現化して目標タスクの性能を最適化する,プルーニングによる新しいモデル適応パラダイムを提案する。本稿では, 最適化問題として適応分割法を定式化し, モデル作成のための効率的なアルゴリズムを提案する。提案アルゴリズムは,標準的な前提条件下でほぼ最適であることを証明し,BERTをいくつかのGLUEタスクに適用するアルゴリズムを適用した。以上の結果から,提案手法は細調整フルモデルと同等の性能を示しながら,BERTの最大50%の重み付けが可能であることが示唆された。また,本手法を他の最先端プルーニング法と比較し,得られたサブネットワークのトポロジ的差異について検討した。

関連論文リスト

Orthogonal Projection Subspace to Aggregate Online Prior-knowledge for Continual Test-time Adaptation [67.80294336559574]
連続テスト時間適応(CTTA)は、新しいシナリオに継続的に適応するために、ソース事前訓練されたモデルを必要とするタスクである。我々は、OoPkと呼ばれるオンライン事前知識を集約する新しいパイプラインOrthogonal Projection Subspaceを提案する。
論文参考訳（メタデータ） (2025-06-23T18:17:39Z)
Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing [58.52119063742121]
独自の予測と潜在的にノイズの多いラベルを使ってモデルをトレーニングすることは、モデルパフォーマンスを改善するためのよく知られた戦略である。本稿では,モデルの予測と提供ラベルを最適に組み合わせる方法について論じる。我々の主な貢献は、現在のモデルの予測と与えられたラベルを組み合わせたベイズ最適集約関数の導出である。
論文参考訳（メタデータ） (2025-05-21T07:16:44Z)
MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.47014540413659]
Adam、Adam、およびそれらの変種のような大規模な勾配アルゴリズムは、この種のトレーニングの開発の中心となっている。本稿では,事前条件付き勾配最適化手法と,スケールドモーメント手法による分散低減を両立させる枠組みを提案する。
論文参考訳（メタデータ） (2024-11-15T18:57:39Z)
NUDGE: Lightweight Non-Parametric Fine-Tuning of Embeddings for Retrieval [0.7646713951724011]
既存のアプローチは、事前訓練されたモデル自体を微調整するか、より効率的に、事前訓練されたモデルの出力を変換するためにアダプタモデルを訓練する。 NUDGEは、新しい非パラメトリック埋め込みファインチューニングアプローチのファミリーである。 NUDGEは、$k$-NN検索の精度を最大化するために、データレコードの埋め込みを直接修正する。
論文参考訳（メタデータ） (2024-09-04T00:10:36Z)
Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。 GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文参考訳（メタデータ） (2023-12-19T06:06:30Z)
Adaptive Sparse Gaussian Process [0.0]
これらの問題に対処できる最初の適応スパースガウスプロセス(GP)を提案する。まず,変分スパースGPアルゴリズムを変形係数によって適応的に再構成する。そこで我々は,新しいサンプルが到着するたびに,スパースGPモデルの単一誘導点と残りのモデルパラメータを同時に更新することを提案する。
論文参考訳（メタデータ） (2023-02-20T21:34:36Z)
Faster Adaptive Federated Learning [84.38913517122619]
フェデレートラーニングは分散データの出現に伴って注目を集めている。本稿では,クロスサイロFLにおけるモーメントに基づく分散低減手法に基づく適応アルゴリズム(FAFED)を提案する。
論文参考訳（メタデータ） (2022-12-02T05:07:50Z)
Robust Binary Models by Pruning Randomly-initialized Networks [57.03100916030444]
ランダムな二元ネットワークから敵攻撃に対して頑健なモデルを得る方法を提案する。ランダムな二元ネットワークを切断することにより、ロバストモデルの構造を学習する。本手法は, 敵攻撃の有無で, 強力な抽選券仮説を立証する。
論文参考訳（メタデータ） (2022-02-03T00:05:08Z)
Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文参考訳（メタデータ） (2021-06-18T01:03:13Z)
Adaptive Sampling for Minimax Fair Classification [40.936345085421955]
最適化の原理に基づく適応型サンプリングアルゴリズムを提案し,その性能に関する理論的境界を導出する。特定の問題のクラスに対してアルゴリズム独立なローバウンドを導出することにより,適応スキームによる性能は一般に改善できないことを示した。
論文参考訳（メタデータ） (2021-03-01T04:58:27Z)
Evolutionary Variational Optimization of Generative Models [0.0]
分散最適化と進化的アルゴリズムの2つの一般的な最適化アプローチをジェネレーションモデルのための学習アルゴリズムの導出に組み合わせます。進化的アルゴリズムは変動境界を効果的かつ効率的に最適化できることを示す。ゼロショット」学習のカテゴリでは、多くのベンチマーク設定で最先端の技術を大幅に改善するために進化的変動アルゴリズムを観察しました。
論文参考訳（メタデータ） (2020-12-22T19:06:33Z)
Neural Model-based Optimization with Right-Censored Observations [42.530925002607376]
ニューラルネットワーク(NN)は、モデルベースの最適化手順のコアでうまく機能することが実証されている。トレーニングされた回帰モデルは,いくつかのベースラインよりも優れた予測品質が得られることを示す。
論文参考訳（メタデータ） (2020-09-29T07:32:30Z)
Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。 4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文参考訳（メタデータ） (2020-02-27T10:22:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。