論文の概要: TiltedBERT: Resource Adjustable Version of BERT
- arxiv url: http://arxiv.org/abs/2201.03327v1
- Date: Mon, 10 Jan 2022 13:04:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-11 16:08:51.410756
- Title: TiltedBERT: Resource Adjustable Version of BERT
- Title(参考訳): TiltedBERT: BERTのリソース調整可能なバージョン
- Authors: Sajjad Kachuee, Mohammad Sharifkhani
- Abstract要約: 本稿では,下流タスクにおけるBERTモデルのトレーニングおよび推論時間を改善するための,調整可能な微調整手法を提案する。
我々は,高層層における単語ベクトルの冗長性を示す広範な実験を行い,学習時間と推論時間を短縮できることを示す。
感情分析,分類,回帰データセット,IMDB や GLUE などのベンチマークによる実験結果から,提案手法が様々なデータセットに有効であることが示唆された。
- 参考スコア(独自算出の注目度): 1.8275108630751844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we proposed a novel adjustable fine-tuning method that
improves the training and inference time of the BERT model on downstream tasks.
In the proposed method, we first detect more important word vectors in each
layer by our proposed redundancy metric and then eliminate the less important
word vectors with our proposed strategy. In our method, the word vector
elimination rate in each layer is controlled by the Tilt-Rate hyper-parameter,
and the model learns to work with a considerably lower number of Floating Point
Operations (FLOPs) than the original BERT\textsubscript{base} model. Our
proposed method does not need any extra training steps, and also it can be
generalized to other transformer-based models. We perform extensive experiments
that show the word vectors in higher layers have an impressive amount of
redundancy that can be eliminated and decrease the training and inference time.
Experimental results on extensive sentiment analysis, classification and
regression datasets, and benchmarks like IMDB and GLUE showed that our proposed
method is effective in various datasets. By applying our method on the
BERT\textsubscript{base} model, we decrease the inference time up to 5.3 times
with less than 0.85\% accuracy degradation on average. After the fine-tuning
stage, the inference time of our model can be adjusted with our method
offline-tuning property for a wide range of the Tilt-Rate value selections.
Also, we propose a mathematical speedup analysis that can estimate the speedup
of our method accurately. With the help of this analysis, the Tilt-Rate
hyper-parameter can be selected before fine-tuning or while offline-tuning
stages.
- Abstract(参考訳): 本稿では,下流タスクにおけるBERTモデルのトレーニング時間と推論時間を改善するための調整可能な微調整手法を提案する。
提案手法では,まず,提案手法により,各層におけるより重要な単語ベクトルを抽出し,提案手法により重要でない単語ベクトルを除去する。
提案手法では,各層における単語ベクトル除去率をTilt-Rateハイパーパラメータで制御し,元のBERT\textsubscript{base}モデルよりもかなり少ない浮動小数点演算(FLOPs)で処理することを学習する。
提案手法では追加のトレーニングステップは必要とせず,他のトランスモデルにも適用可能である。
我々は,高層における単語ベクトルの冗長性が印象的であり,学習や推論の時間を短縮できることを示す広範な実験を行う。
広範囲な感情分析,分類,回帰データセット,IMDBやGLUEなどのベンチマークによる実験結果から,提案手法は様々なデータセットに有効であることがわかった。
BERT\textsubscript{base} モデルに適用することにより,平均精度 0.85 % 未満の精度で推定時間を5.3倍に短縮する。
微調整後のモデルでは,広範囲のTilt-Rate値選択に対して,オフラインチューニング特性を用いて推定時間を調整することができる。
また,本手法の高速化を正確に推定できる数学的高速化解析を提案する。
この分析の助けを借りて、ティルトレートハイパーパラメータは、微調整やオフラインチューニングの段階で選択することができる。
関連論文リスト
- Sparse is Enough in Fine-tuning Pre-trained Large Language Model [105.63770797908127]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - GIFT: Generative Interpretable Fine-Tuning Transformers [9.532589580200437]
本稿では, GIFT (Generative Interpretable Fine-tuning Transformer) を用いて, 微調整事前学習型トランスモデルを提案する。
我々のGIFTは深層パラメータ残差学習法であり、事前学習されたトランスフォーマーモデルを微調整する際の2つの問題に対処する。
実験では,提案したGIFTをVTABベンチマークときめ細かい視覚分類ベンチマークで検証した。
論文 参考訳(メタデータ) (2023-12-01T16:33:57Z) - Optimization-Free Test-Time Adaptation for Cross-Person Activity
Recognition [30.350005654271868]
Test-Time Adaptationは、テストストリームを使用して、リアルタイムの推論で予測を調整することを目的としている。
計算コストが高いため、リソース制約のあるエッジデバイス上での動作が困難になる。
センサベースHARのための最適化自由テスト時間適応フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-28T02:20:33Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Fourier Test-time Adaptation with Multi-level Consistency for Robust
Classification [10.291631977766672]
本稿では,Fourier Test-Time Adaptation (FTTA) と呼ばれる新しい手法を提案する。
FTTAは、予測の自己監督を行うために、ペア入力の信頼性の高い多レベル整合性測定を構築する。
異なる形態と器官を持つ3つの大きな分類データセットで広範囲に検証された。
論文 参考訳(メタデータ) (2023-06-05T02:29:38Z) - Efficient Graph Neural Network Inference at Large Scale [54.89457550773165]
グラフニューラルネットワーク(GNN)は、幅広いアプリケーションで優れた性能を示している。
既存のスケーラブルなGNNは、線形伝搬を利用して特徴を前処理し、トレーニングと推論の手順を高速化する。
本稿では,そのトポロジ情報に基づいて各ノードに対してパーソナライズされた伝搬順序を生成する適応的伝搬順序法を提案する。
論文 参考訳(メタデータ) (2022-11-01T14:38:18Z) - SCAI: A Spectral data Classification framework with Adaptive Inference
for the IoT platform [0.0]
適応推論を用いたスペクトルデータ分類フレームワークを提案する。
具体的には、異なるデバイス間のコラボレーションをよりよく活用しながら、異なるサンプルに対して異なる計算を割り当てる。
我々の知る限り、この論文はIoTプラットフォーム下でのスペクトル検出のための適応推論による最適化を行うための最初の試みである。
論文 参考訳(メタデータ) (2022-06-24T09:22:52Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。