論文の概要: Extreme compression of sentence-transformer ranker models: faster
inference, longer battery life, and less storage on edge devices
- arxiv url: http://arxiv.org/abs/2207.12852v1
- Date: Wed, 29 Jun 2022 08:07:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-31 14:48:23.787940
- Title: Extreme compression of sentence-transformer ranker models: faster
inference, longer battery life, and less storage on edge devices
- Title(参考訳): 文変換型ランチャーモデルの極端な圧縮:高速な推論、バッテリー寿命の延長、エッジデバイス上のストレージの削減
- Authors: Amit Chaulwar, Lukas Malik, Maciej Krajewski, Felix Reichel,
Leif-Nissen Lundb{\ae}k, Michael Huth and Bartlomiej Matejczyk
- Abstract要約: 本稿では, メモリ要求量とエネルギー消費量を削減するために, 一般的な文変換器蒸留法の2つの拡張法を提案する。
これらの拡張を2種類のランサーモデルで評価する。
- 参考スコア(独自算出の注目度): 1.3854111346209868
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Modern search systems use several large ranker models with transformer
architectures. These models require large computational resources and are not
suitable for usage on devices with limited computational resources. Knowledge
distillation is a popular compression technique that can reduce the resource
needs of such models, where a large teacher model transfers knowledge to a
small student model. To drastically reduce memory requirements and energy
consumption, we propose two extensions for a popular sentence-transformer
distillation procedure: generation of an optimal size vocabulary and
dimensionality reduction of the embedding dimension of teachers prior to
distillation. We evaluate these extensions on two different types of ranker
models. This results in extremely compressed student models whose analysis on a
test dataset shows the significance and utility of our proposed extensions.
- Abstract(参考訳): 現代の検索システムは、トランスフォーマーアーキテクチャを持ついくつかの大きなランチャーモデルを使用している。
これらのモデルは大きな計算資源を必要とし、限られた計算資源を持つデバイスでの使用には適さない。
知識蒸留は、そのようなモデルの資源需要を削減できる一般的な圧縮技術であり、大きな教師モデルが知識を小さな学生モデルに伝達する。
記憶要求量とエネルギー消費を大幅に削減するために, 最適なサイズ語彙の生成と, 蒸留前の教師の埋め込み次元の次元低減という, 一般的な文変換蒸留手順の2つの拡張を提案する。
これらの拡張を2種類のランサーモデルで評価する。
その結果,テストデータセットの解析により,提案した拡張の意義と有用性を示す,非常に圧縮された学生モデルが得られた。
関連論文リスト
- Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Multi-stage Progressive Compression of Conformer Transducer for
On-device Speech Recognition [7.450574974954803]
スマートデバイスにおける小さなメモリ帯域幅は、より小さな自動音声認識(ASR)モデルの開発を促す。
知識蒸留(KD)は、より小さなモデルサイズを達成するための一般的なモデル圧縮手法である。
KDを用いてコンバータトランスデューサモデルを圧縮する多段階プログレッシブアプローチを提案する。
論文 参考訳(メタデータ) (2022-10-01T02:23:00Z) - Knowledge Distillation of Russian Language Models with Reduction of
Vocabulary [0.1092387707389144]
トランスフォーマー言語モデルは、自然言語処理タスクの大部分のコアコンポーネントとして機能する。
この分野の既存の手法は主に、埋め込み/隠された表現の層数や次元を減らすことに焦点を当てている。
語彙を減らした学生に知識蒸留を行うための2つの簡易かつ効果的なアライメント手法を提案する。
論文 参考訳(メタデータ) (2022-05-04T21:56:57Z) - Ensemble Transformer for Efficient and Accurate Ranking Tasks: an
Application to Question Answering Systems [99.13795374152997]
本研究では,大きな変圧器のアンサンブルを1つの小さなモデルに蒸留するニューラルネットワークを提案する。
MHSモデルは、入力をエンコードするために使用されるトランスフォーマー層のスタックと、ランキングヘッドのセットの2つのコンポーネントから構成される。
従来の蒸留法とは異なり,本手法では,アンサンブルメンバーの多様性を保ちつつ,個々のモデルを教師として利用している。
論文 参考訳(メタデータ) (2022-01-15T06:21:01Z) - Sparse Distillation: Speeding Up Text Classification by Using Bigger
Models [49.8019791766848]
最先端の変圧器モデルを軽量の学生モデルに拡張することは、推論時の計算コストを削減する効果的な方法である。
本稿では,学生モデルの設計空間における新しい領域を探索することにより,推論速度の限界をさらに推し進めることを目的とする。
実験の結果,RoBERTa-Large教師の授業成績の97%を6つのテキスト分類タスクのコレクションに保持していることがわかった。
論文 参考訳(メタデータ) (2021-10-16T10:04:14Z) - TERA: Self-Supervised Learning of Transformer Encoder Representation for
Speech [63.03318307254081]
TERA は Transformer Representations from Alteration の略である。
我々は3つの軸に沿った変形を用いて、大量のラベルなし音声でトランスフォーマーを事前訓練する。
TERAは、音声表現の抽出や下流モデルによる微調整に使用することができる。
論文 参考訳(メタデータ) (2020-07-12T16:19:00Z) - Knowledge Distillation: A Survey [87.51063304509067]
ディープニューラルネットワークは、特にコンピュータビジョンタスクにおいて、産業と学術の両方で成功している。
リソースが限られているデバイスに、これらの面倒なディープモデルをデプロイすることは難しい。
知識蒸留は、大きな教師モデルから小さな学生モデルを効果的に学習する。
論文 参考訳(メタデータ) (2020-06-09T21:47:17Z) - MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression
of Pre-Trained Transformers [117.67424061746247]
本稿では,大規模トランスフォーマーをベースとした事前学習モデルの簡易かつ効率的な圧縮手法を提案する。
本稿では,教師の最後のトランスフォーマー層の自己保持モジュールを蒸留することを提案する。
実験結果から, 単言語モデルでは, 学生モデルのパラメータサイズの違いにより, 最先端のベースラインよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-02-25T15:21:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。