論文の概要: DiPair: Fast and Accurate Distillation for Trillion-Scale Text Matching
and Pair Modeling
- arxiv url: http://arxiv.org/abs/2010.03099v1
- Date: Wed, 7 Oct 2020 01:19:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 23:01:40.510086
- Title: DiPair: Fast and Accurate Distillation for Trillion-Scale Text Matching
and Pair Modeling
- Title(参考訳): DiPair:Trillionスケールテキストマッチングとペアモデリングのための高速かつ正確な蒸留
- Authors: Jiecao Chen, Liu Yang, Karthik Raman, Michael Bendersky, Jung-Jung
Yeh, Yun Zhou, Marc Najork, Danyang Cai, Ehsan Emadzadeh
- Abstract要約: テキストペアタスクの高速かつ正確なモデルを蒸留するためのフレームワークであるDiPairを提案する。
スケーラビリティも高く、品質と速度のトレードオフも改善されている。
学術および実世界のeコマースベンチマークで実施された実証研究は,提案手法の有効性を実証している。
- 参考スコア(独自算出の注目度): 24.07558669713062
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained models like BERT (Devlin et al., 2018) have dominated NLP / IR
applications such as single sentence classification, text pair classification,
and question answering. However, deploying these models in real systems is
highly non-trivial due to their exorbitant computational costs. A common remedy
to this is knowledge distillation (Hinton et al., 2015), leading to faster
inference. However -- as we show here -- existing works are not optimized for
dealing with pairs (or tuples) of texts. Consequently, they are either not
scalable or demonstrate subpar performance. In this work, we propose DiPair --
a novel framework for distilling fast and accurate models on text pair tasks.
Coupled with an end-to-end training strategy, DiPair is both highly scalable
and offers improved quality-speed tradeoffs. Empirical studies conducted on
both academic and real-world e-commerce benchmarks demonstrate the efficacy of
the proposed approach with speedups of over 350x and minimal quality drop
relative to the cross-attention teacher BERT model.
- Abstract(参考訳): BERT (Devlin et al., 2018)のような事前訓練されたモデルは、単一文分類、テキストペア分類、質問応答などのNLP/IRアプリケーションを支配している。
しかし、これらのモデルを実システムにデプロイするのは、その計算コストが大きすぎるため、非常に非自明である。
これに対する一般的な治療として、知識蒸留(hinton et al., 2015)がある。
しかし、ここで示すように、既存の作品はテキストのペア(またはタプル)を扱うために最適化されていない。
結果として、スケーラビリティが損なわれるか、サブパーパフォーマンスが示される。
本研究では,テキストペアタスク上で高速かつ正確なモデルを蒸留するための新しいフレームワークであるDiPairを提案する。
DiPairはエンドツーエンドのトレーニング戦略と組み合わせて、高度にスケーラブルで、品質と速度のトレードオフが改善されている。
学術および実世界のeコマースベンチマークで実施された実証研究は、350倍以上のスピードアップと最小品質の低下による提案手法の有効性を示した。
関連論文リスト
- The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - Performance-Efficiency Trade-Offs in Adapting Language Models to Text
Classification Tasks [4.101451083646731]
我々は,LMをテキスト分類に適応させる訓練方法の違いについて検討した。
実験結果から, 大型鉄道車両において, 微調整や作業の促進が有効であったとしても, 計算コストやデータコストを削減できる, より効率的な代替手段があることが示唆された。
論文 参考訳(メタデータ) (2022-10-21T15:10:09Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - SE3M: A Model for Software Effort Estimation Using Pre-trained Embedding
Models [0.8287206589886881]
本稿では,事前学習した埋め込みモデルの有効性を評価する。
両方のアプローチでトレーニング済みのジェネリックモデルは、微調整プロセスを経ている。
テスト結果は非常に有望で、事前トレーニングされたモデルを使用して、要求テキストのみに基づいてソフトウェアの労力を見積もることができることに気付きました。
論文 参考訳(メタデータ) (2020-06-30T14:15:38Z) - The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。
我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。
3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文 参考訳(メタデータ) (2020-04-16T04:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。