論文の概要: TwinBERT: Distilling Knowledge to Twin-Structured BERT Models for
Efficient Retrieval
- arxiv url: http://arxiv.org/abs/2002.06275v1
- Date: Fri, 14 Feb 2020 22:44:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-01 05:16:59.933128
- Title: TwinBERT: Distilling Knowledge to Twin-Structured BERT Models for
Efficient Retrieval
- Title(参考訳): TwinBERT: 効率的な検索のための双構造化BERTモデルに対する知識の蒸留
- Authors: Wenhao Lu, Jian Jiao, Ruofei Zhang
- Abstract要約: 本稿では,効率的な検索のためのTwinBERTモデルを提案する。
クエリとドキュメントをそれぞれ表現するBERTライクなエンコーダがツイン構造化されている。
ドキュメントの埋め込みはオフラインでプリコンパイルされ、メモリにキャッシュされる。
- 参考スコア(独自算出の注目度): 11.923682816611716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained language models like BERT have achieved great success in a wide
variety of NLP tasks, while the superior performance comes with high demand in
computational resources, which hinders the application in low-latency IR
systems. We present TwinBERT model for effective and efficient retrieval, which
has twin-structured BERT-like encoders to represent query and document
respectively and a crossing layer to combine the embeddings and produce a
similarity score. Different from BERT, where the two input sentences are
concatenated and encoded together, TwinBERT decouples them during encoding and
produces the embeddings for query and document independently, which allows
document embeddings to be pre-computed offline and cached in memory. Thereupon,
the computation left for run-time is from the query encoding and query-document
crossing only. This single change can save large amount of computation time and
resources, and therefore significantly improve serving efficiency. Moreover, a
few well-designed network layers and training strategies are proposed to
further reduce computational cost while at the same time keep the performance
as remarkable as BERT model. Lastly, we develop two versions of TwinBERT for
retrieval and relevance tasks correspondingly, and both of them achieve close
or on-par performance to BERT-Base model.
The model was trained following the teacher-student framework and evaluated
with data from one of the major search engines. Experimental results showed
that the inference time was significantly reduced and was firstly controlled
around 20ms on CPUs while at the same time the performance gain from fine-tuned
BERT-Base model was mostly retained. Integration of the models into production
systems also demonstrated remarkable improvements on relevance metrics with
negligible influence on latency.
- Abstract(参考訳): BERTのような事前訓練された言語モデルは、様々なNLPタスクにおいて大きな成功を収め、優れた性能は、低遅延IRシステムでの応用を妨げる計算リソースの要求が高い。
本稿では,TwinBERT モデルを用いて,クエリとドキュメントをそれぞれ表現するツイン構造化BERT ライクなエンコーダと,埋め込みを組み合わせ,類似度スコアを生成するクロスレイヤを提案する。
2つの入力文が結合してエンコードされるBERTとは異なり、TwinBERTはエンコード中にそれらを分離し、クエリとドキュメントの埋め込みを独立して生成する。
実行時に残される計算は、クエリエンコーディングとクエリドキュメントの交差のみから行われる。
この単一の変更は、大量の計算時間とリソースを節約し、それによって効率を大幅に改善する。
さらに, BERTモデルと同等の性能を維持しつつ, 計算コストをさらに削減するために, ネットワーク層とトレーニング戦略がいくつか提案されている。
最後に、TwinBERTの2つのバージョンを検索・関連タスクとして開発し、それぞれがBERT-Baseモデルに対して近接またはオンパー性能を実現する。
モデルは教師/学生のフレームワークに従ってトレーニングされ、主要な検索エンジンの1つからのデータで評価された。
実験の結果、推定時間は大幅に短縮され、cpu上では20ミリ秒程度に制御され、同時に、微調整されたbertベースモデルによる性能向上もほぼ維持された。
モデルのプロダクションシステムへの統合は、レイテンシーに無視できる影響を与えながら、関連メトリクスにおいて顕著な改善を示した。
関連論文リスト
- Efficient Document Ranking with Learnable Late Interactions [73.41976017860006]
クロスエンコーダ(CE)とデュアルエンコーダ(DE)モデルは,情報検索におけるクエリドキュメント関連性の2つの基本的なアプローチである。
関連性を予測するため、CEモデルは共同クエリドキュメントの埋め込みを使用し、DEモデルは分解クエリとドキュメントの埋め込みを維持している。
近年、DEM構造と軽量スコアラを用いて、より好ましいレイテンシ品質のトレードオフを実現するために、遅延相互作用モデルが提案されている。
論文 参考訳(メタデータ) (2024-06-25T22:50:48Z) - Breaking the Token Barrier: Chunking and Convolution for Efficient Long
Text Classification with BERT [0.0]
変換器ベースのモデル、特にBERTは様々なNLPタスクの研究を推進している。
BERTモデルは512トークンの最大トークン制限に制限されているため、長い入力で実際に適用するのは簡単ではない。
本稿では,任意の事前学習したモデルを任意に長文で推論できるような,比較的単純なBanilla BERTアーキテクチャであるChunkBERTを提案する。
論文 参考訳(メタデータ) (2023-10-31T15:41:08Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - BiBERT: Accurate Fully Binarized BERT [69.35727280997617]
BiBERTは、パフォーマンスボトルネックを取り除くために、正確に2項化されたBERTである。
提案手法は,FLOPとモデルサイズで56.3回,31.2回節約できる。
論文 参考訳(メタデータ) (2022-03-12T09:46:13Z) - Roof-BERT: Divide Understanding Labour and Join in Work [7.523253052992842]
Roof-BERTは、2つの基盤となるBERTと融合層を持つモデルである。
基盤となるBERTの1つは知識資源をエンコードし、もう1つは元の入力文をエンコードする。
QAタスクの実験結果から,提案手法の有効性が明らかになった。
論文 参考訳(メタデータ) (2021-12-13T15:40:54Z) - Deploying a BERT-based Query-Title Relevance Classifier in a Production
System: a View from the Trenches [3.1219977244201056]
変換器(BERT)モデルによる双方向表現は,多くの自然言語処理(NLP)タスクの性能を大幅に向上させてきた。
BERTを低レイテンシ、高スループットの産業用ユースケースにスケールすることは、その巨大なサイズのために困難である。
BERT Bidirectional Long Short-Term Memory (BertBiLSTM) という名前のコンパクトモデルによるデプロイメントのためのQTR分類器の最適化に成功した。
BertBiLSTMは、上記の実世界の生産作業における精度と効率の観点から、既成のBERTモデルの性能を上回る
論文 参考訳(メタデータ) (2021-08-23T14:28:23Z) - BinaryBERT: Pushing the Limit of BERT Quantization [74.65543496761553]
本稿では、BERT量子化を重み二項化の限界まで押し上げるBinaryBERTを提案する。
複雑で不規則な損失環境のため,バイナリBERTは3次学習よりも直接訓練が難しいことが判明した。
実験結果から、BinaryBERT は完全精度 BERT ベースと比較して無視できる性能低下を示した。
論文 参考訳(メタデータ) (2020-12-31T16:34:54Z) - DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference [69.93692147242284]
BERTのような大規模事前訓練型言語モデルは、NLPアプリケーションに大幅な改善をもたらした。
本稿では, BERT推論を高速化するために, 単純だが効果的な手法であるDeeBERTを提案する。
実験の結果、DeeBERTはモデル品質の低下を最小限に抑えながら、最大40%の推論時間を節約できることがわかった。
論文 参考訳(メタデータ) (2020-04-27T17:58:05Z) - ColBERT: Efficient and Effective Passage Search via Contextualized Late
Interaction over BERT [24.288824715337483]
ColBERTは、ディープLMを効率的な検索に適応させる新しいランキングモデルである。
我々は最近の2つの経路探索データセットを用いてColBERTを広範囲に評価した。
論文 参考訳(メタデータ) (2020-04-27T14:21:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。