論文の概要: Compressing Sentence Representation for Semantic Retrieval via
Homomorphic Projective Distillation
- arxiv url: http://arxiv.org/abs/2203.07687v1
- Date: Tue, 15 Mar 2022 07:05:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-17 05:38:39.223309
- Title: Compressing Sentence Representation for Semantic Retrieval via
Homomorphic Projective Distillation
- Title(参考訳): 同型射影蒸留による意味検索のための圧縮文表現
- Authors: Xuandong Zhao, Zhiguo Yu, Ming Wu, Lei Li
- Abstract要約: 圧縮文の埋め込みを学習するために,同相射影蒸留法(HPD)を提案する。
提案手法は,小さなトランスフォーマーエンコーダモデルを学習可能なプロジェクション層で拡張し,コンパクトな表現を生成する。
- 参考スコア(独自算出の注目度): 28.432799973328127
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How to learn highly compact yet effective sentence representation?
Pre-trained language models have been effective in many NLP tasks. However,
these models are often huge and produce large sentence embeddings. Moreover,
there is a big performance gap between large and small models. In this paper,
we propose Homomorphic Projective Distillation (HPD) to learn compressed
sentence embeddings. Our method augments a small Transformer encoder model with
learnable projection layers to produce compact representations while mimicking
a large pre-trained language model to retain the sentence representation
quality. We evaluate our method with different model sizes on both semantic
textual similarity (STS) and semantic retrieval (SR) tasks. Experiments show
that our method achieves 2.7-4.5 points performance gain on STS tasks compared
with previous best representations of the same size. In SR tasks, our method
improves retrieval speed (8.2$\times$) and memory usage (8.0$\times$) compared
with state-of-the-art large models.
- Abstract(参考訳): 高度にコンパクトで効果的な文表現を学ぶには?
事前訓練された言語モデルは、多くのNLPタスクに有効である。
しかし、これらのモデルはしばしば巨大であり、大きな文埋め込みを生み出す。
さらに、大きなモデルと小さなモデルの間には大きなパフォーマンスギャップがあります。
本稿では,圧縮文の埋め込みを学習するための同相射影蒸留(HPD)を提案する。
提案手法は,学習可能なプロジェクション層を持つ小さなトランスフォーマーエンコーダモデルを拡張して,文表現の質を維持するために学習済み言語モデルを模倣しながら,コンパクトな表現を生成する。
本手法は,semantic textual similarity (sts) と semantic retrieval (sr) の両タスクにおいて異なるモデルサイズで評価する。
実験により,本手法がSTSタスクの2.7-4.5ポイントの性能向上を達成することを示す。
SRタスクでは,検索速度 (8.2$\times$) とメモリ使用量 (8.0$\times$) を最先端の大規模モデルと比較して改善する。
関連論文リスト
- SimpleSpeech 2: Towards Simple and Efficient Text-to-Speech with Flow-based Scalar Latent Transformer Diffusion Models [64.40250409933752]
我々は、SimpleSpeech 2.0と呼ばれるシンプルで効率的な非自己回帰(NAR)TSフレームワークを実装することで、過去の出版物の上に構築した。
SimpleSpeech 2は、自己回帰(AR)法と非自己回帰(NAR)法の両方の長所を効果的に組み合わせている。
我々は,従来の作業と他の大規模TSモデル(SOTA)と比較して,生成性能と生成速度が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-08-25T17:07:39Z) - Pruning Large Language Models with Semi-Structural Adaptive Sparse Training [17.381160429641316]
適応スパーストレーナー(AST)と呼ばれるリトレーニングによる半構造化スパースモデルのプルーニングパイプラインを提案する。
ASTは、モデルがトレーニングプロセスを通して適応的にマスクを選択することを可能にし、マスキング重みに減衰を施すことにより、密度の高いモデルをスパースモデルに変換する。
本研究は,半構造化されたスパース言語モデルの実現可能性を示し,高度に圧縮されたモデルを実現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-30T06:33:44Z) - ESE: Espresso Sentence Embeddings [11.682642816354418]
高品質な文埋め込みは多くの自然言語処理(NLP)タスクにおいて基本となる。
本稿では,2つの学習プロセスを持つ新しい文埋め込みモデル$mathrmEspresso$$mathrmSentence$$mathrmEmbeddings$ (ESE)を提案する。
論文 参考訳(メタデータ) (2024-02-22T18:35:05Z) - Learning High-Quality and General-Purpose Phrase Representations [9.246374019271938]
フレーズ表現は、データサイエンスと自然言語処理において重要な役割を果たす。
現在の最先端手法では、フレーズ埋め込みのための訓練済み言語モデルを微調整する。
文脈自由な方法で句表現を学習するための改良されたフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-18T22:32:31Z) - Compressing Sentence Representation with maximum Coding Rate Reduction [0.0]
ほとんどの自然言語推論問題では、文表現は意味検索タスクに必要である。
スペースとハードウェアの制限のため、より小さなモデルを使用する場合には、同等の結果を得る必要がある。
複雑性と文埋め込みサイズを低減した新しい言語モデルは,セマンティック検索ベンチマークにおいて同等の結果が得られることを実証した。
論文 参考訳(メタデータ) (2023-04-25T09:23:43Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - EPIC TTS Models: Empirical Pruning Investigations Characterizing
Text-To-Speech Models [26.462819114575172]
この研究は、音声合成における空間的パラダイムを比較する。
音声合成における空間的パラダイムを比較する最初の作品である。
論文 参考訳(メタデータ) (2022-09-22T09:47:25Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - Efficient Large Scale Language Modeling with Mixtures of Experts [61.45159383372181]
エキスパート層(MoE)の混合により、条件付き計算による言語モデルの効率的なスケーリングが可能になる。
本稿では, 自己回帰型 MoE 言語モデルが, 広範囲な環境下での高密度モデルと比較して, どのようにスケールするかを示す実験的検討を行った。
論文 参考訳(メタデータ) (2021-12-20T17:05:11Z) - TERA: Self-Supervised Learning of Transformer Encoder Representation for
Speech [63.03318307254081]
TERA は Transformer Representations from Alteration の略である。
我々は3つの軸に沿った変形を用いて、大量のラベルなし音声でトランスフォーマーを事前訓練する。
TERAは、音声表現の抽出や下流モデルによる微調整に使用することができる。
論文 参考訳(メタデータ) (2020-07-12T16:19:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。