論文の概要: Compressing Sentence Representation for Semantic Retrieval via
Homomorphic Projective Distillation
- arxiv url: http://arxiv.org/abs/2203.07687v1
- Date: Tue, 15 Mar 2022 07:05:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-17 05:38:39.223309
- Title: Compressing Sentence Representation for Semantic Retrieval via
Homomorphic Projective Distillation
- Title(参考訳): 同型射影蒸留による意味検索のための圧縮文表現
- Authors: Xuandong Zhao, Zhiguo Yu, Ming Wu, Lei Li
- Abstract要約: 圧縮文の埋め込みを学習するために,同相射影蒸留法(HPD)を提案する。
提案手法は,小さなトランスフォーマーエンコーダモデルを学習可能なプロジェクション層で拡張し,コンパクトな表現を生成する。
- 参考スコア(独自算出の注目度): 28.432799973328127
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How to learn highly compact yet effective sentence representation?
Pre-trained language models have been effective in many NLP tasks. However,
these models are often huge and produce large sentence embeddings. Moreover,
there is a big performance gap between large and small models. In this paper,
we propose Homomorphic Projective Distillation (HPD) to learn compressed
sentence embeddings. Our method augments a small Transformer encoder model with
learnable projection layers to produce compact representations while mimicking
a large pre-trained language model to retain the sentence representation
quality. We evaluate our method with different model sizes on both semantic
textual similarity (STS) and semantic retrieval (SR) tasks. Experiments show
that our method achieves 2.7-4.5 points performance gain on STS tasks compared
with previous best representations of the same size. In SR tasks, our method
improves retrieval speed (8.2$\times$) and memory usage (8.0$\times$) compared
with state-of-the-art large models.
- Abstract(参考訳): 高度にコンパクトで効果的な文表現を学ぶには?
事前訓練された言語モデルは、多くのNLPタスクに有効である。
しかし、これらのモデルはしばしば巨大であり、大きな文埋め込みを生み出す。
さらに、大きなモデルと小さなモデルの間には大きなパフォーマンスギャップがあります。
本稿では,圧縮文の埋め込みを学習するための同相射影蒸留(HPD)を提案する。
提案手法は,学習可能なプロジェクション層を持つ小さなトランスフォーマーエンコーダモデルを拡張して,文表現の質を維持するために学習済み言語モデルを模倣しながら,コンパクトな表現を生成する。
本手法は,semantic textual similarity (sts) と semantic retrieval (sr) の両タスクにおいて異なるモデルサイズで評価する。
実験により,本手法がSTSタスクの2.7-4.5ポイントの性能向上を達成することを示す。
SRタスクでは,検索速度 (8.2$\times$) とメモリ使用量 (8.0$\times$) を最先端の大規模モデルと比較して改善する。
関連論文リスト
- Large Concept Models: Language Modeling in a Sentence Representation Space [62.73366944266477]
本稿では,概念を命名した明示的な高レベルな意味表現に基づくアーキテクチャの試みを行う。
概念は言語とモダリティに依存しないものであり、フローにおけるより高いレベルの考えや行動を表している。
本モデルでは,多くの言語に対して,ゼロショットの一般化性能が顕著であることを示す。
論文 参考訳(メタデータ) (2024-12-11T23:36:20Z) - Learning High-Quality and General-Purpose Phrase Representations [9.246374019271938]
フレーズ表現は、データサイエンスと自然言語処理において重要な役割を果たす。
現在の最先端手法では、フレーズ埋め込みのための訓練済み言語モデルを微調整する。
文脈自由な方法で句表現を学習するための改良されたフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-18T22:32:31Z) - Compressing Sentence Representation with maximum Coding Rate Reduction [0.0]
ほとんどの自然言語推論問題では、文表現は意味検索タスクに必要である。
スペースとハードウェアの制限のため、より小さなモデルを使用する場合には、同等の結果を得る必要がある。
複雑性と文埋め込みサイズを低減した新しい言語モデルは,セマンティック検索ベンチマークにおいて同等の結果が得られることを実証した。
論文 参考訳(メタデータ) (2023-04-25T09:23:43Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - EPIC TTS Models: Empirical Pruning Investigations Characterizing
Text-To-Speech Models [26.462819114575172]
この研究は、音声合成における空間的パラダイムを比較する。
音声合成における空間的パラダイムを比較する最初の作品である。
論文 参考訳(メタデータ) (2022-09-22T09:47:25Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - Efficient Large Scale Language Modeling with Mixtures of Experts [61.45159383372181]
エキスパート層(MoE)の混合により、条件付き計算による言語モデルの効率的なスケーリングが可能になる。
本稿では, 自己回帰型 MoE 言語モデルが, 広範囲な環境下での高密度モデルと比較して, どのようにスケールするかを示す実験的検討を行った。
論文 参考訳(メタデータ) (2021-12-20T17:05:11Z) - Multiple Word Embeddings for Increased Diversity of Representation [15.279850826041066]
本稿では,実行時間の増加を無視できるような,強いベースライン上での性能を実質的に一貫的に向上させる手法を示す。
我々は、事前学習した埋め込み類似性と語彙被覆の側面を分析し、表現多様性がなぜこの技術が機能するかの原動力であることを見出した。
論文 参考訳(メタデータ) (2020-09-30T02:33:09Z) - TERA: Self-Supervised Learning of Transformer Encoder Representation for
Speech [63.03318307254081]
TERA は Transformer Representations from Alteration の略である。
我々は3つの軸に沿った変形を用いて、大量のラベルなし音声でトランスフォーマーを事前訓練する。
TERAは、音声表現の抽出や下流モデルによる微調整に使用することができる。
論文 参考訳(メタデータ) (2020-07-12T16:19:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。