論文の概要: Contrastive Learning in Distilled Models
- arxiv url: http://arxiv.org/abs/2401.12472v1
- Date: Tue, 23 Jan 2024 03:47:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-24 16:54:01.847910
- Title: Contrastive Learning in Distilled Models
- Title(参考訳): 蒸留モデルにおけるコントラスト学習
- Authors: Valerie Lim, Kai Wen Ng, Kenneth Lim
- Abstract要約: 我々は,知識蒸留に基づくモデルである DistilBERT に適応したモデルアーキテクチャに対して,SimCSE 論文に基づく適切なコントラスト学習手法を提案する。
最後の軽量モデルであるDistilFaceは、STSタスクにおけるSpearmanの相関で平均72.1に達し、BERTベースよりも34.2%改善した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural Language Processing models like BERT can provide state-of-the-art
word embeddings for downstream NLP tasks. However, these models yet to perform
well on Semantic Textual Similarity, and may be too large to be deployed as
lightweight edge applications. We seek to apply a suitable contrastive learning
method based on the SimCSE paper, to a model architecture adapted from a
knowledge distillation based model, DistilBERT, to address these two issues.
Our final lightweight model DistilFace achieves an average of 72.1 in
Spearman's correlation on STS tasks, a 34.2 percent improvement over BERT base.
- Abstract(参考訳): BERTのような自然言語処理モデルは、下流のNLPタスクに最先端のワード埋め込みを提供することができる。
しかし、これらのモデルはSemantic Textual similarityではまだうまく機能せず、軽量エッジアプリケーションとしてデプロイするには大きすぎる可能性がある。
我々は,この2つの問題に対処するために,知識蒸留モデルであるDistilBERTを応用したモデルアーキテクチャに対して,SimCSE論文に基づく適切なコントラスト学習手法を提案する。
最後の軽量モデルであるDistilFaceは、STSタスクにおけるSpearmanの相関で平均72.1に達し、BERTベースよりも34.2%改善した。
関連論文リスト
- Compact Language Models via Pruning and Knowledge Distillation [61.56557874432008]
ミニトロンモデルでは、スクラッチからのトレーニングに比べてMMLUスコアが最大16%改善している。
すでにトレーニング済みの15Bモデルから8Bと4Bモデルを抽出するには、スクラッチからトレーニングするよりも、モデル毎のトレーニングトークンを最大40倍少なくする必要があります。
論文 参考訳(メタデータ) (2024-07-19T21:47:57Z) - NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models [38.41524186248607]
NV-Embedモデルに様々なアーキテクチャ設計とトレーニング手順を導入する。
我々のモデルは、MTEB(Massive Text Embedding Benchmark)で1位、69.32の最高スコアを記録した。
私たちはこのモデルを、https://face.co/EIR/NV-Embed-v1.comでオープンソース化しました。
論文 参考訳(メタデータ) (2024-05-27T17:59:45Z) - oBERTa: Improving Sparse Transfer Learning via improved initialization,
distillation, and pruning regimes [82.99830498937729]
oBERTaは自然言語処理のための使いやすい言語モデルのセットです。
NLPの実践者はモデル圧縮の専門知識なしで3.8倍から24.3倍の高速モデルを得ることができる。
代表的な7つのNLPタスクにおけるoBERTaの利用について検討する。
論文 参考訳(メタデータ) (2023-03-30T01:37:19Z) - Pretraining Without Attention [114.99187017618408]
本研究では、状態空間モデル(SSM)に基づくシーケンスルーティングの最近の進歩を利用して、注意を払わずに事前学習を探索する。
BiGS は GLUE 上で BERT の事前トレーニング精度と一致し、近似なしで 4096 トークンの長期事前トレーニングに拡張できる。
論文 参考訳(メタデータ) (2022-12-20T18:50:08Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with
Gradient-Disentangled Embedding Sharing [117.41016786835452]
本稿では,DeBERTaモデルの改良を目的とした,事前学習型言語モデルDeBERTaV3を提案する。
ELECTRAでのバニラ埋め込み共有は、トレーニング効率とモデルパフォーマンスを損なう。
そこで本研究では、タグ・オブ・ウォーのダイナミクスを回避するために、新しい勾配距離の埋め込み方式を提案する。
論文 参考訳(メタデータ) (2021-11-18T06:48:00Z) - BERT, mBERT, or BiBERT? A Study on Contextualized Embeddings for Neural
Machine Translation [38.017030073108735]
本稿では,バイリンガル事前学習型言語モデル(BiBERT)が最先端の翻訳性能を実現することを示す。
我々の最良のモデルは、IWSLT'14データセットでは30.45点、IWSLT'14データセットでは38.61点、WMT'14データセットでは31.26点、WMT'14データセットでは34.94点である。
論文 参考訳(メタデータ) (2021-09-09T23:43:41Z) - Collective Wisdom: Improving Low-resource Neural Machine Translation
using Adaptive Knowledge Distillation [42.38435539241788]
並列文ペアの空白は、バイリンガルで低リソースのシナリオで高品質なニューラルネットワーク翻訳(NMT)モデルをトレーニングする上で、大きなハードルとなる。
そこで本研究では, 蒸留過程における教師モデルの貢献度を動的に調整する適応的知識蒸留手法を提案する。
IWSLTからTED Talksから低リソースの5つの言語ペアへ6つの言語ペアのコレクションを転送する実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2020-10-12T04:26:46Z) - syrapropa at SemEval-2020 Task 11: BERT-based Models Design For
Propagandistic Technique and Span Detection [2.0051855303186046]
まず,SpanBERTに基づくSpan Identification(SI)モデルを構築し,より深いモデルと文レベルの表現による検出を容易にする。
次に、テクニック分類(TC)のためのハイブリッドモデルを開発する。
ハイブリッドモデルは、2つのBERTモデルと異なるトレーニング方法、特徴ベースのロジスティック回帰モデルを含む3つのサブモデルで構成されている。
論文 参考訳(メタデータ) (2020-08-24T02:15:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。