論文の概要: Are ELECTRA's Sentence Embeddings Beyond Repair? The Case of Semantic Textual Similarity
- arxiv url: http://arxiv.org/abs/2402.13130v2
- Date: Tue, 16 Jul 2024 19:38:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 22:39:10.146011
- Title: Are ELECTRA's Sentence Embeddings Beyond Repair? The Case of Semantic Textual Similarity
- Title(参考訳): ELECTRAの文は修復以上のものなのか? : 意味的テクスチャ類似性の事例
- Authors: Ivan Rep, David Dukić, Jan Šnajder,
- Abstract要約: ELECTRAの埋め込みを修復する新しいTMFT法を提案する。
TMFTはパラメータ効率を高めながら、スピアマン相関係数を8点以上改善する。
我々は分析を様々なモデルサイズと言語に拡張する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While BERT produces high-quality sentence embeddings, its pre-training computational cost is a significant drawback. In contrast, ELECTRA delivers a cost-effective pre-training objective and downstream task performance improvements, but not as performant sentence embeddings. The community tacitly stopped utilizing ELECTRA's sentence embeddings for semantic textual similarity (STS). We notice a significant drop in performance when using the ELECTRA discriminator's last layer in comparison to earlier layers. We explore this drop and devise a way to repair ELECTRA's embeddings, proposing a novel truncated model fine-tuning (TMFT) method. TMFT improves the Spearman correlation coefficient by over 8 points while increasing parameter efficiency on the STS benchmark dataset. We extend our analysis to various model sizes and languages. Further, we discover the surprising efficacy of ELECTRA's generator model, which performs on par with BERT, using significantly fewer parameters and a substantially smaller embedding size. Finally, we observe further boosts by combining TMFT with a word similarity task or domain adaptive pre-training.
- Abstract(参考訳): BERTは高品質な文埋め込みを生成するが、事前学習の計算コストは大きな欠点である。
これとは対照的に、ELECTRAはコスト効率のよい事前学習目標と下流タスクのパフォーマンスの改善を提供するが、文の埋め込みとしては機能しない。
コミュニティは、セマンティックテキスト類似性(STS)にELECTRAの文を埋め込むことを熱心に止めた。
ELECTRAディスクリミネータの最後の層を以前の層と比較すると,性能が著しく低下していることが分かる。
我々はこの落下を探索し、ELECTRAの埋め込みを修復する方法を考案し、新しいTMFT法を提案する。
TMFTは、STSベンチマークデータセットのパラメータ効率を高めながら、スピアマン相関係数を8点以上改善する。
我々は分析を様々なモデルサイズと言語に拡張する。
さらに,BERTと同等に動作するELECTRAのジェネレータモデルに対して,パラメータが大幅に小さく,埋め込みサイズも大幅に小さくなった。
最後に、TMFTと単語類似性タスク、ドメイン適応型事前学習を組み合わせることで、さらなる向上を観察する。
関連論文リスト
- BERTer: The Efficient One [0.0]
本研究では、感情分析、パラフレーズ検出、意味的テキスト類似性においてBERTの性能を高めるための高度な微調整手法について検討する。
その結果,複数の微調整アーキテクチャを組み合わせる場合のモデル効率と有効性は大幅に向上した。
論文 参考訳(メタデータ) (2024-07-19T05:33:09Z) - Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。
DyTは既存のPEFT法と比較すると、同等またはそれ以上の性能を実現している。
論文 参考訳(メタデータ) (2024-03-18T14:05:52Z) - Uncertainty-aware Parameter-Efficient Self-training for Semi-supervised
Language Understanding [38.11411155621616]
我々は,主に半教師あり学習の手法として,自己学習について研究している。
我々は,新しい不確かさを意識した自己学習フレームワークであるUPETを紹介する。
UPETは性能と効率の面で大幅に向上したことを示す。
論文 参考訳(メタデータ) (2023-10-19T02:18:29Z) - Sensi-BERT: Towards Sensitivity Driven Fine-Tuning for
Parameter-Efficient BERT [6.029590006321152]
本稿では、下流タスクのための感度駆動効率の良いBERTモデルの微調整であるSensi-BERTを提案する。
実験の結果,MNLI,QQP,QNLI,SST-2,SQuADなどの下流タスクに対するSensi-BERTの有効性が示された。
論文 参考訳(メタデータ) (2023-07-14T17:24:15Z) - Effective Pre-Training Objectives for Transformer-based Autoencoders [97.99741848756302]
トランスフォーマーエンコーダの効率,コスト,精度のトレードオフについて検討する。
共通の目的の機能を組み合わせて、新しい効果的な事前学習アプローチを作成します。
論文 参考訳(メタデータ) (2022-10-24T18:39:44Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - ASR Rescoring and Confidence Estimation with ELECTRA [45.88492579786677]
ELECTRAを用いてエラーを直接検出するASR再構成手法を提案する。
ELECTRAは、各単語がBERTに置換されるか否かを予測するために事前訓練される。
P-ELECTRAの事前学習では、各単語は音声から単語への変換モデルに置き換えられる。
論文 参考訳(メタデータ) (2021-10-05T07:45:55Z) - Efficient pre-training objectives for Transformers [84.64393460397471]
本研究はトランスフォーマーモデルにおける高効率事前学習目標について検討する。
マスクトークンの除去と損失時のアウトプット全体の考慮が,パフォーマンス向上に不可欠な選択であることを証明する。
論文 参考訳(メタデータ) (2021-04-20T00:09:37Z) - TernaryBERT: Distillation-aware Ultra-low Bit BERT [53.06741585060951]
本稿では,細調整されたBERTモデルの重みを3元化するternaryBERTを提案する。
GLUEベンチマークとSQuADの実験により,提案した TernaryBERT が他のBERT量子化法より優れていることが示された。
論文 参考訳(メタデータ) (2020-09-27T10:17:28Z) - MC-BERT: Efficient Language Pre-Training via a Meta Controller [96.68140474547602]
大規模事前学習は計算コストが高い。
事前トレーニングを加速する初期の試みであるELECTRAは、各入力トークンがジェネレータに置き換えられたかどうかを予測する識別モデルを訓練している。
本稿では,MC-BERTというメタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T09:22:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。