論文の概要: mcBERT: Momentum Contrastive Learning with BERT for Zero-Shot Slot
Filling
- arxiv url: http://arxiv.org/abs/2203.12940v1
- Date: Thu, 24 Mar 2022 09:04:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-25 12:44:00.463243
- Title: mcBERT: Momentum Contrastive Learning with BERT for Zero-Shot Slot
Filling
- Title(参考訳): mcBERT:ゼロショットスロット充足のためのBERTを用いたモーメントコントラスト学習
- Authors: Seong-Hwan Heo, WonKee Lee, Jong-Hyeok Lee
- Abstract要約: BERTを用いたモーメントコントラスト学習のためのmcBERTを提案し,ロバストなゼロショットスロット充足モデルを提案する。
SNIPSベンチマークによる実験結果から,mcBERTは従来モデルよりもかなり優れていたことがわかった。
- 参考スコア(独自算出の注目度): 3.2442879131520117
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot slot filling has received considerable attention to cope with the
problem of limited available data for the target domain. One of the important
factors in zero-shot learning is to make the model learn generalized and
reliable representations. For this purpose, we present mcBERT, which stands for
momentum contrastive learning with BERT, to develop a robust zero-shot slot
filling model. mcBERT uses BERT to initialize the two encoders, the query
encoder and key encoder, and is trained by applying momentum contrastive
learning. Our experimental results on the SNIPS benchmark show that mcBERT
substantially outperforms the previous models, recording a new
state-of-the-art. Besides, we also show that each component composing mcBERT
contributes to the performance improvement.
- Abstract(参考訳): ゼロショットスロットフィリングは、ターゲットドメインの利用可能な限られたデータの問題に対処するためにかなりの注目を集めている。
ゼロショット学習における重要な要因の1つは、モデルを一般化し、信頼できる表現を学習させることである。
この目的のために, BERT を用いたモーメントコントラスト学習のための mcBERT を提案し, 頑健なゼロショットスロット充足モデルを提案する。
mcBERTはBERTを使用してクエリエンコーダとキーエンコーダの2つのエンコーダを初期化し、運動量コントラスト学習を適用して訓練する。
SNIPSベンチマークによる実験結果から,mcBERTは従来モデルよりも大幅に優れ,新たな最先端技術を記録した。
また,mcBERTを構成する各コンポーネントが性能改善に寄与することを示す。
関連論文リスト
- MC-MoE: Mixture Compressor for Mixture-of-Experts LLMs Gains More [71.0473038084673]
我々は、Mixture-of-Experts大言語モデル(MoE-LLM)のためのトレーニング不要なMixture-CompressorであるMC-MoEを提案する。
MC-MoEは、専門家とトークンの両方の重要性を活用して極端な圧縮を実現する。
例えば、MC-MoEは2.54ビットで76.6%の圧縮を行い、平均精度損失は3.8%に過ぎなかった。
論文 参考訳(メタデータ) (2024-10-08T18:09:38Z) - MosaicBERT: A Bidirectional Encoder Optimized for Fast Pretraining [10.421048804389343]
本稿では,BERTスタイルのエンコーダアーキテクチャであるMosaicBERTを紹介する。
C4データセットのスクラッチから事前トレーニングされた場合、このベースモデルは、約20ドルで8 A100 80 GB GPU上で1.13時間の平均GLUEスコア79.6を達成する。
この事前トレーニングでの実証的なスピードアップにより、研究者やエンジニアは既存のジェネリックモデルの微調整ではなく、BERTスタイルのカスタムモデルを低コストで事前トレーニングすることができる。
論文 参考訳(メタデータ) (2023-12-29T06:05:19Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - NarrowBERT: Accelerating Masked Language Model Pretraining and Inference [50.59811343945605]
そこで我々はNarrowBERTを提案する。NarrowBERTは改良されたトランスフォーマーエンコーダで、マスク付き言語モデルのプリトレーニングのスループットを2ドル以上の値で向上させる。
NarrowBERTは、自己アテンションクエリとフィードフォワード層が事前トレーニング中に各文のマスク付きトークンでのみ動作するように、トランスフォーマーモデルをスペーサー化する。
NarrowBERTは、MNLIのような文符号化タスクにおいて、最小(またはノー)のパフォーマンス劣化を伴って、$3.5times$で推論時にスループットを向上することを示す。
論文 参考訳(メタデータ) (2023-01-11T23:45:50Z) - Knowledge Removal in Sampling-based Bayesian Inference [86.14397783398711]
単一のデータ削除要求が来ると、企業は大量のリソースで学んだモデル全体を削除する必要があるかもしれない。
既存の研究は、明示的にパラメータ化されたモデルのためにデータから学んだ知識を取り除く方法を提案する。
本稿では,MCMCのための機械学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-24T10:03:01Z) - A Study on Token Pruning for ColBERT [0.7646713951724011]
ColBERTモデルは最近、有効なBERTベースのランク付けとして提案されている。
モデルの大きな欠点はインデックスサイズであり、コレクション内のトークンの数と線形にスケールする。
本稿では,この問題に対処するために,ColBERTモデルの様々な設計について検討する。
論文 参考訳(メタデータ) (2021-12-13T10:24:54Z) - RefBERT: Compressing BERT by Referencing to Pre-computed Representations [19.807272592342148]
RefBERTはバニラのTinyBERTを8.1%以上上回り、GLUEベンチマークでBERTBASE$の94%以上のパフォーマンスを達成した。
RefBERTは、BERT$_rm BASE$よりも7.4倍小さく、推論では9.5倍高速である。
論文 参考訳(メタデータ) (2021-06-11T01:22:08Z) - MATE-KD: Masked Adversarial TExt, a Companion to Knowledge Distillation [9.91548921801095]
本稿では,知識蒸留の性能を向上させる新しいテキストベース対逆学習アルゴリズムであるMATE-KDを提案する。
我々は,BERTモデルを用いたアルゴリズムをGLUEベンチマークで評価し,MATE-KDが競合する対角学習やデータ拡張ベースラインより優れていることを示す。
論文 参考訳(メタデータ) (2021-05-12T19:11:34Z) - Semi-supervised Left Atrium Segmentation with Mutual Consistency
Training [60.59108570938163]
3次元MR画像からの半教師付き左房分割のための新しいMultual Consistency Network(MC-Net)を提案する。
我々のMC-Netは1つのエンコーダと2つのわずかに異なるデコーダから構成されており、2つのデコーダの予測誤差は教師なしの損失として変換される。
我々は,公開左心房(la)データベース上でmc-netを評価し,ラベルなしデータを効果的に活用することで印象的な性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-04T09:34:32Z) - Distilling Dense Representations for Ranking using Tightly-Coupled
Teachers [52.85472936277762]
我々は最近提案された後期相互作用ColBERTモデルを改善するために知識蒸留を適用した。
ColBERT の表現型 MaxSim 演算子から知識を抽出し、関連度スコアを単純な点積に変換する。
提案手法はクエリ待ち時間を改善し,ColBERTの面倒なストレージ要件を大幅に削減する。
論文 参考訳(メタデータ) (2020-10-22T02:26:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。