論文の概要: New Students on Sesame Street: What Order-Aware Matrix Embeddings Can
Learn from BERT
- arxiv url: http://arxiv.org/abs/2109.08449v1
- Date: Fri, 17 Sep 2021 10:15:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-20 14:50:54.229723
- Title: New Students on Sesame Street: What Order-Aware Matrix Embeddings Can
Learn from BERT
- Title(参考訳): セサミストリートの新しい学生: BERTから学習できるオーダーアウェアマトリックスの埋め込み
- Authors: Lukas Galke, Isabelle Cuber, Christoph Meyer, Henrik Ferdinand
N\"olscher, Angelina Sonderecker, Ansgar Scherp
- Abstract要約: 大規模事前訓練型言語モデル(PreLM)は、すべてのベンチマークで自然言語処理に革命をもたらしている。
一般的なアプローチでは, 同一構造蒸留やプルーニングによりPreLMのサイズを小さくするが, より効率的なオーダーアウェアな埋込みモデルへのPreLMの蒸留について検討する。
- 参考スコア(独自算出の注目度): 3.709823149373977
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale pretrained language models (PreLMs) are revolutionizing natural
language processing across all benchmarks. However, their sheer size is
prohibitive in low-resource or large-scale applications. While common
approaches reduce the size of PreLMs via same-architecture distillation or
pruning, we explore distilling PreLMs into more efficient order-aware embedding
models. Our results on the GLUE benchmark show that embedding-centric students,
which have learned from BERT, yield scores comparable to DistilBERT on QQP and
RTE, often match or exceed the scores of ELMo, and only fall behind on
detecting linguistic acceptability.
- Abstract(参考訳): 大規模事前訓練型言語モデル(PreLM)は、すべてのベンチマークで自然言語処理に革命をもたらしている。
しかし、そのサイズは低リソースや大規模アプリケーションでは禁止されている。
一般的なアプローチでは, 同一構造蒸留やプルーニングによりPreLMのサイズを小さくするが, より効率的なオーダーアウェアな埋込みモデルへのPreLMの蒸留について検討する。
GLUEベンチマークの結果から,BERT から学んだ埋め込み中心の学生は,QQP と RTE で DistilBERT に匹敵する成績を示し,ELMO の得点と一致または超え,言語的受容性の検出に遅れがみられた。
関連論文リスト
- Word Embeddings Revisited: Do LLMs Offer Something New? [2.822851601000061]
意味のある単語の埋め込みを学ぶことは、堅牢な言語モデルをトレーニングする上で鍵となる。
最近のLarge Language Models(LLMs)の増加は、多くの新しい単語/文/文書の埋め込みモデルを提供してくれました。
論文 参考訳(メタデータ) (2024-02-16T21:47:30Z) - How to Prune Your Language Model: Recovering Accuracy on the "Sparsity
May Cry'' Benchmark [60.72725673114168]
下流データセットの微調整中における正確なBERTプルーニングの問題を再考する。
そこで我々は,SMCベンチマークの挑戦においても,プルーニングを成功させるための一般的なガイドラインを提案する。
論文 参考訳(メタデータ) (2023-12-21T03:11:30Z) - Speak Like a Native: Prompting Large Language Models in a Native Style [53.84738665918496]
In-context Learning (ICL) with large language model (LLMs) は、多くの自然言語処理タスクにおいて近代的なツールとなっている。
本稿では, LLMの推論能力を向上させるために, textbfAlignedCoT という新しい効果的手法を提案する。
数学的質問答え、常識的推論、テキスト理解に関するいくつかのベンチマークにおいて、広範囲かつ包括的な実験を行う。
論文 参考訳(メタデータ) (2023-11-22T17:24:21Z) - LLM-augmented Preference Learning from Natural Language [19.700169351688768]
大規模言語モデル(LLM)は、より大きな文脈長を扱う。
LLM は、ターゲットテキストが大きければ SotA を一貫して上回る。
ゼロショット学習よりもパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-12T17:17:27Z) - Scaling Sentence Embeddings with Large Language Models [43.19994568210206]
本研究では,文埋め込み性能の向上を目的としたテキスト内学習手法を提案する。
提案手法では,従来のプロンプトに基づく表現手法を自己回帰モデルに適用する。
モデルサイズをスケールすることで、数千億以上のパラメータへのスケーリングが意味的なテキスト類似性タスクのパフォーマンスを損なうことが分かる。
論文 参考訳(メタデータ) (2023-07-31T13:26:03Z) - Improving Language Plasticity via Pretraining with Active Forgetting [63.36484652568976]
本稿では,新しい言語に迅速に適応可能な PLM を作成する簡単な方法として,事前学習中に能動的に忘れる機構を提案する。
RoBERTaを用いた実験では、忘れるメカニズムで事前訓練されたモデルは、言語適応中により高速な収束を示す。
論文 参考訳(メタデータ) (2023-07-03T17:12:44Z) - Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。
これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。
結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文 参考訳(メタデータ) (2023-06-25T02:39:19Z) - LM-Switch: Lightweight Language Model Conditioning in Word Embedding
Space [45.645632406931945]
本稿では,ジェネレーティブ言語モデルコンディショニングのための理論的基礎と軽量でシンプルな手法であるLM-Switchを紹介する。
LM-Switchは多種多様なタスクをモデル化でき、最先端のベースラインと比較して同等あるいは優れたパフォーマンスが得られることを示す。
論文 参考訳(メタデータ) (2023-05-22T07:52:04Z) - Probing for Understanding of English Verb Classes and Alternations in
Large Pre-trained Language Models [4.243426191555036]
本研究では,大規模事前学習言語モデルの埋め込みにおいて,動詞の交替クラスがエンコードされる範囲について検討する。
PLMのコンテキスト埋め込みは、多くのクラスにおけるタスクに対する驚くほど高い精度を実現する。
論文 参考訳(メタデータ) (2022-09-11T08:04:40Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。