論文の概要: General Purpose Text Embeddings from Pre-trained Language Models for
Scalable Inference
- arxiv url: http://arxiv.org/abs/2004.14287v1
- Date: Wed, 29 Apr 2020 16:11:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 13:52:08.885700
- Title: General Purpose Text Embeddings from Pre-trained Language Models for
Scalable Inference
- Title(参考訳): スケーラブル推論のための事前学習言語モデルからの汎用テキスト埋め込み
- Authors: Jingfei Du, Myle Ott, Haoran Li, Xing Zhou, Veselin Stoyanov
- Abstract要約: 我々は,共用テキストエンコーダを用いて,推論中の計算コストの一部を異なるタスクで償却可能であることを示す。
また、このようなエンコーダをトレーニングするためのアプローチを比較し、複数のタスクで事前訓練されたエンコーダが、見当たらないタスクによく当てはまることを示す。
- 参考スコア(独自算出の注目度): 34.47592026375839
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The state of the art on many NLP tasks is currently achieved by large
pre-trained language models, which require a considerable amount of
computation. We explore a setting where many different predictions are made on
a single piece of text. In that case, some of the computational cost during
inference can be amortized over the different tasks using a shared text
encoder. We compare approaches for training such an encoder and show that
encoders pre-trained over multiple tasks generalize well to unseen tasks. We
also compare ways of extracting fixed- and limited-size representations from
this encoder, including different ways of pooling features extracted from
multiple layers or positions. Our best approach compares favorably to knowledge
distillation, achieving higher accuracy and lower computational cost once the
system is handling around 7 tasks. Further, we show that through binary
quantization, we can reduce the size of the extracted representations by a
factor of 16 making it feasible to store them for later use. The resulting
method offers a compelling solution for using large-scale pre-trained models at
a fraction of the computational cost when multiple tasks are performed on the
same text.
- Abstract(参考訳): 多くのNLPタスクにおける技術の現状は、現在、大量の計算を必要とする大規模な事前訓練された言語モデルによって達成されている。
1つのテキストで多くの異なる予測がされるような設定について検討する。
この場合、推論中の計算コストのいくつかは、共有テキストエンコーダを使用して異なるタスクで償却することができる。
このようなエンコーダをトレーニングするためのアプローチを比較し、複数のタスクで事前学習したエンコーダが、見当たらないタスクによく当てはまることを示す。
また、複数の層や位置から抽出した特徴をプールする方法を含め、固定および制限サイズの表現をこのエンコーダから抽出する方法を比較する。
我々のベストアプローチは、知識蒸留と比較し、システムが約7つのタスクを処理すれば、高い精度と低い計算コストが得られる。
さらに,二項量子化により,抽出された表現のサイズを16倍に削減し,後で使用するための保存が容易になることを示す。
提案手法は,複数のタスクが同じテキスト上で実行される場合,計算コストのごく一部で大規模事前学習モデルを使用するための説得力のある解を提供する。
関連論文リスト
- Code Representation Learning At Scale [75.04686476303436]
2段階の事前学習スキームを用いて,大量のコードデータを用いてコード表現学習を行う。
まず、マスキング言語モデリングにおけるランダム性と、プログラミング言語の構造的側面の両方を活用して、エンコーダを訓練する。
そして、教師なしの方法で強陰性かつ強正に構築された対照的な学習を通して表現を強化する。
論文 参考訳(メタデータ) (2024-02-02T22:19:15Z) - Efficient Controllable Multi-Task Architectures [85.76598445904374]
本稿では,共有エンコーダとタスク固有デコーダからなるマルチタスクモデルを提案する。
我々のキーとなる考え方は、タスク固有のデコーダの容量を変化させ、計算コストの総和を制御し、タスクの重要度を制御することである。
これにより、与えられた予算に対してより強力なエンコーダを許可し、計算コストの制御を高め、高品質のスリム化サブアーキテクチャを提供することにより、全体的な精度を向上させる。
論文 参考訳(メタデータ) (2023-08-22T19:09:56Z) - Extracting Text Representations for Terms and Phrases in Technical
Domains [9.27244202193623]
そこで本研究では,大容量の事前学習組込み行列を再構築する目的で,小文字モデルを用いたテキスト符号化手法を提案する。
このアプローチでトレーニングされたモデルは、技術領域における文エンコーダの品質に適合するだけでなく、5倍小さく、最大10倍高速である。
論文 参考訳(メタデータ) (2023-05-25T08:59:36Z) - Learning Easily Updated General Purpose Text Representations with
Adaptable Task-Specific Prefixes [22.661527526471996]
ダウンストリームタスク毎にトレーニング済みの大きな言語モデルを微調整すると、計算負荷が発生する。
そこで本研究では,ソースタスクを用いてテキストの固定表現を学習するためのプレフィックスベースの手法を提案する。
論文 参考訳(メタデータ) (2023-05-22T21:31:03Z) - Discrete Key-Value Bottleneck [95.61236311369821]
ディープニューラルネットワークは、データストリームがi.d.d.であり、ラベル付きデータが豊富である分類タスクでうまく機能する。
この課題に対処した強力なアプローチの1つは、手軽に利用可能なデータ量に対する大規模なエンコーダの事前トレーニングと、タスク固有のチューニングである。
しかし、新しいタスクを考えると、多くの重みを微調整する必要があるため、エンコーダの重みを更新することは困難であり、その結果、以前のタスクに関する情報を忘れてしまう。
この問題に対処するモデルアーキテクチャを提案し,個別かつ学習可能なキー値符号のペアを含む離散的ボトルネックの上に構築する。
論文 参考訳(メタデータ) (2022-07-22T17:52:30Z) - Grad2Task: Improved Few-shot Text Classification Using Gradients for
Task Representation [24.488427641442694]
本稿では,数ショットのテキスト分類のための条件付きニューラルプロセスに基づく新しいアプローチを提案する。
私たちのキーとなるアイデアは、ベースモデルからの勾配情報を使って各タスクを表現することです。
我々のアプローチは、従来の微調整、シーケンシャルトランスファーラーニング、そして最先端のメタラーニングアプローチよりも優れています。
論文 参考訳(メタデータ) (2022-01-27T15:29:30Z) - Fine-grained Multi-Modal Self-Supervised Learning [4.850800439026724]
ビデオからのマルチモーダル自己監視学習は、様々な下流タスクにおけるモデルの性能を改善することが示されている。
このような事前学習には、未処理のデータに発生するノイズのために、大きなバッチサイズと大量の計算資源が必要である。
そこで本稿では, 埋め込みの類似性を高精度に計算する, マルチモーダルな自己教師型学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-22T19:17:45Z) - Efficient Retrieval Optimized Multi-task Learning [16.189136169520424]
本稿では,自己指導型タスク,知識検索,抽出質問応答を共同で訓練するための新しい検索最適化マルチタスク(ROM)フレームワークを提案する。
我々のROMアプローチは、複数のタスクに効率的にスケーリングできる統一的で一般化可能なフレームワークを提供する。
当社のフレームワークでは,近年のQAメソッドよりも同等あるいは優れたパフォーマンスを実現していますが,パラメータの数を大幅に削減しています。
論文 参考訳(メタデータ) (2021-04-20T17:16:34Z) - Few-shot Sequence Learning with Transformers [79.87875859408955]
少数のトレーニング例で提供される新しいタスクの学習を目的とした少数のショットアルゴリズム。
本研究では,データポイントがトークンのシーケンスである設定において,少数ショット学習を行う。
トランスフォーマーに基づく効率的な学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-17T12:30:38Z) - The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。
我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。
3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文 参考訳(メタデータ) (2020-04-16T04:28:08Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。