論文の概要: Empirical Evaluation of Pre-trained Transformers for Human-Level NLP:
The Role of Sample Size and Dimensionality
- arxiv url: http://arxiv.org/abs/2105.03484v1
- Date: Fri, 7 May 2021 20:06:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-11 15:04:56.835752
- Title: Empirical Evaluation of Pre-trained Transformers for Human-Level NLP:
The Role of Sample Size and Dimensionality
- Title(参考訳): 人間レベルNLPのための事前学習型トランスフォーマーの実証評価:サンプルサイズと寸法の役割
- Authors: Adithya V Ganesan, Matthew Matero, Aravind Reddy Ravula, Huy Vu and H.
Andrew Schwartz
- Abstract要約: RoBERTaは一貫して人間レベルのタスクで最高のパフォーマンスを達成し、PCAはより長いテキストを書くユーザーをよりよく処理する他の削減方法よりも利益をもたらします。
タスクの大部分は、埋め込み寸法の$frac112$で最高のパフォーマンスに匹敵する結果を達成します。
- 参考スコア(独自算出の注目度): 6.540382797747107
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In human-level NLP tasks, such as predicting mental health, personality, or
demographics, the number of observations is often smaller than the standard
768+ hidden state sizes of each layer within modern transformer-based language
models, limiting the ability to effectively leverage transformers. Here, we
provide a systematic study on the role of dimension reduction methods
(principal components analysis, factorization techniques, or multi-layer
auto-encoders) as well as the dimensionality of embedding vectors and sample
sizes as a function of predictive performance. We first find that fine-tuning
large models with a limited amount of data pose a significant difficulty which
can be overcome with a pre-trained dimension reduction regime. RoBERTa
consistently achieves top performance in human-level tasks, with PCA giving
benefit over other reduction methods in better handling users that write longer
texts. Finally, we observe that a majority of the tasks achieve results
comparable to the best performance with just $\frac{1}{12}$ of the embedding
dimensions.
- Abstract(参考訳): メンタルヘルス、パーソナリティ、人口統計などの人間レベルのNLPタスクでは、現代のトランスフォーマーベースの言語モデルにおいて、各レイヤの標準的な768以上の隠れ状態サイズよりも観測回数が小さくなり、トランスフォーマーを効果的に活用する能力が制限される。
本稿では,次元削減手法(主成分分析,分解技術,多層自動エンコーダ)の役割と,予測性能の関数としての埋め込みベクトルと標本サイズの次元性について,系統的研究を行った。
まず,データ量に制限のある微調整型大規模モデルでは,事前学習した次元削減体制で克服できるような大きな困難が生じる。
RoBERTaは、人間レベルのタスクにおいて一貫して最高のパフォーマンスを達成し、PCAは、長いテキストを書くユーザーの扱いを改善するために、他の削減方法よりも有利である。
最後に、ほとんどのタスクが、埋め込み次元の$\frac{1}{12}$で最高のパフォーマンスに匹敵する結果が得られることを観察する。
関連論文リスト
- Transformers are Minimax Optimal Nonparametric In-Context Learners [36.291980654891496]
大規模言語モデルのコンテキスト内学習は、いくつかの実証的な例から新しいタスクを学ぶのに驚くほど効果的な方法であることが証明されている。
我々は,ディープニューラルネットワークと1つの線形アテンション層からなる変圧器の近似および一般化誤差境界を開発する。
十分に訓練されたトランスフォーマーは、文脈における最小推定リスクを達成し、改善できることを示す。
論文 参考訳(メタデータ) (2024-08-22T08:02:10Z) - Evaluating Unsupervised Dimensionality Reduction Methods for Pretrained Sentence Embeddings [28.35953315232521]
プレトレーニング言語モデル(PLM)による文の埋め込みは、NLPコミュニティから広く注目を集めている。
PLMによって生成された文の埋め込みの高次元性は、メモリや計算制約のあるデバイスで大量の文を表現する場合に問題となる。
本研究では, PLM による文埋め込みの次元化を図るために, 教師なしの次元化手法の評価を行った。
論文 参考訳(メタデータ) (2024-03-20T21:58:32Z) - On the Dimensionality of Sentence Embeddings [56.86742006079451]
文埋め込みの最適次元は通常、デフォルト値よりも小さいことを示す。
文表現学習モデルの2段階学習法を提案し、エンコーダとプーラを個別に最適化することにより、全体的な性能損失を軽減する。
論文 参考訳(メタデータ) (2023-10-23T18:51:00Z) - Quantized Transformer Language Model Implementations on Edge Devices [1.2979415757860164]
Bidirectional Representations from Transformers (BERT) のような大規模なトランスフォーマーベースモデルは自然言語処理(NLP)アプリケーションに広く利用されている。
これらのモデルは最初、数百万のパラメータを持つ大きなコーパスで事前訓練され、下流のNLPタスクのために微調整される。
これらの大規模モデルの大きな制限の1つは、大きなモデルサイズと推論遅延の増加のため、リソース制限されたデバイスにデプロイできないことである。
論文 参考訳(メタデータ) (2023-10-06T01:59:19Z) - Enhancing Representation Learning on High-Dimensional, Small-Size
Tabular Data: A Divide and Conquer Method with Ensembled VAEs [7.923088041693465]
特徴空間の部分集合の後方部分集合を学習するための軽量なVAEのアンサンブルを, 新規な分割コンカレントアプローチで結合後部分集合に集約する。
このアプローチは推論時に部分的な機能に対して堅牢であることを示し、ほとんどの機能が欠落していても、パフォーマンスの劣化がほとんどないことを示します。
論文 参考訳(メタデータ) (2023-06-27T17:55:31Z) - PLATON: Pruning Large Transformer Models with Upper Confidence Bound of
Weight Importance [114.1541203743303]
本稿では,重要度推定の上位信頼度境界(UCB)による重要度スコアの不確かさを捉えるPLATONを提案する。
我々は、自然言語理解、質問応答、画像分類に関するトランスフォーマーモデルを用いて、広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2022-06-25T05:38:39Z) - Exploring Dimensionality Reduction Techniques in Multilingual
Transformers [64.78260098263489]
本稿では,多言語シームス変圧器の性能に及ぼす次元還元法の影響を包括的に考察する。
これは、それぞれ91.58% pm 2.59%$と54.65% pm 32.20%$の次元を平均で減少させることが可能であることを示している。
論文 参考訳(メタデータ) (2022-04-18T17:20:55Z) - SUPERB-SG: Enhanced Speech processing Universal PERformance Benchmark
for Semantic and Generative Capabilities [76.97949110580703]
各種音声タスクの事前学習モデルを評価するための新しいベンチマークであるSUPERB-SGを紹介する。
データドメインのシフトの下で、事前訓練されたモデルによって学習された表現の堅牢性をテストするために、軽量な方法論を使用します。
また,SUPERB-SGのタスク多様性とタスク監督の限定が,モデル表現の一般化性を評価する効果的な方法であることを示す。
論文 参考訳(メタデータ) (2022-03-14T04:26:40Z) - Evaluating natural language processing models with generalization
metrics that do not need access to any training or testing data [66.11139091362078]
本稿では,Hugingface から事前学習した大規模トランスフォーマーに対して,一般化指標を用いた最初のモデル選択結果を提案する。
ニッチな状況にもかかわらず、ヘビーテール(HT)の観点から派生したメトリクスは、特にNLPタスクにおいて有用である。
論文 参考訳(メタデータ) (2022-02-06T20:07:35Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。