論文の概要: On Initializing Transformers with Pre-trained Embeddings
- arxiv url: http://arxiv.org/abs/2407.12514v1
- Date: Wed, 17 Jul 2024 11:57:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 17:17:27.311973
- Title: On Initializing Transformers with Pre-trained Embeddings
- Title(参考訳): プレトレーニング埋め込みを用いた初期化変圧器について
- Authors: Ha Young Kim, Niranjan Balasubramanian, Byungkon Kang,
- Abstract要約: また,T5 や mT5 などの言語モデルから抽出したサブワード埋め込みは,ランダムに比較するとはるかに悪い値を示した。
これは、プレトレーニングのよく知られた表現的および伝達学習の利点を考えると、直感に反する。
また、BERT と mBERT の埋め込みは、ランダムよりも優れていることもわかりました。
事前訓練された表現の利点を示す意味。
- 参考スコア(独自算出の注目度): 18.342555091697967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It has become common practice now to use random initialization schemes, rather than the pre-trained embeddings, when training transformer based models from scratch. Indeed, we find that pre-trained word embeddings from GloVe, and some sub-word embeddings extracted from language models such as T5 and mT5 fare much worse compared to random initialization. This is counter-intuitive given the well-known representational and transfer-learning advantages of pre-training. Interestingly, we also find that BERT and mBERT embeddings fare better than random initialization, showing the advantages of pre-trained representations. In this work, we posit two potential factors that contribute to these mixed results: the model sensitivity to parameter distribution and the embedding interactions with position encodings. We observe that pre-trained GloVe, T5, and mT5 embeddings have a wider distribution of values. As argued in the initialization studies, such large value initializations can lead to poor training because of saturated outputs. Further, the larger embedding values can, in effect, absorb the smaller position encoding values when added together, thus losing position information. Standardizing the pre-trained embeddings to a narrow range (e.g. as prescribed by Xavier) leads to substantial gains for Glove, T5, and mT5 embeddings. On the other hand, BERT pre-trained embeddings, while larger, are still relatively closer to Xavier initialization range which may allow it to effectively transfer the pre-trained knowledge.
- Abstract(参考訳): トランスフォーマーベースのモデルをスクラッチからトレーニングする場合、事前訓練された埋め込みよりもランダム初期化スキームを使うのが一般的になっている。
実際、GloVeから事前学習した単語埋め込みや、T5やmT5などの言語モデルから抽出したサブワード埋め込みは、ランダム初期化よりもはるかに悪い。
これは、プレトレーニングのよく知られた表現的および伝達学習の利点を考えると、直感に反する。
興味深いことに、BERTとmBERTの埋め込みはランダムな初期化よりも優れており、事前訓練された表現の利点を示している。
本研究では、パラメータ分布に対するモデル感度と位置符号化との埋め込み相互作用という、これらの混合結果に寄与する2つのポテンシャル因子を仮定する。
事前学習したGloVe,T5,mT5の埋め込みはより広い値分布を持つ。
初期化研究で論じられているように、そのような大きな値の初期化は飽和出力のために訓練が不十分になる可能性がある。
さらに、より大きな埋め込み値が付加されると、より小さな位置符号化値を吸収し、位置情報が失われる。
訓練済みの埋め込みを(例えばザビエルが定めるような)狭い範囲に標準化することは、Glove、T5、mT5の埋め込みにかなりの利益をもたらす。
一方、BERTの事前学習された埋め込みは大きいが、Xavierの初期化範囲にはまだ比較的近いため、事前学習された知識を効果的に伝達することができる。
関連論文リスト
- Learning and Transferring Sparse Contextual Bigrams with Linear Transformers [47.37256334633102]
スパース・コン・ビグラム(Sparse Con Bigram)モデルを導入し、次のトークンの生成は、最後のトークンによって決定される以前の位置のスパースセットに依存する。
勾配アルゴリズムを用いた一層線形変圧器を用いて,SCB学習のトレーニングダイナミクスとサンプル複雑性を解析した。
下流と事前学習タスクの間に非自明な相関関係があることを証明し、事前訓練されたモデルから微調整することで、初期サンプル集約段階を回避できることを証明した。
論文 参考訳(メタデータ) (2024-10-30T20:29:10Z) - NUDGE: Lightweight Non-Parametric Fine-Tuning of Embeddings for Retrieval [0.7646713951724011]
既存のアプローチは、事前訓練されたモデル自体を微調整するか、より効率的に、事前訓練されたモデルの出力を変換するためにアダプタモデルを訓練する。
NUDGEは、新しい非パラメトリック埋め込みファインチューニングアプローチのファミリーである。
NUDGEは、$k$-NN検索の精度を最大化するために、データレコードの埋め込みを直接修正する。
論文 参考訳(メタデータ) (2024-09-04T00:10:36Z) - Transfer Learning with Informative Priors: Simple Baselines Better than Previously Reported [4.453137996095194]
転送学習と5つのデータセットにまたがるソースタスクの事前情報とを比較検討する。
クラス毎の5-300例のシナリオでは、2つのデータセットに対して負あるいは無視的なゲイン、他の2つのデータセットでは控えめなゲイン、ひとつのデータセットでは実質的なゲインが見られます。
論文 参考訳(メタデータ) (2024-05-24T14:12:23Z) - Initialization Matters for Adversarial Transfer Learning [61.89451332757625]
我々は、逆向きに頑健な事前訓練モデルの必要性を発見する。
本稿では, 対向線形探索により得られる重み付き線形ヘッドを初期化する対向微調整のためのロバスト線形初期化法(RoLI)を提案する。
5つの異なる画像分類データセットにおいて,RoLIの有効性を実証し,新しい最先端結果を得た。
論文 参考訳(メタデータ) (2023-12-10T00:51:05Z) - Investigating Pre-trained Language Models on Cross-Domain Datasets, a
Step Closer to General AI [0.8889304968879164]
本研究では、事前学習された言語モデルが、異なる非言語タスクに一般化する能力について検討する。
私たちが使用した4つの事前訓練モデル、T5、BART、BERT、GPT-2は優れた結果を得た。
論文 参考訳(メタデータ) (2023-06-21T11:55:17Z) - The Emergence of Essential Sparsity in Large Pre-trained Models: The
Weights that Matter [113.35761858962522]
本稿では,複数の大きな事前学習された視覚と言語変換器のスパースパターンを誘導する。
本稿では,性能がはるかに速く低下する急激な落差点で定義される本質的疎度の存在を提案する。
また、N:Mのスパーシティパターンと近代的な大規模言語モデルに有効であることを示す。
論文 参考訳(メタデータ) (2023-06-06T15:49:09Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Prior-Guided Adversarial Initialization for Fast Adversarial Training [84.56377396106447]
本稿では,FAT(Fast Adversarial Training)とSAT(Standard Adversarial Training)の違いについて検討する。
FATの攻撃成功率(AE)は、後期訓練段階で徐々に悪化し、過度に適合する。
本報告では, オーバーフィッティングを回避するために, 事前誘導FGSM初期化手法を提案する。
提案手法は, 破滅的な過度適合を防止し, 最先端のFAT法より優れる。
論文 参考訳(メタデータ) (2022-07-18T18:13:10Z) - Transformers Can Do Bayesian Inference [56.99390658880008]
我々はPFN(Presideed Data Fitted Networks)を提案する。
PFNは、大規模機械学習技術におけるインコンテキスト学習を活用して、大規模な後部集合を近似する。
我々は、PFNがガウス過程をほぼ完璧に模倣し、難解問題に対する効率的なベイズ推定を可能にすることを示した。
論文 参考訳(メタデータ) (2021-12-20T13:07:39Z) - bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。
bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文 参考訳(メタデータ) (2021-10-14T04:05:25Z) - Compositional generalization in semantic parsing with pretrained
transformers [13.198689566654108]
我々は,非英語コーパスやプログラミング言語コーパスにのみ事前訓練された言語モデルが,アウト・オブ・ディストリビューションの一般化を著しく改善することを示した。
また, より大規模なモデルではスクラッチからのトレーニングが困難であり, 収束までのトレーニングでは, 一般化精度が低いことを示す。
論文 参考訳(メタデータ) (2021-09-30T13:06:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。