論文の概要: HyPe: Better Pre-trained Language Model Fine-tuning with Hidden
Representation Perturbation
- arxiv url: http://arxiv.org/abs/2212.08853v1
- Date: Sat, 17 Dec 2022 11:56:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 16:12:44.715881
- Title: HyPe: Better Pre-trained Language Model Fine-tuning with Hidden
Representation Perturbation
- Title(参考訳): HyPe: 隠れ表現摂動による訓練済み言語モデルの微調整
- Authors: Hongyi Yuan, Zheng Yuan, Chuanqi Tan, Fei Huang, Songfang Huang
- Abstract要約: トランスフォーマー層を隠蔽した表現を摂動することで問題を緩和する,シンプルで効果的な微調整手法であるHyPeを提案する。
我々はGLUEや他の自然言語推論データセットに関する広範な実験と分析を行う。
その結果,HyPeはバニラ微調整より優れ,異なる層からの隠蔽表現の一般化が促進されることがわかった。
- 参考スコア(独自算出の注目度): 50.90457644954857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models with the Transformers structure have shown great performance
in natural language processing. However, there still poses problems when
fine-tuning pre-trained language models on downstream tasks, such as
over-fitting or representation collapse. In this work, we propose HyPe, a
simple yet effective fine-tuning technique to alleviate such problems by
perturbing hidden representations of Transformers layers. Unlike previous works
that only add noise to inputs or parameters, we argue that the hidden
representations of Transformers layers convey more diverse and meaningful
language information. Therefore, making the Transformers layers more robust to
hidden representation perturbations can further benefit the fine-tuning of PLMs
en bloc. We conduct extensive experiments and analyses on GLUE and other
natural language inference datasets. Results demonstrate that HyPe outperforms
vanilla fine-tuning and enhances generalization of hidden representations from
different layers. In addition, HyPe acquires negligible computational
overheads, and is better than and compatible with previous state-of-the-art
fine-tuning techniques.
- Abstract(参考訳): Transformers構造を持つ言語モデルは自然言語処理において優れた性能を示している。
しかし、オーバーフィットや表現の崩壊など、下流タスクで訓練済みの言語モデルを微調整する場合にも問題が発生する。
本稿では,トランスフォーマー層を隠蔽した表現を摂動することで,そのような問題を緩和する,シンプルで効果的な微調整手法であるHyPeを提案する。
入力やパラメータにノイズを追加する以前の作品とは異なり、トランスフォーマー層の隠れた表現はより多様で有意義な言語情報を伝達すると主張している。
したがって、トランスフォーマー層を隠れた表現の摂動に対してより強固なものにすることは、plmのブロックでの微調整をさらに有益である。
我々はGLUEや他の自然言語推論データセットに関する広範な実験と分析を行う。
その結果,HyPeはバニラ微調整より優れ,異なる層からの隠蔽表現の一般化が促進されることがわかった。
さらにHyPeは、無視可能な計算オーバーヘッドを取得し、従来の最先端の微調整技術よりも優れ、互換性がある。
関連論文リスト
- On the Effect of Pre-training for Transformer in Different Modality on
Offline Reinforcement Learning [0.0]
本研究は,トランスフォーマーモデルからムジョコのオフライン強化学習タスクへの微調整に,言語や視覚などの異なるモーダルデータの事前学習がどのような影響を及ぼすかを検討する。
論文 参考訳(メタデータ) (2022-11-17T13:34:08Z) - An Exploration of Prompt Tuning on Generative Spoken Language Model for
Speech Processing Tasks [112.1942546460814]
生成音声言語モデル(GSLM)に基づく音声処理タスクの即時チューニングパラダイムの最初の検討について報告する。
実験結果から, 学習可能なパラメータが少ない音声分類タスクにおいて, 高精度なダウンストリームモデルよりも, 即時チューニング手法が競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-03-31T03:26:55Z) - Pretrained Transformers as Universal Computation Engines [105.00539596788127]
自然言語で事前学習したトランスフォーマーを,最小限の微調整で他のモダリティに一般化する能力について検討する。
本研究では, 数値計算, 視覚, タンパク質折り畳み予測にまたがる様々なシーケンス分類タスクについて, 微調整を行った。
このようなプリトレーニングにより、FPTはこれらのモダリティにゼロショットで一般化することができ、これらのタスクで完全に訓練されたトランスのパフォーマンスと一致します。
論文 参考訳(メタデータ) (2021-03-09T06:39:56Z) - Adapting Pretrained Transformer to Lattices for Spoken Language
Understanding [39.50831917042577]
ASR(Automatic Speech Recognitionr)が生成した1-best結果とは対照的に格子の符号化により,音声言語理解(SLU)の性能が向上することが示されている。
本稿では,事前学習したトランスフォーマーを格子入力に適用し,音声言語に特化して理解タスクを実行することを目的とする。
論文 参考訳(メタデータ) (2020-11-02T07:14:34Z) - Rethinking embedding coupling in pre-trained language models [46.11201932668366]
我々は、事前学習された言語モデルにおける入力と出力の埋め込みの重みを共有する標準的な方法を再評価する。
分離された埋め込みによりモデリングの柔軟性が向上し、パラメータ割り当ての効率が大幅に向上することを示す。
我々は、微調整段階においてパラメータの数を増やすことなく、XTREMEベンチマークで高い性能を達成するモデルを訓練することができる。
論文 参考訳(メタデータ) (2020-10-24T07:43:00Z) - Is Supervised Syntactic Parsing Beneficial for Language Understanding?
An Empirical Investigation [71.70562795158625]
従来のNLPは、高レベルセマンティック言語理解(LU)の成功に必要な構文解析を長い間保持(教師付き)してきた。
近年のエンドツーエンドニューラルネットワークの出現、言語モデリング(LM)による自己監視、および幅広いLUタスクにおける成功は、この信念に疑問を投げかけている。
本研究では,LM-Pretrained Transformer Network の文脈における意味的LUに対する教師あり構文解析の有用性を実証的に検討する。
論文 参考訳(メタデータ) (2020-08-15T21:03:36Z) - Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。
十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-20T17:25:43Z) - What Happens To BERT Embeddings During Fine-tuning? [19.016185902256826]
細調整がBERTモデルの表現に与える影響について検討する。
微調整は主にBERTの上位層に影響を与えるが、タスク間で注目すべきバリエーションがある。
特に、依存関係解析はモデルのほとんどを再構成するが、SQuADとMNLIはより浅い処理を伴っているように見える。
論文 参考訳(メタデータ) (2020-04-29T19:46:26Z) - Addressing Some Limitations of Transformers with Feedback Memory [51.94640029417114]
トランスフォーマーは、フィードフォワードネットワークであるにもかかわらず、シーケンシャルな自動回帰タスクにうまく適用されている。
本稿では、過去のすべての表現を将来のすべての表現に公開する、フィードバックトランスフォーマーアーキテクチャを提案する。
言語モデリング、機械翻訳、強化学習の様々なベンチマークにおいて、表現能力の増大は、同等のトランスフォーマーよりもはるかに強力なパフォーマンスを持つ、小さくて浅いモデルを生成することができることを実証する。
論文 参考訳(メタデータ) (2020-02-21T16:37:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。