論文の概要: Reconsidering Degeneration of Token Embeddings with Definitions for Encoder-based Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2408.01308v2
- Date: Wed, 16 Oct 2024 08:08:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:39:03.662192
- Title: Reconsidering Degeneration of Token Embeddings with Definitions for Encoder-based Pre-trained Language Models
- Title(参考訳): エンコーダに基づく事前学習型言語モデルの定義によるトークン埋め込みの劣化の再検討
- Authors: Ying Zhang, Dongyuan Li, Manabu Okumura,
- Abstract要約: 本研究では,エンコーダに基づく言語モデルのための等方的および意味論的トークン埋め込みを再構築するために,DefindEMBを提案する。
本実験は,Wiktionaryの定義を応用し,そのような埋め込みを再構築する効果を実証する。
- 参考スコア(独自算出の注目度): 20.107727903240065
- License:
- Abstract: Learning token embeddings based on token co-occurrence statistics has proven effective for both pre-training and fine-tuning in natural language processing. However, recent studies have pointed out that the distribution of learned embeddings degenerates into anisotropy (i.e., non-uniform distribution), and even pre-trained language models (PLMs) suffer from a loss of semantics-related information in embeddings for low-frequency tokens. This study first analyzes the fine-tuning dynamics of encoder-based PLMs and demonstrates their robustness against degeneration. On the basis of this analysis, we propose DefinitionEMB, a method that utilizes definitions to re-construct isotropically distributed and semantics-related token embeddings for encoder-based PLMs while maintaining original robustness during fine-tuning. Our experiments demonstrate the effectiveness of leveraging definitions from Wiktionary to re-construct such embeddings for two encoder-based PLMs: RoBERTa-base and BART-large. Furthermore, the re-constructed embeddings for low-frequency tokens improve the performance of these models across various GLUE and four text summarization datasets.
- Abstract(参考訳): トークン共起統計に基づく学習トークン埋め込みは、自然言語処理における事前学習と微調整の両方に有効であることが証明されている。
しかし、最近の研究では、学習された埋め込みの分布が異方性(例えば、非一様分布)に縮退し、事前訓練された言語モデル(PLM)でさえ低周波トークンの埋め込みにおいて意味論的関連情報が失われることが指摘されている。
本研究ではまず,エンコーダをベースとしたPLMの微調整力学を解析し,その変形に対する堅牢性を示す。
この分析に基づいて、定義を利用して等方的分散と意味論的関連トークンの埋め込みをエンコーダベースのPLMに再構築し、微調整中に元の堅牢性を維持できる手法であるDefindEMBを提案する。
本実験は,RoBERTa-base と BART-large の2つのエンコーダベース PLM に対して,Wiktionary の定義を利用して,そのような埋め込みを再構築する効果を示す。
さらに、低周波トークンに対する再構成された埋め込みにより、様々なGLUEと4つのテキスト要約データセットにわたるモデルの性能が向上する。
関連論文リスト
- Enhancing Systematic Decompositional Natural Language Inference Using
Informal Logic [53.363888563647976]
我々は,分解包含データセットに注釈を付けるための一貫した理論的なアプローチを開発した。
得られたデータセットRDTEは,従来よりも内部整合性(+9%)が高いことがわかった。
また, 知識蒸留によるRDTE指向エンテーメント分類器の訓練や, 現代のニューロシンボリック推論エンジンへの導入により, 結果が大幅に向上することが確認された。
論文 参考訳(メタデータ) (2024-02-22T18:55:17Z) - Unifying Structure and Language Semantic for Efficient Contrastive
Knowledge Graph Completion with Structured Entity Anchors [0.3913403111891026]
知識グラフ補完(KGC)の目標は、すでに知られている訓練された事実を用いて、KGの欠落したリンクを予測することである。
本稿では,帰納的推論の力を失うことなく,構造情報と言語意味を効果的に統一する手法を提案する。
論文 参考訳(メタデータ) (2023-11-07T11:17:55Z) - CUE: An Uncertainty Interpretation Framework for Text Classifiers Built
on Pre-Trained Language Models [28.750894873827068]
本稿では,PLMモデルに固有の不確かさを解釈することを目的とした,CUEと呼ばれる新しいフレームワークを提案する。
摂動と原文表現の予測不確実性の違いを比較することにより,不確実性の原因となる潜伏次元を同定することができる。
論文 参考訳(メタデータ) (2023-06-06T11:37:46Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - Towards preserving word order importance through Forced Invalidation [80.33036864442182]
事前学習された言語モデルは単語の順序に敏感であることを示す。
我々は,単語順序の重要性を維持するために強制的無効化を提案する。
実験の結果,強制的無効化は単語順に対するモデルの感度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-04-11T13:42:10Z) - Learning Disentangled Representations for Natural Language Definitions [0.0]
テキストデータの連続的な構文的・意味的規則性は、構造的バイアスと生成的要因の両方をモデルに提供するのに有効である、と我々は主張する。
本研究では,文型,定義文の表現的・意味的に密接なカテゴリに存在する意味的構造を利用して,不整合表現を学習するための変分オートエンコーダを訓練する。
論文 参考訳(メタデータ) (2022-09-22T14:31:55Z) - NoiER: An Approach for Training more Reliable Fine-TunedDownstream Task
Models [54.184609286094044]
補助モデルと付加データなしで問題を解くための学習パラダイムとして,ノイズエントロピー正規化(NoiER)を提案する。
提案手法は,従来の微調整モデルと比較して平均55%改善した。
論文 参考訳(メタデータ) (2021-08-29T06:58:28Z) - Fine-tuning BERT for Low-Resource Natural Language Understanding via
Active Learning [30.5853328612593]
本研究では,事前学習した Transformer ベースの言語モデル BERT の微調整手法について検討する。
実験結果から,モデルの知識獲得度を最大化することで,モデル性能の優位性を示す。
我々は、微調整中の言語モデルの凍結層の利点を分析し、トレーニング可能なパラメータの数を減らす。
論文 参考訳(メタデータ) (2020-12-04T08:34:39Z) - Improving Text Generation with Student-Forcing Optimal Transport [122.11881937642401]
トレーニングモードとテストモードで生成されたシーケンスに最適なトランスポート(OT)を提案する。
テキストシーケンスの構造的および文脈的情報に基づいて、OT学習を改善するための拡張も提案されている。
提案手法の有効性は,機械翻訳,テキスト要約,テキスト生成タスクにおいて検証される。
論文 参考訳(メタデータ) (2020-10-12T19:42:25Z) - Prototypical Contrastive Learning of Unsupervised Representations [171.3046900127166]
原型コントラスト学習(Prototypeal Contrastive Learning, PCL)は、教師なし表現学習法である。
PCLは暗黙的にデータのセマンティック構造を学習された埋め込み空間にエンコードする。
PCLは、複数のベンチマークで最先端のインスタンスワイド・コントラスト学習法より優れている。
論文 参考訳(メタデータ) (2020-05-11T09:53:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。