論文の概要: Reconsidering Token Embeddings with the Definitions for Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2408.01308v1
- Date: Fri, 2 Aug 2024 15:00:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-05 13:07:59.471333
- Title: Reconsidering Token Embeddings with the Definitions for Pre-trained Language Models
- Title(参考訳): 事前学習型言語モデルの定義を取り入れたToken Embeddingの再検討
- Authors: Ying Zhang, Dongyuan Li, Manabu Okumura,
- Abstract要約: 本研究では,言語モデルのための等方的および意味論的トークン埋め込みを構築するための定義EMBを提案する。
本実験は,RoBERTa-base と BART-large の埋め込み構築における Wiktionary の定義の活用の有効性を実証するものである。
- 参考スコア(独自算出の注目度): 20.107727903240065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning token embeddings based on token co-occurrence statistics has proven effective for both pre-training and fine-tuning in natural language processing. However, recent studies have pointed out the distribution of learned embeddings degenerates into anisotropy, and even pre-trained language models (PLMs) suffer from a loss of semantics-related information in embeddings for low-frequency tokens. This study first analyzes fine-tuning dynamics of a PLM, BART-large, and demonstrates its robustness against degeneration. On the basis of this finding, we propose DefinitionEMB, a method that utilizes definitions to construct isotropically distributed and semantics-related token embeddings for PLMs while maintaining original robustness during fine-tuning. Our experiments demonstrate the effectiveness of leveraging definitions from Wiktionary to construct such embeddings for RoBERTa-base and BART-large. Furthermore, the constructed embeddings for low-frequency tokens improve the performance of these models across various GLUE and four text summarization datasets.
- Abstract(参考訳): トークン共起統計に基づく学習トークン埋め込みは、自然言語処理における事前学習と微調整の両方に有効であることが証明されている。
しかし、最近の研究では、学習された埋め込みの分布が異方性に縮退し、事前学習された言語モデル(PLM)でさえ、低周波トークンの埋め込みにおいて意味論的関連情報が失われることに悩まされていることが指摘されている。
本研究ではまず, PLM, BART-largeの微調整力学を解析し, その変性に対する堅牢性を示す。
そこで本研究では,PLMに対する等方的分散および意味論的トークン埋め込みの構築に定義を用いたDefenseEMBを提案する。
本実験は,RoBERTa-base と BART-large の埋め込み構築における Wiktionary の定義の活用の有効性を実証するものである。
さらに、低周波トークンのための構築された埋め込みにより、様々なGLUEと4つのテキスト要約データセット間でこれらのモデルの性能が向上する。
関連論文リスト
- Enhancing Systematic Decompositional Natural Language Inference Using Informal Logic [51.967603572656266]
我々は,分解包含を注釈付けするための一貫した理論的なアプローチを導入する。
我々の新しいデータセットRDTEは、前回の分解エンターメントデータセットよりもかなり高い内部整合性(+9%)を持つことがわかった。
また,RDTE による知識蒸留によるエンテーメント分類器の訓練や,エンテーメントツリー推論エンジンへの導入により,精度と検証精度が向上することが確認された。
論文 参考訳(メタデータ) (2024-02-22T18:55:17Z) - Unifying Structure and Language Semantic for Efficient Contrastive
Knowledge Graph Completion with Structured Entity Anchors [0.3913403111891026]
知識グラフ補完(KGC)の目標は、すでに知られている訓練された事実を用いて、KGの欠落したリンクを予測することである。
本稿では,帰納的推論の力を失うことなく,構造情報と言語意味を効果的に統一する手法を提案する。
論文 参考訳(メタデータ) (2023-11-07T11:17:55Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - CUE: An Uncertainty Interpretation Framework for Text Classifiers Built
on Pre-Trained Language Models [28.750894873827068]
本稿では,PLMモデルに固有の不確かさを解釈することを目的とした,CUEと呼ばれる新しいフレームワークを提案する。
摂動と原文表現の予測不確実性の違いを比較することにより,不確実性の原因となる潜伏次元を同定することができる。
論文 参考訳(メタデータ) (2023-06-06T11:37:46Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - On Guaranteed Optimal Robust Explanations for NLP Models [16.358394218953833]
我々は,マシーン学習のための推論に基づく説明を構築し,ニューラルネットワークモデルのための局所的説明を計算する方法を開発した。
我々は,それぞれ暗黙の打撃集合と最大普遍部分集合に基づく2つの解アルゴリズムを提案する。
SST、Twitter、IMDBデータセットから、広く使用されている3つの感情分析タスクと最大100ワードのテキストに基づいてフレームワークを評価します。
論文 参考訳(メタデータ) (2021-05-08T08:44:48Z) - Latent Template Induction with Gumbel-CRFs [107.17408593510372]
文生成のための潜在テンプレートを推論するための構造化変分オートエンコーダについて検討する。
構造化推論ネットワークとして、トレーニング中に解釈可能なテンプレートを学習することを示す。
論文 参考訳(メタデータ) (2020-11-29T01:00:57Z) - Prototypical Contrastive Learning of Unsupervised Representations [171.3046900127166]
原型コントラスト学習(Prototypeal Contrastive Learning, PCL)は、教師なし表現学習法である。
PCLは暗黙的にデータのセマンティック構造を学習された埋め込み空間にエンコードする。
PCLは、複数のベンチマークで最先端のインスタンスワイド・コントラスト学習法より優れている。
論文 参考訳(メタデータ) (2020-05-11T09:53:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。