Fugu-MT 論文翻訳(概要): Reconsidering Degeneration of Token Embeddings with Definitions for Encoder-based Pre-trained Language Models

論文の概要: Reconsidering Degeneration of Token Embeddings with Definitions for Encoder-based Pre-trained Language Models

arxiv url: http://arxiv.org/abs/2408.01308v2
Date: Wed, 16 Oct 2024 08:08:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-08 13:18:17.184447
Title: Reconsidering Degeneration of Token Embeddings with Definitions for Encoder-based Pre-trained Language Models
Title（参考訳）: エンコーダに基づく事前学習型言語モデルの定義によるトークン埋め込みの劣化の再検討
Authors: Ying Zhang, Dongyuan Li, Manabu Okumura,
Abstract要約: 本研究では,エンコーダに基づく言語モデルのための等方的および意味論的トークン埋め込みを再構築するために,DefindEMBを提案する。本実験は,Wiktionaryの定義を応用し,そのような埋め込みを再構築する効果を実証する。
参考スコア（独自算出の注目度）: 20.107727903240065
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Learning token embeddings based on token co-occurrence statistics has proven effective for both pre-training and fine-tuning in natural language processing. However, recent studies have pointed out that the distribution of learned embeddings degenerates into anisotropy (i.e., non-uniform distribution), and even pre-trained language models (PLMs) suffer from a loss of semantics-related information in embeddings for low-frequency tokens. This study first analyzes the fine-tuning dynamics of encoder-based PLMs and demonstrates their robustness against degeneration. On the basis of this analysis, we propose DefinitionEMB, a method that utilizes definitions to re-construct isotropically distributed and semantics-related token embeddings for encoder-based PLMs while maintaining original robustness during fine-tuning. Our experiments demonstrate the effectiveness of leveraging definitions from Wiktionary to re-construct such embeddings for two encoder-based PLMs: RoBERTa-base and BART-large. Furthermore, the re-constructed embeddings for low-frequency tokens improve the performance of these models across various GLUE and four text summarization datasets.
Abstract（参考訳）: トークン共起統計に基づく学習トークン埋め込みは、自然言語処理における事前学習と微調整の両方に有効であることが証明されている。しかし、最近の研究では、学習された埋め込みの分布が異方性(例えば、非一様分布)に縮退し、事前訓練された言語モデル(PLM)でさえ低周波トークンの埋め込みにおいて意味論的関連情報が失われることが指摘されている。本研究ではまず,エンコーダをベースとしたPLMの微調整力学を解析し,その変形に対する堅牢性を示す。この分析に基づいて、定義を利用して等方的分散と意味論的関連トークンの埋め込みをエンコーダベースのPLMに再構築し、微調整中に元の堅牢性を維持できる手法であるDefindEMBを提案する。本実験は,RoBERTa-base と BART-large の2つのエンコーダベース PLM に対して,Wiktionary の定義を利用して,そのような埋め込みを再構築する効果を示す。さらに、低周波トークンに対する再構成された埋め込みにより、様々なGLUEと4つのテキスト要約データセットにわたるモデルの性能が向上する。

関連論文リスト

TreeDiff: AST-Guided Code Generation with Diffusion LLMs [27.111814602726227]
本稿では,抽象構文木(AST)の構造的先行を記述プロセスに組み込んだ構文対応拡散フレームワークを提案する。その結果,構文認識の破損は構文的正当性,再構成精度,不明なコードパターンへの一般化を著しく改善することが示された。
論文参考訳（メタデータ） (2025-08-02T19:46:09Z)
Interpreting CFD Surrogates through Sparse Autoencoders [6.842974489069953]
本研究では,計算流体力学(CFD)で用いられるグラフベースの代理モデルに対するポストホック解釈可能性フレームワークを導入する。事前訓練されたサロゲートのノード埋め込み空間における過剰な基底を得ることにより、解釈可能な潜在特徴の辞書を抽出する。このアプローチは、渦や流れ構造のような物理的現象に整合した単意味概念の同定を可能にする。
論文参考訳（メタデータ） (2025-07-21T21:09:45Z)
Entropy-Driven Pre-Tokenization for Byte-Pair Encoding [4.145560327709288]
2つのエントロピーインフォームドプレトークン化戦略は、教師なし情報理論を用いたBPEセグメンテーションを導く。両手法をPKUデータセットのサブセット上で評価し,通常のBPEと比較して,セグメンテーション精度,リコール,F1スコアが大幅に向上したことを示す。
論文参考訳（メタデータ） (2025-06-18T21:25:55Z)
Taming Polysemanticity in LLMs: Provable Feature Recovery via Sparse Autoencoders [50.52694757593443]
既存のSAEトレーニングアルゴリズムは厳密な数学的保証を欠いていることが多く、実用的な制限に悩まされている。まず,特徴の特定可能性という新たな概念を含む特徴回復問題の統計的枠組みを提案する。本稿では、ニューラルネットワークのバイアスパラメータを適応的に調整し、適切なアクティベーション間隔を確保する手法である「バイアス適応」に基づく新たなSAEトレーニングアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-06-16T20:58:05Z)
CSE-SFP: Enabling Unsupervised Sentence Representation Learning via a Single Forward Pass [3.0566617373924325]
プレトレーニング言語モデル(PLM)の最近の進歩は、この分野において顕著な進歩をもたらした。 CSE-SFPは,生成モデルの構造的特徴を利用する革新的な手法である。 CSE-SFPは高品質な埋め込みを実現するだけでなく、トレーニング時間とメモリ消費を著しく削減する。
論文参考訳（メタデータ） (2025-05-01T08:27:14Z)
Enhancing Systematic Decompositional Natural Language Inference Using Informal Logic [51.967603572656266]
我々は,分解包含を注釈付けするための一貫した理論的なアプローチを導入する。我々の新しいデータセットRDTEは、前回の分解エンターメントデータセットよりもかなり高い内部整合性(+9%)を持つことがわかった。また,RDTE による知識蒸留によるエンテーメント分類器の訓練や,エンテーメントツリー推論エンジンへの導入により,精度と検証精度が向上することが確認された。
論文参考訳（メタデータ） (2024-02-22T18:55:17Z)
Unifying Structure and Language Semantic for Efficient Contrastive Knowledge Graph Completion with Structured Entity Anchors [0.3913403111891026]
知識グラフ補完(KGC)の目標は、すでに知られている訓練された事実を用いて、KGの欠落したリンクを予測することである。本稿では,帰納的推論の力を失うことなく,構造情報と言語意味を効果的に統一する手法を提案する。
論文参考訳（メタデータ） (2023-11-07T11:17:55Z)
HyPoradise: An Open Baseline for Generative Speech Recognition with Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文参考訳（メタデータ） (2023-09-27T14:44:10Z)
CUE: An Uncertainty Interpretation Framework for Text Classifiers Built on Pre-Trained Language Models [28.750894873827068]
本稿では,PLMモデルに固有の不確かさを解釈することを目的とした,CUEと呼ばれる新しいフレームワークを提案する。摂動と原文表現の予測不確実性の違いを比較することにより,不確実性の原因となる潜伏次元を同定することができる。
論文参考訳（メタデータ） (2023-06-06T11:37:46Z)
Scalable Learning of Latent Language Structure With Logical Offline Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文参考訳（メタデータ） (2023-05-31T16:47:20Z)
Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文参考訳（メタデータ） (2023-05-28T06:30:29Z)
On Guaranteed Optimal Robust Explanations for NLP Models [16.358394218953833]
我々は,マシーン学習のための推論に基づく説明を構築し,ニューラルネットワークモデルのための局所的説明を計算する方法を開発した。我々は,それぞれ暗黙の打撃集合と最大普遍部分集合に基づく2つの解アルゴリズムを提案する。 SST、Twitter、IMDBデータセットから、広く使用されている3つの感情分析タスクと最大100ワードのテキストに基づいてフレームワークを評価します。
論文参考訳（メタデータ） (2021-05-08T08:44:48Z)
Latent Template Induction with Gumbel-CRFs [107.17408593510372]
文生成のための潜在テンプレートを推論するための構造化変分オートエンコーダについて検討する。構造化推論ネットワークとして、トレーニング中に解釈可能なテンプレートを学習することを示す。
論文参考訳（メタデータ） (2020-11-29T01:00:57Z)
Prototypical Contrastive Learning of Unsupervised Representations [171.3046900127166]
原型コントラスト学習(Prototypeal Contrastive Learning, PCL)は、教師なし表現学習法である。 PCLは暗黙的にデータのセマンティック構造を学習された埋め込み空間にエンコードする。 PCLは、複数のベンチマークで最先端のインスタンスワイド・コントラスト学習法より優れている。
論文参考訳（メタデータ） (2020-05-11T09:53:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。