Fugu-MT 論文翻訳(概要): Reconsidering Token Embeddings with the Definitions for Pre-trained Language Models

論文の概要: Reconsidering Token Embeddings with the Definitions for Pre-trained Language Models

arxiv url: http://arxiv.org/abs/2408.01308v1
Date: Fri, 2 Aug 2024 15:00:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-05 13:07:59.471333
Title: Reconsidering Token Embeddings with the Definitions for Pre-trained Language Models
Title（参考訳）: 事前学習型言語モデルの定義を取り入れたToken Embeddingの再検討
Authors: Ying Zhang, Dongyuan Li, Manabu Okumura,
Abstract要約: 本研究では,言語モデルのための等方的および意味論的トークン埋め込みを構築するための定義EMBを提案する。本実験は,RoBERTa-base と BART-large の埋め込み構築における Wiktionary の定義の活用の有効性を実証するものである。
参考スコア（独自算出の注目度）: 20.107727903240065
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Learning token embeddings based on token co-occurrence statistics has proven effective for both pre-training and fine-tuning in natural language processing. However, recent studies have pointed out the distribution of learned embeddings degenerates into anisotropy, and even pre-trained language models (PLMs) suffer from a loss of semantics-related information in embeddings for low-frequency tokens. This study first analyzes fine-tuning dynamics of a PLM, BART-large, and demonstrates its robustness against degeneration. On the basis of this finding, we propose DefinitionEMB, a method that utilizes definitions to construct isotropically distributed and semantics-related token embeddings for PLMs while maintaining original robustness during fine-tuning. Our experiments demonstrate the effectiveness of leveraging definitions from Wiktionary to construct such embeddings for RoBERTa-base and BART-large. Furthermore, the constructed embeddings for low-frequency tokens improve the performance of these models across various GLUE and four text summarization datasets.
Abstract（参考訳）: トークン共起統計に基づく学習トークン埋め込みは、自然言語処理における事前学習と微調整の両方に有効であることが証明されている。しかし、最近の研究では、学習された埋め込みの分布が異方性に縮退し、事前学習された言語モデル(PLM)でさえ、低周波トークンの埋め込みにおいて意味論的関連情報が失われることに悩まされていることが指摘されている。本研究ではまず, PLM, BART-largeの微調整力学を解析し, その変性に対する堅牢性を示す。そこで本研究では,PLMに対する等方的分散および意味論的トークン埋め込みの構築に定義を用いたDefenseEMBを提案する。本実験は,RoBERTa-base と BART-large の埋め込み構築における Wiktionary の定義の活用の有効性を実証するものである。さらに、低周波トークンのための構築された埋め込みにより、様々なGLUEと4つのテキスト要約データセット間でこれらのモデルの性能が向上する。

関連論文リスト

Characterizing Memorization in Diffusion Language Models: Generalized Extraction and Sampling Effects [17.220195638215507]
拡散言語モデル (DLMs) は自己回帰言語モデル (ARMs) の代替として登場した。 DLMは、ARMと比較して、個人識別情報(PII)の記憶に基づくリークが著しく低い。
論文参考訳（メタデータ） (2026-03-02T19:03:32Z)
PDR: A Plug-and-Play Positional Decay Framework for LLM Pre-training Data Detection [30.13331191100816]
大規模言語モデル(LLM)における事前学習データを検出するトレーニングフリーでプラグアンドプレイのフレームワークであるPDRを導入する。 PDRはトークンレベルのスコアを明示的に強調し、初期位置からの異なる信号を増幅し、後の位置からのノイズを抑制する。
論文参考訳（メタデータ） (2026-01-11T09:32:13Z)
TreeDiff: AST-Guided Code Generation with Diffusion LLMs [27.111814602726227]
本稿では,抽象構文木(AST)の構造的先行を記述プロセスに組み込んだ構文対応拡散フレームワークを提案する。その結果,構文認識の破損は構文的正当性,再構成精度,不明なコードパターンへの一般化を著しく改善することが示された。
論文参考訳（メタデータ） (2025-08-02T19:46:09Z)
Interpreting CFD Surrogates through Sparse Autoencoders [6.842974489069953]
本研究では,計算流体力学(CFD)で用いられるグラフベースの代理モデルに対するポストホック解釈可能性フレームワークを導入する。事前訓練されたサロゲートのノード埋め込み空間における過剰な基底を得ることにより、解釈可能な潜在特徴の辞書を抽出する。このアプローチは、渦や流れ構造のような物理的現象に整合した単意味概念の同定を可能にする。
論文参考訳（メタデータ） (2025-07-21T21:09:45Z)
Entropy-Driven Pre-Tokenization for Byte-Pair Encoding [4.145560327709288]
2つのエントロピーインフォームドプレトークン化戦略は、教師なし情報理論を用いたBPEセグメンテーションを導く。両手法をPKUデータセットのサブセット上で評価し,通常のBPEと比較して,セグメンテーション精度,リコール,F1スコアが大幅に向上したことを示す。
論文参考訳（メタデータ） (2025-06-18T21:25:55Z)
Taming Polysemanticity in LLMs: Provable Feature Recovery via Sparse Autoencoders [50.52694757593443]
既存のSAEトレーニングアルゴリズムは厳密な数学的保証を欠いていることが多く、実用的な制限に悩まされている。まず,特徴の特定可能性という新たな概念を含む特徴回復問題の統計的枠組みを提案する。本稿では、ニューラルネットワークのバイアスパラメータを適応的に調整し、適切なアクティベーション間隔を確保する手法である「バイアス適応」に基づく新たなSAEトレーニングアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-06-16T20:58:05Z)
Bridging Weakly-Supervised Learning and VLM Distillation: Noisy Partial Label Learning for Efficient Downstream Adaptation [51.67328507400985]
ノイズ部分ラベル学習(NPLL)では、各トレーニングサンプルは、複数のノイズアノテータによって注釈付けされた候補ラベルのセットに関連付けられている。本稿では、事前学習された視覚言語モデルによって注釈付けされた部分ラベルからの学習に焦点を当てる。革新的な協調整合正則化(Co-Reg)法を提案する。
論文参考訳（メタデータ） (2025-06-03T12:48:54Z)
CSE-SFP: Enabling Unsupervised Sentence Representation Learning via a Single Forward Pass [3.0566617373924325]
プレトレーニング言語モデル(PLM)の最近の進歩は、この分野において顕著な進歩をもたらした。 CSE-SFPは,生成モデルの構造的特徴を利用する革新的な手法である。 CSE-SFPは高品質な埋め込みを実現するだけでなく、トレーニング時間とメモリ消費を著しく削減する。
論文参考訳（メタデータ） (2025-05-01T08:27:14Z)
Enhancing Systematic Decompositional Natural Language Inference Using Informal Logic [51.967603572656266]
我々は,分解包含を注釈付けするための一貫した理論的なアプローチを導入する。我々の新しいデータセットRDTEは、前回の分解エンターメントデータセットよりもかなり高い内部整合性(+9%)を持つことがわかった。また,RDTE による知識蒸留によるエンテーメント分類器の訓練や,エンテーメントツリー推論エンジンへの導入により,精度と検証精度が向上することが確認された。
論文参考訳（メタデータ） (2024-02-22T18:55:17Z)
Unifying Structure and Language Semantic for Efficient Contrastive Knowledge Graph Completion with Structured Entity Anchors [0.3913403111891026]
知識グラフ補完(KGC)の目標は、すでに知られている訓練された事実を用いて、KGの欠落したリンクを予測することである。本稿では,帰納的推論の力を失うことなく,構造情報と言語意味を効果的に統一する手法を提案する。
論文参考訳（メタデータ） (2023-11-07T11:17:55Z)
HyPoradise: An Open Baseline for Generative Speech Recognition with Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文参考訳（メタデータ） (2023-09-27T14:44:10Z)
CUE: An Uncertainty Interpretation Framework for Text Classifiers Built on Pre-Trained Language Models [28.750894873827068]
本稿では,PLMモデルに固有の不確かさを解釈することを目的とした,CUEと呼ばれる新しいフレームワークを提案する。摂動と原文表現の予測不確実性の違いを比較することにより,不確実性の原因となる潜伏次元を同定することができる。
論文参考訳（メタデータ） (2023-06-06T11:37:46Z)
Scalable Learning of Latent Language Structure With Logical Offline Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文参考訳（メタデータ） (2023-05-31T16:47:20Z)
Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文参考訳（メタデータ） (2023-05-28T06:30:29Z)
On Guaranteed Optimal Robust Explanations for NLP Models [16.358394218953833]
我々は,マシーン学習のための推論に基づく説明を構築し,ニューラルネットワークモデルのための局所的説明を計算する方法を開発した。我々は,それぞれ暗黙の打撃集合と最大普遍部分集合に基づく2つの解アルゴリズムを提案する。 SST、Twitter、IMDBデータセットから、広く使用されている3つの感情分析タスクと最大100ワードのテキストに基づいてフレームワークを評価します。
論文参考訳（メタデータ） (2021-05-08T08:44:48Z)
Latent Template Induction with Gumbel-CRFs [107.17408593510372]
文生成のための潜在テンプレートを推論するための構造化変分オートエンコーダについて検討する。構造化推論ネットワークとして、トレーニング中に解釈可能なテンプレートを学習することを示す。
論文参考訳（メタデータ） (2020-11-29T01:00:57Z)
Prototypical Contrastive Learning of Unsupervised Representations [171.3046900127166]
原型コントラスト学習(Prototypeal Contrastive Learning, PCL)は、教師なし表現学習法である。 PCLは暗黙的にデータのセマンティック構造を学習された埋め込み空間にエンコードする。 PCLは、複数のベンチマークで最先端のインスタンスワイド・コントラスト学習法より優れている。
論文参考訳（メタデータ） (2020-05-11T09:53:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。