論文の概要: ExLM: Rethinking the Impact of $\texttt{[MASK]}$ Tokens in Masked Language Models
- arxiv url: http://arxiv.org/abs/2501.13397v1
- Date: Thu, 23 Jan 2025 05:46:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:59:18.687015
- Title: ExLM: Rethinking the Impact of $\texttt{[MASK]}$ Tokens in Masked Language Models
- Title(参考訳): ExLM:masked言語モデルにおける$\texttt{[MASK]}$トークンの影響を再考する
- Authors: Kangjie Zheng, Junwei Yang, Siyue Liang, Bin Feng, Zequn Liu, Wei Ju, Zhiping Xiao, Ming Zhang,
- Abstract要約: Masked Language Models (ML) は入力文中のいくつかのトークンを $tt[MASK]$トークンにランダムに置き換え、残りのコンテキストに基づいて元のトークンを予測することで訓練される。
本稿では,$tt[MASK]$トークンがテキストモデルに与える影響について検討する。
入力コンテキストと拡張状態間の依存関係を$tt[MASK]$トークンに拡張する新しい拡張コンテキストExLMを提案する。
- 参考スコア(独自算出の注目度): 11.997499811414837
- License:
- Abstract: Masked Language Models (MLMs) have achieved remarkable success in many self-supervised representation learning tasks. MLMs are trained by randomly replacing some tokens in the input sentences with $\texttt{[MASK]}$ tokens and predicting the original tokens based on the remaining context. This paper explores the impact of $\texttt{[MASK]}$ tokens on MLMs. Analytical studies show that masking tokens can introduce the corrupted semantics problem, wherein the corrupted context may convey multiple, ambiguous meanings. This problem is also a key factor affecting the performance of MLMs on downstream tasks. Based on these findings, we propose a novel enhanced-context MLM, ExLM. Our approach expands $\texttt{[MASK]}$ tokens in the input context and models the dependencies between these expanded states. This expansion increases context capacity and enables the model to capture richer semantic information, effectively mitigating the corrupted semantics problem during pre-training. Experimental results demonstrate that ExLM achieves significant performance improvements in both text modeling and SMILES modeling tasks. Further analysis confirms that ExLM enhances semantic representations through context enhancement, and effectively reduces the multimodality problem commonly observed in MLMs.
- Abstract(参考訳): Masked Language Models (MLM) は多くの自己指導型表現学習タスクにおいて顕著な成功を収めた。
MLMは入力文中のいくつかのトークンを$\texttt{[MASK]}$トークンにランダムに置き換え、残りのコンテキストに基づいて元のトークンを予測することで訓練される。
本稿では,MLMに対する$\texttt{[MASK]}$トークンの影響について検討する。
分析研究により、マスキングトークンは、破損した意味論の問題を導入し、劣化した文脈が複数の曖昧な意味を伝達する可能性があることが示されている。
この問題は、下流タスクにおけるMLMのパフォーマンスに影響を及ぼす重要な要因でもある。
これらの知見に基づき,新しい拡張テキストMLM, ExLMを提案する。
我々のアプローチは入力コンテキストにおける$\texttt{[MASK]}$トークンを拡張し、これらの拡張状態間の依存関係をモデル化します。
この拡張により、コンテキスト容量が増加し、モデルがよりリッチなセマンティック情報をキャプチャし、事前トレーニング中に破損したセマンティックス問題を効果的に軽減することができる。
実験結果から,ExLMはテキストモデリングとSMILESモデリングの両方において,大幅な性能向上を実現していることがわかった。
さらなる分析により、ExLMは文脈拡張を通じて意味表現を強化し、MLMでよく見られる多様性問題を効果的に低減する。
関連論文リスト
- Implicit Multimodal Alignment: On the Generalization of Frozen LLMs to Multimodal Inputs [63.29737699997859]
大規模言語モデル(LLM)は、マルチモーダルな微調整をせずに、マルチモーダルなタスクにおいて印象的なパフォーマンスを示した。
本研究では,画像,ビデオ,音声,テキストの入力に凍結LDMを公開し,内部表現を解析する。
論文 参考訳(メタデータ) (2024-05-26T21:31:59Z) - Analyzing the Role of Semantic Representations in the Era of Large Language Models [104.18157036880287]
大規模言語モデル(LLM)の時代における意味表現の役割について検討する。
本稿では, AMRCoT と呼ばれる AMR-driven chain-of- Thought prompting 法を提案する。
AMRのどの入力例が役に立つかは予測できないが,複数単語の表現でエラーが発生する傾向にある。
論文 参考訳(メタデータ) (2024-05-02T17:32:59Z) - Identifying and Analyzing Task-Encoding Tokens in Large Language Models [55.03191279766383]
本稿では,タスク性能が依存するタスク符号化トークンの識別と解析を行う。
テンプレートとストップワードトークンはタスクエンコーディングが最も困難であることを示す。
我々の研究は、大規模言語モデル(LLM)がいかにして、デモからタスクを実行するかを学習し、LLMでプレイされるさまざまな種類のトークンの役割の理解を深め、タスクエンコーディングトークンを不適切な利用から不安定を避けるための洞察を提供する。
論文 参考訳(メタデータ) (2024-01-20T20:55:21Z) - Which Syntactic Capabilities Are Statistically Learned by Masked
Language Models for Code? [51.29970742152668]
精度に基づく測定に依存することで、モデルの能力が過大評価される可能性があることを強調する。
これらの問題に対処するために,SyntaxEval in Syntactic Capabilitiesというテクニックを導入する。
論文 参考訳(メタデータ) (2024-01-03T02:44:02Z) - Masked and Permuted Implicit Context Learning for Scene Text Recognition [8.742571493814326]
シーン認識(STR)は、テキストスタイル、形状、背景の変化のため困難である。
単一のデコーダ内において、STRのためのマスク付き暗黙的文脈学習ネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-25T15:31:02Z) - Learning In-context Learning for Named Entity Recognition [54.022036267886214]
実世界のアプリケーションにおける名前付きエンティティ認識は、エンティティタイプの多様性、新しいエンティティタイプの出現、高品質なアノテーションの欠如に悩まされている。
本稿では,PLMにテキスト内NER機能を効果的に注入可能な,テキスト内学習に基づくNERアプローチを提案する。
提案手法は,テキスト内NER能力をPLMに効果的に注入し,PLM+fine-tuningよりも優れることを示す。
論文 参考訳(メタデータ) (2023-05-18T15:31:34Z) - Representation Deficiency in Masked Language Modeling [107.39136254013042]
我々は Masked Autoencoder アーキテクチャを事前トレーニングする MAE-LM を提案し,$tt[MASK]$トークンをエンコーダから除外する。
GLUE と SQuAD ベンチマークで微調整した場合,MAE-LM は,事前学習したモデルに対して,異なる事前学習設定とモデルサイズで一貫した性能を示した。
論文 参考訳(メタデータ) (2023-02-04T01:54:17Z) - Contextual Representation Learning beyond Masked Language Modeling [45.46220173487394]
BERTのような言語モデル(MLM)を文脈的に学習する。
これらの課題に対処するために,直接的にグローバルな意味論を表現学習するTACOを提案する。
TACOは、文脈化された表現に隠された文脈意味を抽出し、モデルにグローバルな意味論への参加を促す。
論文 参考訳(メタデータ) (2022-04-08T16:18:06Z) - Warped Language Models for Noise Robust Language Understanding [11.017026606760728]
Masked Language Models (MLM) は、与えられた文の空白をマスク付きトークンで埋める自己教師型ニューラルネットワークである。
本稿では,WLM上に構築された自然言語理解システムが,対話型言語よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-11-03T18:26:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。