論文の概要: ExLM: Rethinking the Impact of $\texttt{[MASK]}$ Tokens in Masked Language Models
- arxiv url: http://arxiv.org/abs/2501.13397v1
- Date: Thu, 23 Jan 2025 05:46:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:59:18.687015
- Title: ExLM: Rethinking the Impact of $\texttt{[MASK]}$ Tokens in Masked Language Models
- Title(参考訳): ExLM:masked言語モデルにおける$\texttt{[MASK]}$トークンの影響を再考する
- Authors: Kangjie Zheng, Junwei Yang, Siyue Liang, Bin Feng, Zequn Liu, Wei Ju, Zhiping Xiao, Ming Zhang,
- Abstract要約: Masked Language Models (ML) は入力文中のいくつかのトークンを $tt[MASK]$トークンにランダムに置き換え、残りのコンテキストに基づいて元のトークンを予測することで訓練される。
本稿では,$tt[MASK]$トークンがテキストモデルに与える影響について検討する。
入力コンテキストと拡張状態間の依存関係を$tt[MASK]$トークンに拡張する新しい拡張コンテキストExLMを提案する。
- 参考スコア(独自算出の注目度): 11.997499811414837
- License:
- Abstract: Masked Language Models (MLMs) have achieved remarkable success in many self-supervised representation learning tasks. MLMs are trained by randomly replacing some tokens in the input sentences with $\texttt{[MASK]}$ tokens and predicting the original tokens based on the remaining context. This paper explores the impact of $\texttt{[MASK]}$ tokens on MLMs. Analytical studies show that masking tokens can introduce the corrupted semantics problem, wherein the corrupted context may convey multiple, ambiguous meanings. This problem is also a key factor affecting the performance of MLMs on downstream tasks. Based on these findings, we propose a novel enhanced-context MLM, ExLM. Our approach expands $\texttt{[MASK]}$ tokens in the input context and models the dependencies between these expanded states. This expansion increases context capacity and enables the model to capture richer semantic information, effectively mitigating the corrupted semantics problem during pre-training. Experimental results demonstrate that ExLM achieves significant performance improvements in both text modeling and SMILES modeling tasks. Further analysis confirms that ExLM enhances semantic representations through context enhancement, and effectively reduces the multimodality problem commonly observed in MLMs.
- Abstract(参考訳): Masked Language Models (MLM) は多くの自己指導型表現学習タスクにおいて顕著な成功を収めた。
MLMは入力文中のいくつかのトークンを$\texttt{[MASK]}$トークンにランダムに置き換え、残りのコンテキストに基づいて元のトークンを予測することで訓練される。
本稿では,MLMに対する$\texttt{[MASK]}$トークンの影響について検討する。
分析研究により、マスキングトークンは、破損した意味論の問題を導入し、劣化した文脈が複数の曖昧な意味を伝達する可能性があることが示されている。
この問題は、下流タスクにおけるMLMのパフォーマンスに影響を及ぼす重要な要因でもある。
これらの知見に基づき,新しい拡張テキストMLM, ExLMを提案する。
我々のアプローチは入力コンテキストにおける$\texttt{[MASK]}$トークンを拡張し、これらの拡張状態間の依存関係をモデル化します。
この拡張により、コンテキスト容量が増加し、モデルがよりリッチなセマンティック情報をキャプチャし、事前トレーニング中に破損したセマンティックス問題を効果的に軽減することができる。
実験結果から,ExLMはテキストモデリングとSMILESモデリングの両方において,大幅な性能向上を実現していることがわかった。
さらなる分析により、ExLMは文脈拡張を通じて意味表現を強化し、MLMでよく見られる多様性問題を効果的に低減する。
関連論文リスト
- Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and the Empirical Findings [69.35226485836641]
既存のMultimoal Large Language Models (MLLM) における視覚トークンの過剰使用は、しばしば明らかな冗長性を示し、非常に高価な計算をもたらす。
DyVTE(Dynamic visual-token exit)と呼ばれるMLLMの効率を改善するための簡易かつ効果的な手法を提案する。
DyVTEは軽量なハイパーネットワークを使用して、テキストトークンの状態を認識し、特定のレイヤの後にすべてのビジュアルトークンを削除する。
論文 参考訳(メタデータ) (2024-11-29T11:24:23Z) - Enhancing Instruction-Following Capability of Visual-Language Models by Reducing Image Redundancy [37.471419716572086]
LLM(Large Language Model)とMLLM(Multimodal Large Language Model)の命令追従能力には大きなギャップがある。
本稿では,このギャップを軽減するために,VMTC(Visual-Modality Token Compression)とCMAI(Cross-Modality Attention Inhibition)戦略を提案する。
論文 参考訳(メタデータ) (2024-11-23T05:03:32Z) - Towards Semantic Equivalence of Tokenization in Multimodal LLM [149.11720372278273]
視覚トークン化は、視覚と言語間のセマンティックアライメントに不可欠である。
本稿では,新しい動的セマンティック等価ビジョントケナイザ(SeTok)を提案する。
SeTokは動的クラスタリングアルゴリズムを通じて、視覚的特徴をセマンティックユニットにグループ化する。
結果として得られる視覚トークンは意味的整合性を効果的に保持し、低周波と高周波の両方の視覚特徴をキャプチャする。
論文 参考訳(メタデータ) (2024-06-07T17:55:43Z) - The Strong Pull of Prior Knowledge in Large Language Models and Its Impact on Emotion Recognition [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理のための強力なパラダイムとして登場した。
LLMには、感情認識において強いが矛盾する先行性があり、その予測に影響を及ぼすことが示される。
以上の結果から,ICLをより大きなLCMで事前学習領域外の情動中心タスクに使用する場合,注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T19:07:32Z) - Which Syntactic Capabilities Are Statistically Learned by Masked
Language Models for Code? [51.29970742152668]
精度に基づく測定に依存することで、モデルの能力が過大評価される可能性があることを強調する。
これらの問題に対処するために,SyntaxEval in Syntactic Capabilitiesというテクニックを導入する。
論文 参考訳(メタデータ) (2024-01-03T02:44:02Z) - Masked and Permuted Implicit Context Learning for Scene Text Recognition [8.742571493814326]
シーン認識(STR)は、テキストスタイル、形状、背景の変化のため困難である。
単一のデコーダ内において、STRのためのマスク付き暗黙的文脈学習ネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-25T15:31:02Z) - Representation Deficiency in Masked Language Modeling [107.39136254013042]
我々は Masked Autoencoder アーキテクチャを事前トレーニングする MAE-LM を提案し,$tt[MASK]$トークンをエンコーダから除外する。
GLUE と SQuAD ベンチマークで微調整した場合,MAE-LM は,事前学習したモデルに対して,異なる事前学習設定とモデルサイズで一貫した性能を示した。
論文 参考訳(メタデータ) (2023-02-04T01:54:17Z) - Contextual Representation Learning beyond Masked Language Modeling [45.46220173487394]
BERTのような言語モデル(MLM)を文脈的に学習する。
これらの課題に対処するために,直接的にグローバルな意味論を表現学習するTACOを提案する。
TACOは、文脈化された表現に隠された文脈意味を抽出し、モデルにグローバルな意味論への参加を促す。
論文 参考訳(メタデータ) (2022-04-08T16:18:06Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。