論文の概要: Token Masking Improves Transformer-Based Text Classification
- arxiv url: http://arxiv.org/abs/2505.11746v1
- Date: Fri, 16 May 2025 23:06:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.821064
- Title: Token Masking Improves Transformer-Based Text Classification
- Title(参考訳): Token Maskingはトランスフォーマーによるテキスト分類を改善する
- Authors: Xianglong Xu, John Bowen, Rojin Taheri,
- Abstract要約: 本稿では,入力トークンを確率 p で特別な [MASK] トークンにランダムに置き換える,シンプルだが理論的に動機づけられたトークンマスキング正規化を提案する。
言語識別と感情分析の実験では、標準正規化技術よりも一貫した改善が見られた。
- 参考スコア(独自算出の注目度): 0.40964539027092917
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While transformer-based models achieve strong performance on text classification, we explore whether masking input tokens can further enhance their effectiveness. We propose token masking regularization, a simple yet theoretically motivated method that randomly replaces input tokens with a special [MASK] token at probability p. This introduces stochastic perturbations during training, leading to implicit gradient averaging that encourages the model to capture deeper inter-token dependencies. Experiments on language identification and sentiment analysis -- across diverse models (mBERT, Qwen2.5-0.5B, TinyLlama-1.1B) -- show consistent improvements over standard regularization techniques. We identify task-specific optimal masking rates, with p = 0.1 as a strong general default. We attribute the gains to two key effects: (1) input perturbation reduces overfitting, and (2) gradient-level smoothing acts as implicit ensembling.
- Abstract(参考訳): 変換器をベースとしたモデルがテキスト分類において高い性能を達成する一方で、マスク入力トークンがそれらの効果をさらに向上させるかどうかを考察する。
本稿では,入力トークンを確率 p で特別な [MASK] トークンにランダムに置き換える,シンプルだが理論的に動機づけられたトークンマスキング正規化を提案する。
これにより、トレーニング中の確率的摂動が導入され、暗黙的な勾配平均化が発生し、モデルがより深いトークン間の依存関係をキャプチャする。
言語識別と感情分析(mBERT、Qwen2.5-0.5B、TinyLlama-1.1B)の実験は、標準正規化技術よりも一貫して改善されている。
タスク固有の最適マスキング率を、p = 0.1 を強いデフォルトとして同定する。
1)入力摂動は過度な適合を減少させ、(2)勾配レベルの平滑化は暗黙のアンサンブルとして作用する。
関連論文リスト
- GRIFFIN: Effective Token Alignment for Faster Speculative Decoding [52.905060461479856]
GRIFFINはトークン指向のトレーニング戦略とトークン指向のドラフトモデルを組み込んだフレームワークである。
LLaMAシリーズとVicunaモデルを用いた実験では、GRIFFINは7%以上、スピードアップ率は8%以上である。
論文 参考訳(メタデータ) (2025-02-16T07:06:00Z) - TPC-ViT: Token Propagation Controller for Efficient Vision Transformer [6.341420717393898]
ビジョントランス (ViT) は様々なコンピュータビジョンタスクにおいて有望な結果を得た。
この課題に対処するために、段階的なトークン削減を採用する以前のアプローチでは、ひとつのレイヤにおけるトークンの冗長性は、以下のすべてのレイヤにおける冗長性を意味すると仮定されている。
本稿では、2つの異なるトークン分布を組み込んだ新しいトークン伝搬制御器(TPC)を提案する。
論文 参考訳(メタデータ) (2024-01-03T00:10:33Z) - Continual-MAE: Adaptive Distribution Masked Autoencoders for Continual Test-Time Adaptation [49.827306773992376]
連続的テスト時間適応(CTTA)は、ソース事前学習モデルから目標分布の連続的な変化に移行するために提案される。
提案手法は,CTTAタスクの分類とセグメンテーションの両方において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-12-19T15:34:52Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - Robust Infidelity: When Faithfulness Measures on Masked Language Models Are Misleading [5.124348720450654]
繰り返しマスキングは、それと同等のトランスフォーマーエンコーダテキスト分類器間の忠実度スコアに大きな変化をもたらすことを示す。
本稿では,反復型マスキングを用いた解釈可能性比較の原則的比較を損なうタスク固有の考察を考察する。
論文 参考訳(メタデータ) (2023-08-13T15:44:39Z) - Dynamic Alignment Mask CTC: Improved Mask-CTC with Aligned Cross Entropy [28.62712217754428]
動的アライメントMask CTCを提案する。
1) 動的プログラミングによるクロスエントロピー損失を最小限に抑えるモノトニックアライメント,(2) 動的レクリエーション, マスクをモデル予測トークンに置き換えて新しいトレーニングサンプルを作成する。
WSJ データセットを用いた実験により,AXE の損失だけでなく,修正法により Mask CTC の WER 性能が向上することが示された。
論文 参考訳(メタデータ) (2023-03-14T08:01:21Z) - Token-Label Alignment for Vision Transformers [93.58540411138164]
データ混合戦略(例えば、CutMix)は、畳み込みニューラルネットワーク(CNN)の性能を大幅に改善する能力を示している。
我々は,データ混合戦略の可能性を抑制するトークン変動現象を同定する。
本稿では,各トークンのラベルを保持するために,変換されたトークンと元のトークンとの対応をトレースするトークンラベルアライメント(TL-Align)手法を提案する。
論文 参考訳(メタデータ) (2022-10-12T17:54:32Z) - Adaptive Sparse ViT: Towards Learnable Adaptive Token Pruning by Fully
Exploiting Self-Attention [36.90363317158731]
最小限のコストで適応的なスパーストークンプルーニングフレームワークを提案する。
提案手法では,DeiT-Sのスループットを50%向上し,トップ1の精度は0.2%低下した。
論文 参考訳(メタデータ) (2022-09-28T03:07:32Z) - Disentangling Representations of Text by Masking Transformers [27.6903196190087]
トランスウェイトや隠れたユニット上のバイナリマスクを学習し、特定の変動要因と相関する特徴のサブセットを明らかにします。
本稿では,映画評論における感情表現をジャンルから切り離す能力,つぶやきにおける方言からの「毒性」,意味論からの構文について評価する。
論文 参考訳(メタデータ) (2021-04-14T22:45:34Z) - Meta Transition Adaptation for Robust Deep Learning with Noisy Labels [61.8970957519509]
本研究では,新しいメタ遷移学習戦略を提案する。
具体的には、クリーンなラベル付きメタデータの小さなセットのサウンドガイダンスにより、ノイズ遷移行列と分類器パラメータを相互に改善することができる。
本手法は, 従来技術よりも頑健な性能で, 遷移行列をより正確に抽出することができる。
論文 参考訳(メタデータ) (2020-06-10T07:27:25Z) - Masking as an Efficient Alternative to Finetuning for Pretrained
Language Models [49.64561153284428]
我々は、微調整によって修正する代わりに、事前訓練された重量に対する選択的な二乗マスクを学習する。
内在的評価では、マスキング言語モデルによって計算された表現が、下流タスクの解決に必要な情報を符号化していることを示す。
論文 参考訳(メタデータ) (2020-04-26T15:03:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。