論文の概要: When Informal Text Breaks NLI: Tokenization Failure, Distribution Shift, and Targeted Mitigations
- arxiv url: http://arxiv.org/abs/2604.16787v1
- Date: Sat, 18 Apr 2026 02:23:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.173988
- Title: When Informal Text Breaks NLI: Tokenization Failure, Distribution Shift, and Targeted Mitigations
- Title(参考訳): インフォーマルテキストがNLIを破る: トークン化失敗, 流通シフト, ターゲット化
- Authors: Avinash Goutham Aluguvelly,
- Abstract要約: SNLIおよびMultiNLIに適用した4つの変換に対して,非公式な表面形状がNLIの精度を劣化させるかを検討した。
Emojiは、コンテンツワードをELECTRAのWordPieceトークンーが[UNK]にマップするUnicode文字に置き換え、学習したパラメータがそれを見る前に入力信号を破壊する。
ノイズトークン(キャップなし、デッドサスなし、tbh)は完全な語彙であるが、NLIトレーニングデータにはない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study how informal surface forms degrade NLI accuracy in ELECTRA-small (14M) and RoBERTa-large (355M) across four transforms applied to SNLI and MultiNLI: slang substitution, emoji replacement, Gen-Z filler tokens, and their combination. Slang substitution (replacing formal words with informal equivalents, e.g., "going to" -> "gonna", "friend" -> "homie") causes minimal degradation (at most 1.1pp): slang vocabulary falls largely within WordPiece coverage, so the tokenizer handles it without signal loss. Emoji replaces content words with Unicode characters that ELECTRA's WordPiece tokenizer maps to [UNK], destroying the input signal before any learned parameters see it (93.6% of emoji examples contain at least one [UNK], mean 2.91 per example). Noise tokens (no cap, deadass, tbh) are fully in-vocabulary but absent from NLI training data, consistent with the model assigning them inferential weight they do not carry. The two failure modes respond to different interventions: preprocessing recovers emoji accuracy by normalizing text before tokenization; augmentation handles noise by exposing the model to noise-bearing examples during training. A hybrid of both achieves 88.93% on the combined variant for ELECTRA on SNLI (up from 75.88%), with no statistically significant drop on clean text. Against GPT-4o-mini zero-shot, unmitigated ELECTRA is significantly worse on transformed variants (p < 0.0001); hybrid ELECTRA surpasses it across all SNLI variants and reaches statistical parity on MultiNLI.
- Abstract(参考訳): ELECTRA-small (14M) およびRoBERTa-large (355M) において, SNLIおよびMultiNLIに適用される4つの変換(スラング置換, 絵文字置換, Gen-Zフィラートークン, およびそれらの組み合わせ)において, 表面形状がNLIの精度を低下させるかを検討した。
Slangの置換(例: "going to" -> "gonna", "friend" -> "homie")は最小限の劣化(少なくとも1.1pp)を引き起こす。
Emojiは、コンテンツワードをELECTRAのWordPieceトークンーが[UNK]にマップするUnicode文字に置き換え、学習パラメータがそれを見る前に入力信号を破棄する(絵文字の93.6%には少なくとも1つの[UNK]が含まれており、例当たり2.91である)。
ノイズトークン(キャップなし、デッドサスなし、tbh)は完全な語彙であるが、NLIトレーニングデータにはない。
事前処理は、トークン化前のテキストを正規化することで絵文字の精度を回復する。
両者のハイブリッドはSNLI上のELECTRAの組み合わせ版(75.88%から)で88.93%を達成し、クリーンテキストに統計的に有意な減少はない。
GPT-4o-miniゼロショットに対して、未緩和のELECTRAは変換された変種(p < 0.0001)では著しく悪化する。
関連論文リスト
- LiteToken: Removing Intermediate Merge Residues From BPE Tokenizers [76.59130257385826]
BPE語彙の中間的なマージ残基は、マージ学習中にしばしば見られ、最終語彙に保持されるが、ほとんどは、トークン化剤の使用中にコーパスをトークン化するときに、さらにマージされる。
本稿では, この現象を, 一般的に使用されているトークン化剤にまたがって系統的に評価し, 残留トークンを除去する簡単な方法である LiteToken を紹介する。
実験によると、LiteTokenはトークンの断片化を減らし、パラメータを減らし、全体的なパフォーマンスを保ちながら、ノイズやスペル入力への堅牢性を改善する。
論文 参考訳(メタデータ) (2026-02-04T16:19:05Z) - Universal Adversarial Suffixes Using Calibrated Gumbel-Softmax Relaxation [9.099589602551573]
我々は,任意の入力に付加されたユニバーサル逆接接尾辞について検討し,タスクやモデル間での精度を広く低減する。
提案手法は,Gumbel-Softmax 緩和を用いた微分可能な「ソフト」形式で接尾辞を学習し,推論のために識別する。
あるモデルで訓練された1つの接尾辞は、他のモデルに効果的に転送され、常に精度と精度の調整の両方を低下させる。
論文 参考訳(メタデータ) (2025-12-09T00:03:39Z) - Tokens with Meaning: A Hybrid Tokenization Approach for NLP [0.2826977330147589]
自然言語処理(NLP)におけるトークン化の役割
規則に基づく形態素解析と統計的サブワードセグメンテーションを組み合わせたハイブリッドトークン化フレームワークを提案する。
本手法は, 音韻正規化, ルートアフィックス, および形態素保存と語彙効率のバランスをとる新しいアルゴリズムを用いる。
論文 参考訳(メタデータ) (2025-08-19T22:17:42Z) - Small Edits, Big Consequences: Telling Good from Bad Robustness in Large Language Models [0.0]
大きな言語モデル(LLM)が、ひとつの単語の誤読が安全性を損なう可能性があるような設定でコードを書くようになりました。
有用な堅牢性と有害な不感度の開始点を調査するために、50のLeetCode問題をコンパイルし、3つの最小限の急激な摂動を発生させる。
3つの「推論チューニング」バージョンを含む6つのフロンティアモデルにより、各変更プロンプトが解決される。
論文 参考訳(メタデータ) (2025-07-15T03:22:07Z) - Sampling from Your Language Model One Byte at a Time [82.71473348639489]
トークン化は、PBP(Prompt Boundary Problem)として知られるモデル世代に歪みをもたらす可能性がある。
BPEトークン化器を用いて任意のオートレ LM を文字レベルまたはバイトレベル LM に変換する推論時間法を提案する。
提案手法は, PBPを効率的に解き, 異なるトークン化器で言語モデルの語彙を統一することができる。
論文 参考訳(メタデータ) (2025-06-17T02:37:04Z) - TokAlign: Efficient Vocabulary Adaptation via Token Alignment [41.59130966729569]
トークン化は、大規模言語モデル(LLM)がテキストを処理するための基本的なステップである。
新しいドメインや言語では、トークン化の非効率性はLLMのトレーニングと生成を遅くする。
トークン共起ビューからLLMの語彙を置き換えるために,TokAlignという効率的な手法を提案する。
論文 参考訳(メタデータ) (2025-06-04T03:15:57Z) - SuperBPE: Space Travel for Language Models [103.09169510391972]
我々は、単純なプリトークン化カリキュラムをバイトペア符号化(BPE)アルゴリズムに組み込んだ「スーパーワード」トークンライザ「SuperBPE」を導入する。
SuperBPEは、固定されたテキストを符号化し、平均してBPEよりもトークンが最大33%少ない。
我々のモデルは、30の下流タスクにわたるBPEベースラインに対して平均+4.0%の絶対的な改善を達成している。
論文 参考訳(メタデータ) (2025-03-17T17:53:23Z) - RALL-E: Robust Codec Language Modeling with Chain-of-Thought Prompting for Text-to-Speech Synthesis [84.57932472551889]
RALL-Eは、音声合成のための堅牢な言語モデリング手法である。
RALL-Eは、ゼロショットTSのWERを、それぞれ5.6%$(リランクなし)から2.5%$と1.0%$に改善した。
論文 参考訳(メタデータ) (2024-04-04T05:15:07Z) - A Token-level Contrastive Framework for Sign Language Translation [9.185037439012952]
手話翻訳は、聴覚障害者と聴覚障害者のコミュニケーションギャップを埋める有望な技術である。
トークンレベルの新しい ConSLT を提案する。
textbfSign textbfLanguage用のコントラスト学習フレームワーク。
textbf翻訳。
論文 参考訳(メタデータ) (2022-04-11T07:33:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。