論文の概要: Distributional Properties of Subword Regularization
- arxiv url: http://arxiv.org/abs/2408.11443v1
- Date: Wed, 21 Aug 2024 08:53:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 17:49:48.107268
- Title: Distributional Properties of Subword Regularization
- Title(参考訳): 字幕正規化の分布特性
- Authors: Marco Cognetta, Vilém Zouhar, Naoaki Okazaki,
- Abstract要約: BPEとMaxMatchは2つの人気のあるサブワードトークン化スキームであり、ドロップアウト正規化のバリエーションがある。
これらの変種は、単語ごとのトークン化の小さなセットに大きく偏っていることを示す。
既存のトークン化の側面の代替として使用するトークン化を均一に行うアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 25.824110425757198
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Subword regularization, used widely in NLP, improves model performance by reducing the dependency on exact tokenizations, augmenting the training corpus, and exposing the model to more unique contexts during training. BPE and MaxMatch, two popular subword tokenization schemes, have stochastic dropout regularization variants. However, there has not been an analysis of the distributions formed by them. We show that these stochastic variants are heavily biased towards a small set of tokenizations per word. If the benefits of subword regularization are as mentioned, we hypothesize that biasedness artificially limits the effectiveness of these schemes. Thus, we propose an algorithm to uniformly sample tokenizations that we use as a drop-in replacement for the stochastic aspects of existing tokenizers, and find that it improves machine translation quality.
- Abstract(参考訳): NLPで広く使用されているサブワード正規化は、正確なトークン化への依存を減らし、トレーニングコーパスを強化し、トレーニング中にモデルをよりユニークなコンテキストに公開することにより、モデルパフォーマンスを向上させる。
BPEとMaxMatchは2つの人気のあるサブワードトークン化スキームであり、確率的なドロップアウト正規化のバリエーションを持っている。
しかし、それらによって形成される分布の分析は行われていない。
これらの確率的変種は、単語ごとのトークン化の小さなセットに対して非常に偏りがあることが示される。
サブワード正規化の利点が前述の通りであるなら、偏りはこれらのスキームの有効性を人工的に制限する、という仮説を立てる。
そこで本稿では,既存のトークン化の確率的側面の代用として使用するトークン化を一様にサンプリングするアルゴリズムを提案する。
関連論文リスト
- An Analysis of BPE Vocabulary Trimming in Neural Machine Translation [56.383793805299234]
語彙トリミング(vocabulary trimming)は、まれなサブワードをコンポーネントサブワードに置き換える後処理のステップである。
ボキャブラリトリミングは性能向上に失敗し,さらに大きな劣化を招きやすいことを示す。
論文 参考訳(メタデータ) (2024-03-30T15:29:49Z) - Obtaining Explainable Classification Models using Distributionally
Robust Optimization [12.511155426574563]
特徴値規則の集合を用いて構築した一般化線形モデルについて検討する。
ルールセットの間隔と予測精度の間には、固有のトレードオフが存在する。
我々はこれらの競合する要因に同時に対処するルールセットの集合を学習するための新しい定式化を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:45:34Z) - Contextual Biasing with the Knuth-Morris-Pratt Matching Algorithm [45.42075576656938]
文脈バイアスとは、音声認識システムを希少な実体に偏り付ける問題を指す。
パターンマッチングのためのKnuth-Morris-Prattアルゴリズムに基づく文脈バイアスのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-29T22:50:10Z) - Regularized Vector Quantization for Tokenized Image Synthesis [126.96880843754066]
画像の離散表現への量子化は、統合生成モデリングにおける根本的な問題である。
決定論的量子化は、厳しいコードブックの崩壊と推論段階の誤調整に悩まされ、一方、量子化は、コードブックの利用率の低下と再構築の目的に悩まされる。
本稿では、2つの視点から正規化を適用することにより、上記の問題を効果的に緩和できる正規化ベクトル量子化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-11T15:20:54Z) - Alignment Entropy Regularization [13.904347165738491]
エントロピーを用いてモデルの不確実性を測定する。
許容アライメントの小さな部分集合にのみ確率質量を分配するようモデルに促すエントロピー正則化の効果を評価する。
論文 参考訳(メタデータ) (2022-12-22T18:51:02Z) - A Sparsity-promoting Dictionary Model for Variational Autoencoders [16.61511959679188]
深層生成モデルにおける潜伏空間の構造化は、より表現力のあるモデルと解釈可能な表現を得るために重要である。
本稿では,空間の空間構造をスパーシティ・プロモーティング・辞書・モデルを用いて簡易かつ効果的に構築する手法を提案する。
論文 参考訳(メタデータ) (2022-03-29T17:13:11Z) - Single Model Ensemble for Subword Regularized Models in Low-Resource
Machine Translation [25.04086897886412]
サブワード正規化は、トレーニング中に複数のサブワードセグメンテーションを使用して、ニューラルネットワーク翻訳モデルの堅牢性を改善する。
この矛盾に対処するための推論戦略を提案する。
実験結果から,提案手法はサブワード正規化を訓練したモデルの性能を向上させることが示された。
論文 参考訳(メタデータ) (2022-03-25T09:25:47Z) - Causally-motivated Shortcut Removal Using Auxiliary Labels [63.686580185674195]
このようなリスク不変予測器の学習に重要な課題はショートカット学習である。
この課題に対処するために、フレキシブルで因果的なアプローチを提案する。
この因果的動機付けされた正規化スキームが堅牢な予測子を生み出すことを理論的および実証的に示す。
論文 参考訳(メタデータ) (2021-05-13T16:58:45Z) - Squared $\ell_2$ Norm as Consistency Loss for Leveraging Augmented Data
to Learn Robust and Invariant Representations [76.85274970052762]
元のサンプルと拡張されたサンプルの埋め込み/表現の距離を規則化することは、ニューラルネットワークの堅牢性を改善するための一般的なテクニックである。
本稿では、これらの様々な正規化選択について検討し、埋め込みの正規化方法の理解を深める。
私たちが特定したジェネリックアプローチ(squared $ell$ regularized augmentation)は、それぞれ1つのタスクのために特別に設計されたいくつかの手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-11-25T22:40:09Z) - Bayesian Attention Modules [65.52970388117923]
実装や最適化が容易な,スケーラブルな注目バージョンを提案する。
本実験は,提案手法が対応するベースラインに対して一貫した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2020-10-20T20:30:55Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。