論文の概要: The Implicit Length Bias of Label Smoothing on Beam Search Decoding
- arxiv url: http://arxiv.org/abs/2205.00659v1
- Date: Mon, 2 May 2022 05:25:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-03 23:24:13.364258
- Title: The Implicit Length Bias of Label Smoothing on Beam Search Decoding
- Title(参考訳): ビーム探索復号におけるラベル平滑化の重要長バイアス
- Authors: Bowen Liang, Pidong Wang, Yuan Cao
- Abstract要約: ラベルの平滑化は出力シーケンスに長さのペナルティ項を暗黙的に適用し,短い翻訳に対してバイアスを与えることを示す。
我々は,ラベル平滑なモデル予測から不偏分布を復元するために,単純な修正関数を推論時に適用することにより,我々の理論を検証する。
この方法により、WMTの英語-ドイツ語、英語-フランス語、英語-チェコ語、英語-中国語のタスクは、ビームサイズ4で+0.3 BLEU、ビームサイズ200で+2.8 BLEUまで改善された。
- 参考スコア(独自算出の注目度): 5.965473315101112
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Label smoothing is ubiquitously applied in Neural Machine Translation (NMT)
training. While label smoothing offers a desired regularization effect during
model training, in this paper we demonstrate that it nevertheless introduces
length biases in the beam search decoding procedure. Our analysis shows that
label smoothing implicitly applies a length penalty term to output sequence,
causing a bias towards shorter translations. We also show that for a model
fully optimized with label smoothing, translation length is implicitly upper
bounded by a fixed constant independent of input. We verify our theory by
applying a simple rectification function at inference time to restore the
unbiased distributions from the label-smoothed model predictions. This
rectification method led to consistent quality improvements on WMT
English-German, English-French, English-Czech and English-Chinese tasks, up to
+0.3 BLEU at beam size 4 and +2.8 BLEU at beam size 200.
- Abstract(参考訳): ラベルの平滑化はニューラルネットワーク翻訳(NMT)トレーニングに広く応用されている。
ラベル平滑化はモデル学習において望ましい正規化効果を提供するが,本論文ではビーム探索復号法に長さバイアスを導入することを実証する。
解析の結果,ラベル平滑化は出力シーケンスに暗黙的に長さペナルティ項を適用し,短い翻訳にバイアスを生じさせることがわかった。
また,ラベル平滑化に完全最適化されたモデルでは,入力に依存しない固定定数によって翻訳長が暗黙的に上界であることを示す。
本理論は, 推定時に単純な整流関数を適用し, ラベルモースモデル予測から偏りのない分布を復元することで検証する。
この改定法により、WMT英語・フランス語・英語・チェコ語・英語・中国語のタスクは、ビームサイズ4で+0.3BLEU、ビームサイズ200で+2.8BLEUまで改善された。
関連論文リスト
- Enhancing Zero-Shot Vision Models by Label-Free Prompt Distribution Learning and Bias Correcting [55.361337202198925]
CLIPのようなヴィジュアル言語モデルは、適切なテキスト記述を使用する際に、顕著な一般化能力を示している。
本稿では,ラベル付きデータを必要としないゼロショット性能を向上する,**Frolic**と呼ばれるラベルフリーな分布学習とバイアス補正フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-25T04:00:45Z) - Mitigating Shortcuts in Language Models with Soft Label Encoding [39.601442154096986]
近年の研究では、大きな言語モデルは自然言語理解(NLU)タスクのデータに急激な相関に依存することが示されている。
我々は,ソフトラベル(Soft Label)という,シンプルで効果的な脱バイアスフレームワークを提案する。
2つのNLUベンチマークタスクの実験により、SoftLEは分布外一般化を大幅に改善することが示された。
論文 参考訳(メタデータ) (2023-09-17T21:18:02Z) - The Implicit Bias of Batch Normalization in Linear Models and Two-layer
Linear Convolutional Neural Networks [117.93273337740442]
勾配勾配勾配は、exp(-Omega(log2 t))$収束率でトレーニングデータ上の一様マージン分類器に収束することを示す。
また、バッチ正規化はパッチワイドの均一なマージンに対して暗黙の偏りを持つことを示す。
論文 参考訳(メタデータ) (2023-06-20T16:58:00Z) - Towards Fine-Grained Information: Identifying the Type and Location of
Translation Errors [80.22825549235556]
既存のアプローチでは、エラーの位置と型を同期的に考慮することはできない。
我々はtextbf の追加と textbfomission エラーを予測するために FG-TED モデルを構築した。
実験により,本モデルではエラータイプと位置の同時同定が可能であり,最先端の結果が得られた。
論文 参考訳(メタデータ) (2023-02-17T16:20:33Z) - Adaptive Label Smoothing with Self-Knowledge in Natural Language
Generation [16.878277421402945]
平滑化パラメータに動的性質をもたらす正規化スキームを提案する。
トレーニングのモデルは、前方伝播中のハエの平滑化の程度を自己制御する。
論文 参考訳(メタデータ) (2022-10-22T11:52:38Z) - Kernel-Whitening: Overcome Dataset Bias with Isotropic Sentence
Embedding [51.48582649050054]
符号化文の特徴間の相関関係を解消する表現正規化手法を提案する。
またNystromカーネル近似法であるKernel-Whiteningを提案する。
実験により,Kernel-Whiteningは分布内精度を維持しつつ,分布外データセット上でのBERTの性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2022-10-14T05:56:38Z) - Jam or Cream First? Modeling Ambiguity in Neural Machine Translation
with SCONES [10.785577504399077]
本稿では,ソフトマックスのアクティベーションを,あいまいさをより効果的にモデル化できるマルチラベル分類層に置き換えることを提案する。
SCONES損失関数を用いて,マルチラベル出力層を単一参照トレーニングデータ上でトレーニング可能であることを示す。
SCONESは、適切な翻訳に最も高い確率を割り当てるNMTモデルのトレーニングに利用できることを示す。
論文 参考訳(メタデータ) (2022-05-02T07:51:37Z) - Focus on the Target's Vocabulary: Masked Label Smoothing for Machine
Translation [25.781293857729864]
Masked Label Smoothing (MLS)は、ソース側の単語のソフトラベル確率をゼロに隠蔽する新しいメカニズムである。
実験の結果,MLSは異なるデータセット上でのラベルスムース化よりも改善することがわかった。
論文 参考訳(メタデータ) (2022-03-06T07:01:39Z) - Anticipation-free Training for Simultaneous Translation [70.85761141178597]
同時翻訳(SimulMT)は、原文が完全に利用可能になる前に翻訳を開始することで翻訳プロセスを高速化する。
既存の手法は遅延を増大させるか、SimulMTモデルに適応的な読み書きポリシーを導入し、局所的なリオーダーを処理し、翻訳品質を改善する。
本稿では,翻訳過程をモノトニック翻訳ステップと並べ替えステップに分解する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-30T16:29:37Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。