論文の概要: Characterizing and addressing the issue of oversmoothing in neural
autoregressive sequence modeling
- arxiv url: http://arxiv.org/abs/2112.08914v1
- Date: Thu, 16 Dec 2021 14:33:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-17 20:15:53.403920
- Title: Characterizing and addressing the issue of oversmoothing in neural
autoregressive sequence modeling
- Title(参考訳): 神経自己回帰配列モデリングにおけるオーバースムーシングの問題の特徴と対処
- Authors: Ilia Kulikov, Maksim Eremeev, Kyunghyun Cho
- Abstract要約: 提案手法がモデル分布と復号化性能に与える影響について検討する。
神経自己回帰モデルにおいて,過度に持続可能な短い配列が生じる主な原因は,高次スムージングが原因であると結論付けている。
- 参考スコア(独自算出の注目度): 49.06391831200667
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural autoregressive sequence models smear the probability among many
possible sequences including degenerate ones, such as empty or repetitive
sequences. In this work, we tackle one specific case where the model assigns a
high probability to unreasonably short sequences. We define the oversmoothing
rate to quantify this issue. After confirming the high degree of oversmoothing
in neural machine translation, we propose to explicitly minimize the
oversmoothing rate during training. We conduct a set of experiments to study
the effect of the proposed regularization on both model distribution and
decoding performance. We use a neural machine translation task as the testbed
and consider three different datasets of varying size. Our experiments reveal
three major findings. First, we can control the oversmoothing rate of the model
by tuning the strength of the regularization. Second, by enhancing the
oversmoothing loss contribution, the probability and the rank of <eos> token
decrease heavily at positions where it is not supposed to be. Third, the
proposed regularization impacts the outcome of beam search especially when a
large beam is used. The degradation of translation quality (measured in BLEU)
with a large beam significantly lessens with lower oversmoothing rate, but the
degradation compared to smaller beam sizes remains to exist. From these
observations, we conclude that the high degree of oversmoothing is the main
reason behind the degenerate case of overly probable short sequences in a
neural autoregressive model.
- Abstract(参考訳): ニューラル自己回帰シーケンスモデルは、空または反復配列などの退化配列を含む多くの可能なシーケンスの確率を推定する。
本研究では,モデルが不当に短いシーケンスに高い確率を割り当てる,ある特定のケースに取り組む。
我々はこの問題を定量化するための過度な緩和率を定義する。
ニューラルマシン翻訳における過密の度合いを確認した後、トレーニング中の過密の度合いを明確に抑えることを提案する。
提案する正規化がモデル分布と復号性能の両方に与える影響を調べるための一連の実験を行った。
ニューラルマシン翻訳タスクをテストベッドとして使用し,サイズの異なる3つの異なるデータセットを検討する。
我々の実験は3つの大きな発見を明らかにした。
まず,正規化の強度を調整することにより,モデルの平滑化率を制御できる。
第二に,過度な損失寄与を増大させることで,<eos>トークンの確率とランクは,その存在を想定しない位置において大幅に低下する。
第3に,提案手法は,特に大型ビームを用いた場合のビーム探索の結果に影響を及ぼす。
大ビームによる翻訳品質の劣化(BLEUで測定)は, 過スムージング速度の低下とともに著しく減少するが, ビームサイズが小さくなるほど劣化は小さい。
以上の結果から,神経自己回帰モデルにおける過度に予測可能な短周期の縮退例の背景には,高い過度な平滑化が主な原因であると結論づけた。
関連論文リスト
- The Surprising Harmfulness of Benign Overfitting for Adversarial
Robustness [13.120373493503772]
根拠的真理そのものが敵の例に対して堅牢であるとしても、標準のアウト・オブ・サンプルのリスク目標の観点から見れば、明らかに過適合なモデルは良性である、という驚くべき結果が証明されます。
我々の発見は、実際に観察されたパズリング現象に関する理論的洞察を与え、真の標的関数(例えば、人間)は副次的攻撃に対して堅牢であり、一方、当初過適合のニューラルネットワークは、堅牢でないモデルに導かれる。
論文 参考訳(メタデータ) (2024-01-19T15:40:46Z) - LARA: A Light and Anti-overfitting Retraining Approach for Unsupervised
Time Series Anomaly Detection [49.52429991848581]
深部変分自動エンコーダに基づく時系列異常検出手法(VAE)のための光・反オーバーフィット学習手法(LARA)を提案する。
本研究の目的は,1) 再学習過程を凸問題として定式化し, 過度に収束できること,2) 履歴データを保存せずに活用するルミネートブロックを設計すること,3) 潜在ベクトルと再構成データの微調整を行うと, 線形形成が基底真実と微調整されたブロックとの誤りを最小に調整できることを数学的に証明することである。
論文 参考訳(メタデータ) (2023-10-09T12:36:16Z) - Bias in Pruned Vision Models: In-Depth Analysis and Countermeasures [93.17009514112702]
ニューラルネットワークのパラメータのかなりの部分集合をゼロに設定するプルーニングは、モデル圧縮の最も一般的な方法の1つである。
この現象の既存の証拠にもかかわらず、ニューラルネットワークのプルーニングと誘導バイアスの関係はよく理解されていない。
論文 参考訳(メタデータ) (2023-04-25T07:42:06Z) - Cross-Model Comparative Loss for Enhancing Neuronal Utility in Language
Understanding [82.46024259137823]
幅広いタスクに対するクロスモデル比較損失を提案する。
3つの異なるNLUタスクから14のデータセットに対する広範な実験により比較損失の普遍的有効性を示す。
論文 参考訳(メタデータ) (2023-01-10T03:04:27Z) - On the Role of Optimization in Double Descent: A Least Squares Study [30.44215064390409]
最小二乗対象の降下勾配解に対して過大なリスクを負うことを示す。
ノイズのない回帰の場合、二重降下は最適化関連量によってのみ説明される。
ニューラルネットワークの予測が保たれているかどうかを実証的に調査する。
論文 参考訳(メタデータ) (2021-07-27T09:13:11Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Efficient Causal Inference from Combined Observational and
Interventional Data through Causal Reductions [68.6505592770171]
因果効果を推定する際の主な課題の1つである。
そこで本研究では,任意の数の高次元潜入共創者を置き換える新たな因果還元法を提案する。
パラメータ化縮小モデルを観測データと介入データから共同で推定する学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-08T14:29:07Z) - Point process models for sequence detection in high-dimensional neural
spike trains [29.073129195368235]
本研究では,個々のスパイクレベルにおける微細なシーケンスを特徴付ける点過程モデルを開発する。
この超スパースなシーケンスイベント表現は、スパイクトレインモデリングの新しい可能性を開く。
論文 参考訳(メタデータ) (2020-10-10T02:21:44Z) - The Neural Tangent Kernel in High Dimensions: Triple Descent and a
Multi-Scale Theory of Generalization [34.235007566913396]
現代のディープラーニングモデルでは、トレーニングデータに適合するために必要なパラメータよりもはるかに多くのパラメータが採用されている。
この予期せぬ振る舞いを記述するための新たなパラダイムは、エンファンダブル降下曲線(英語版)である。
本稿では,勾配降下を伴う広帯域ニューラルネットワークの挙動を特徴付けるニューラル・タンジェント・カーネルを用いた一般化の高精度な高次元解析を行う。
論文 参考訳(メタデータ) (2020-08-15T20:55:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。