論文の概要: Sequence Length is a Domain: Length-based Overfitting in Transformer
Models
- arxiv url: http://arxiv.org/abs/2109.07276v1
- Date: Wed, 15 Sep 2021 13:25:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-16 15:05:14.010981
- Title: Sequence Length is a Domain: Length-based Overfitting in Transformer
Models
- Title(参考訳): シーケンス長はドメインである:トランスフォーマーモデルにおける長さに基づくオーバーフィッティング
- Authors: Du\v{s}an Vari\v{s} and Ond\v{r}ej Bojar
- Abstract要約: 機械翻訳において、ニューラルベースシステムは、前回のフレーズベースの翻訳アプローチと比較して非常に長いシーケンスでより良く動作する。
実験結果から, 実験結果から得られた実験結果から, 観測結果の減少は, 入力シーケンスの長さではなく, 学習中のモデルで見られる長さに対応する仮説長が原因であることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based sequence-to-sequence architectures, while achieving
state-of-the-art results on a large number of NLP tasks, can still suffer from
overfitting during training. In practice, this is usually countered either by
applying regularization methods (e.g. dropout, L2-regularization) or by
providing huge amounts of training data. Additionally, Transformer and other
architectures are known to struggle when generating very long sequences. For
example, in machine translation, the neural-based systems perform worse on very
long sequences when compared to the preceding phrase-based translation
approaches (Koehn and Knowles, 2017).
We present results which suggest that the issue might also be in the mismatch
between the length distributions of the training and validation data combined
with the aforementioned tendency of the neural networks to overfit to the
training data. We demonstrate on a simple string editing task and a machine
translation task that the Transformer model performance drops significantly
when facing sequences of length diverging from the length distribution in the
training data. Additionally, we show that the observed drop in performance is
due to the hypothesis length corresponding to the lengths seen by the model
during training rather than the length of the input sequence.
- Abstract(参考訳): トランスフォーマーベースのシーケンス・ツー・シーケンスアーキテクチャは、多くのNLPタスクで最先端の結果を達成する一方で、トレーニング中に過度な適合に悩まされる可能性がある。
実際には、これは通常、正規化法(例えば、ドロップアウト、l2-正規化)を適用するか、大量のトレーニングデータを提供することで対処される。
さらにTransformerや他のアーキテクチャは、非常に長いシーケンスを生成するのに苦労することが知られている。
例えば、機械翻訳では、前回のフレーズベースの翻訳アプローチ(Koehn and Knowles, 2017)と比較して、ニューラルネットワークシステムは非常に長いシーケンスでより良く動作する。
本報告では,トレーニングデータの長さ分布と検証データとのミスマッチとニューラルネットワークがトレーニングデータに過剰に適合する傾向との相関が問題となる可能性を示唆する。
トレーニングデータ中の長さ分布から分岐する長さ列に直面すると,トランスフォーマーモデルの性能が著しく低下する,単純な文字列編集タスクと機械翻訳タスクを実証する。
また,実測結果の低下は,入力列の長さではなく,モデルがトレーニング中に見た長さに対応する仮説長によるものであることを示した。
関連論文リスト
- Rough Transformers: Lightweight Continuous-Time Sequence Modelling with Path Signatures [46.58170057001437]
本稿では,入力シーケンスの連続時間表現で動作するトランスフォーマーモデルのバリエーションであるRough Transformerを紹介する。
様々な時系列関連タスクにおいて、Rough Transformersはベニラアテンションよりも常に優れています。
論文 参考訳(メタデータ) (2024-05-31T14:00:44Z) - Dataset Decomposition: Faster LLM Training with Variable Sequence Length Curriculum [30.46329559544246]
本稿では,新しい可変シーケンス長トレーニング手法であるデータセット分解を導入する。
ベースラインアプローチでトレーニングした2kコンテキスト長モデルと同じコストで,8kコンテキスト長1Bモデルをトレーニングする。
ウェブスケールコーパスの実験により,我々の手法は標準言語評価や長文ベンチマークの性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-05-21T22:26:01Z) - Transformers Can Achieve Length Generalization But Not Robustly [76.06308648699357]
長さ一般化の成功は,データ形式や位置エンコーディングのタイプと密接に関連していることを示す。
標準変換器が入力長の2.5倍のシーケンス長に外挿できることを初めて示す。
論文 参考訳(メタデータ) (2024-02-14T18:18:29Z) - Addressing the Length Bias Problem in Document-Level Neural Machine
Translation [29.590471092149375]
文書レベルのニューラルマシン翻訳(DNMT)は、より多くのコンテキスト情報を組み込むことで、有望な結果を示している。
DNMTは、最大シーケンス長よりもはるかに短いか長い文書を復号する際に、翻訳品質が著しく低下する。
学習方法,注意機構,復号化戦略におけるDNMTモデルの改善を提案する。
論文 参考訳(メタデータ) (2023-11-20T08:29:52Z) - LongNet: Scaling Transformers to 1,000,000,000 Tokens [146.4077038371075]
LongNetはTransformerの変種で、シーケンス長を10億以上のトークンに拡張できる。
我々の研究は、例えば、コーパス全体やインターネット全体をシーケンスとして扱うなど、非常に長いシーケンスをモデリングする新たな可能性を開く。
論文 参考訳(メタデータ) (2023-07-05T17:59:38Z) - Causal Transformer for Estimating Counterfactual Outcomes [18.640006398066188]
多くのアプリケーションでは、観測データから時間とともに反現実的な結果を予測することが重要となる。
我々は、時間とともに反現実的な結果を予測するための新しい因果変換器を開発した。
私たちのモデルは、時間によって異なる共同設立者間の複雑な長距離依存関係をキャプチャするために特別に設計されています。
論文 参考訳(メタデータ) (2022-04-14T22:40:09Z) - ChunkFormer: Learning Long Time Series with Multi-stage Chunked
Transformer [0.0]
オリジナルトランスフォーマーベースのモデルは、シーケンスに沿ったグローバル情報を検出するためのアテンションメカニズムを採用している。
ChunkFormerは、長いシーケンスを注意計算のために小さなシーケンスチャンクに分割する。
このようにして、提案モデルは、入力シーケンスの総長を変更することなく、局所情報と大域情報の両方を徐々に学習する。
論文 参考訳(メタデータ) (2021-12-30T15:06:32Z) - Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。
線形複雑リカレント変種は自己回帰生成に適していることが証明されている。
この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文 参考訳(メタデータ) (2021-03-24T10:50:43Z) - Length-Adaptive Transformer: Train Once with Length Drop, Use Anytime
with Search [84.94597821711808]
我々は,PoWER-BERT(Goyal et al., 2020)を拡張し,一発訓練後に様々な推論シナリオに使用できる長適応変換器を提案する。
我々は,任意の計算予算の下で,精度を最大化し,効率の指標を最小化する長さ構成を求めるために,多目的進化探索を行う。
提案手法の有効性を実証的に検証し,各種設定下での精度・効率のトレードオフを実証する。
論文 参考訳(メタデータ) (2020-10-14T12:28:08Z) - On Long-Tailed Phenomena in Neural Machine Translation [50.65273145888896]
最先端のニューラルネットワーク翻訳(NMT)モデルは、低周波トークンの生成に苦労する。
条件付きテキスト生成における構造的依存関係にモデルトレーニングを適応させるために,新たな損失関数である反焦点損失を提案する。
提案手法は,複数の機械翻訳(MT)データセットに対して有効であり,クロスエントロピーよりも顕著に向上することを示す。
論文 参考訳(メタデータ) (2020-10-10T07:00:57Z) - Spike-Triggered Non-Autoregressive Transformer for End-to-End Speech
Recognition [66.47000813920617]
エンドツーエンド音声認識のためのスパイクトリガー付き非自己回帰変換器モデルを提案する。
提案モデルでは,ターゲット列の長さを正確に予測し,競合性能を実現する。
このモデルは0.0056のリアルタイム係数も達成しており、全ての主流音声認識モデルを超えている。
論文 参考訳(メタデータ) (2020-05-16T08:27:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。