論文の概要: Token-Level Fitting Issues of Seq2seq Models
- arxiv url: http://arxiv.org/abs/2305.04493v2
- Date: Thu, 22 Jun 2023 07:42:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-23 17:11:38.100208
- Title: Token-Level Fitting Issues of Seq2seq Models
- Title(参考訳): Seq2seqモデルのトークンレベルフィッティング問題
- Authors: Guangsheng Bao, Zhiyang Teng, Yue Zhang
- Abstract要約: シーケンス・ツー・シーケンス(seq2seq)モデルは自然言語処理、コンピュータビジョン、その他のディープラーニングタスクに広く使われている。
早期停止でトレーニングされたSeq2seqモデルはトークンレベルでの問題に悩まされていることがわかった。
- 参考スコア(独自算出の注目度): 15.81037035729968
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sequence-to-sequence (seq2seq) models have been widely used for natural
language processing, computer vision, and other deep learning tasks. We find
that seq2seq models trained with early-stopping suffer from issues at the token
level. In particular, while some tokens in the vocabulary demonstrate
overfitting, others underfit when training is stopped. Experiments show that
the phenomena are pervasive in different models, even in fine-tuned large
pretrained-models. We identify three major factors that influence token-level
fitting, which include token frequency, parts-of-speech, and prediction
discrepancy. Further, we find that external factors such as language, model
size, domain, data scale, and pretraining can also influence the fitting of
tokens.
- Abstract(参考訳): sequence-to-sequence(seq2seq)モデルは、自然言語処理、コンピュータビジョン、その他のディープラーニングタスクに広く使われている。
早期停止でトレーニングされたSeq2seqモデルはトークンレベルでの問題に悩まされていることがわかった。
特に、語彙のいくつかのトークンが過剰適合を示す一方で、トレーニングが停止された場合に不適合なトークンもある。
実験により、この現象は、微調整された大きな事前訓練モデルであっても、異なるモデルで広まることが示された。
トークンレベルの適合性に影響を与える3つの主要な要因を明らかにする。
さらに,言語やモデルサイズ,ドメイン,データスケール,事前トレーニングといった外部要因もトークンの適合性に影響を与える可能性がある。
関連論文リスト
- Code Representation Learning At Scale [75.04686476303436]
2段階の事前学習スキームを用いて,大量のコードデータを用いてコード表現学習を行う。
まず、マスキング言語モデリングにおけるランダム性と、プログラミング言語の構造的側面の両方を活用して、エンコーダを訓練する。
そして、教師なしの方法で強陰性かつ強正に構築された対照的な学習を通して表現を強化する。
論文 参考訳(メタデータ) (2024-02-02T22:19:15Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - MiLe Loss: a New Loss for Mitigating the Bias of Learning Difficulties
in Generative Language Models [42.758124524703895]
トークンによる学習難易度を緩和するMiLe Loss関数を提案する。
我々は468M,1.2B,6.7Bパラメータの異なるスケールで生成言語モデルを訓練する。
実験により、提案されたMiLe Lossを組み込んだモデルが下流ベンチマークで一貫したパフォーマンス向上を達成できることが明らかになった。
論文 参考訳(メタデータ) (2023-10-30T13:33:21Z) - Unveiling Multilinguality in Transformer Models: Exploring Language
Specificity in Feed-Forward Networks [12.7259425362286]
多言語モデルがキー値記憶をどのように活用するかを検討する。
2つ以上の言語で訓練された自己回帰モデルに対して、すべてのニューロン(層全体)は全ての言語に等しく反応するのか?
その結果,ネットワークの入力や出力に最も近い層は,中間層に比べて言語固有の振る舞いを示す傾向があることがわかった。
論文 参考訳(メタデータ) (2023-10-24T06:45:00Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - On the Compositional Generalization Gap of In-Context Learning [73.09193595292233]
In-distriion (ID) と Out-of-distriion (OOD) の相違について考察する。
我々は,3つの意味解析データセットを用いて,OPT,BLOOM,CodeGen,Codexの4つのモデルファミリを評価する。
論文 参考訳(メタデータ) (2022-11-15T19:56:37Z) - Robustness of Demonstration-based Learning Under Limited Data Scenario [54.912936555876826]
実証に基づく学習は、限られたデータシナリオ下で事前訓練された言語モデルの能力を刺激する大きな可能性を示している。
実演と予測の間に明確な整合性がないため、なぜこのような実演が学習プロセスに有益なのかは不明だ。
本稿では,実証に基づくシーケンスラベリングの頑健さを深く掘り下げるために,標準情報から直感的に有用な情報を徐々に取り除き,病理デモを設計する。
論文 参考訳(メタデータ) (2022-10-19T16:15:04Z) - Induced Natural Language Rationales and Interleaved Markup Tokens Enable
Extrapolation in Large Language Models [8.166629393064097]
トレーニング例として提示されるものよりも長いシーケンスの予測を行う能力は、ディープラーニングモデルにとって難しい問題である。
最近の研究は、この制限が最先端のTransformerベースのモデルで持続していることを示している。
大規模言語モデルがアーキテクチャや訓練手順を変更することなく外挿に成功できることを実証する。
論文 参考訳(メタデータ) (2022-08-24T11:25:27Z) - Quark: Controllable Text Generation with Reinforced Unlearning [68.07749519374089]
大規模言語モデルは、しばしばユーザの期待に合わない振る舞いを学ぶ。
本稿では,(不必要な)特性を定量化する報酬関数を最適化するアルゴリズムQuarkを紹介する。
未学習の毒性、ネガティブな感情、反復について、我々の実験はQuarkが強いベースラインと最先端の強化学習法の両方より優れていることを示している。
論文 参考訳(メタデータ) (2022-05-26T21:11:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。