論文の概要: Token-Level Fitting Issues of Seq2seq Models
- arxiv url: http://arxiv.org/abs/2305.04493v2
- Date: Thu, 22 Jun 2023 07:42:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-23 17:11:38.100208
- Title: Token-Level Fitting Issues of Seq2seq Models
- Title(参考訳): Seq2seqモデルのトークンレベルフィッティング問題
- Authors: Guangsheng Bao, Zhiyang Teng, Yue Zhang
- Abstract要約: シーケンス・ツー・シーケンス(seq2seq)モデルは自然言語処理、コンピュータビジョン、その他のディープラーニングタスクに広く使われている。
早期停止でトレーニングされたSeq2seqモデルはトークンレベルでの問題に悩まされていることがわかった。
- 参考スコア(独自算出の注目度): 15.81037035729968
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sequence-to-sequence (seq2seq) models have been widely used for natural
language processing, computer vision, and other deep learning tasks. We find
that seq2seq models trained with early-stopping suffer from issues at the token
level. In particular, while some tokens in the vocabulary demonstrate
overfitting, others underfit when training is stopped. Experiments show that
the phenomena are pervasive in different models, even in fine-tuned large
pretrained-models. We identify three major factors that influence token-level
fitting, which include token frequency, parts-of-speech, and prediction
discrepancy. Further, we find that external factors such as language, model
size, domain, data scale, and pretraining can also influence the fitting of
tokens.
- Abstract(参考訳): sequence-to-sequence(seq2seq)モデルは、自然言語処理、コンピュータビジョン、その他のディープラーニングタスクに広く使われている。
早期停止でトレーニングされたSeq2seqモデルはトークンレベルでの問題に悩まされていることがわかった。
特に、語彙のいくつかのトークンが過剰適合を示す一方で、トレーニングが停止された場合に不適合なトークンもある。
実験により、この現象は、微調整された大きな事前訓練モデルであっても、異なるモデルで広まることが示された。
トークンレベルの適合性に影響を与える3つの主要な要因を明らかにする。
さらに,言語やモデルサイズ,ドメイン,データスケール,事前トレーニングといった外部要因もトークンの適合性に影響を与える可能性がある。
関連論文リスト
- The Fair Language Model Paradox [19.439996884827448]
大規模言語モデル(LLM)は現実世界のアプリケーションに広くデプロイされているが、トークンレベルでのトレーニングダイナミクスについてはほとんど知られていない。
重みの減衰が増加するにつれて、低周波トークンは不均等に劣化することを示す。
これらの無視された低周波トークンは、ほとんどの言語におけるトークン分布の大部分を表わしているため、これは特に関係している。
論文 参考訳(メタデータ) (2024-10-15T18:47:12Z) - On the Proper Treatment of Tokenization in Psycholinguistics [53.960910019072436]
論文は、トークンレベルの言語モデルは、精神言語学研究で使用される前に、文字レベルの言語モデルにマージ化されるべきであると主張している。
興味領域自体のサブプライムよりも心理学的予測が優れている様々な焦点領域を見いだす。
論文 参考訳(メタデータ) (2024-10-03T17:18:03Z) - Fishing for Magikarp: Automatically Detecting Under-trained Tokens in Large Language Models [4.165536532090932]
言語モデルにおけるトークン作成とモデルトレーニングの切り離しにより、悪名高いSolidGoldMagikarpトークンのような特定の入力が不要なモデル動作を引き起こす。
本稿では,大規模言語モデルトークン化器の包括的解析,特に未学習トークンの検出を対象とする。
そこで我々は,トークン分析,モデルウェイトベースインジケータ,およびプロンプト技術の組み合わせにより,これらの問題のあるトークンを自動的に検出する新規かつ効果的な手法を開発した。
論文 参考訳(メタデータ) (2024-05-08T20:37:56Z) - IMO: Greedy Layer-Wise Sparse Representation Learning for Out-of-Distribution Text Classification with Pre-trained Models [56.10157988449818]
本研究は,モデルが1つのソースドメイン上でトレーニングされ,トレーニング中に見つからない複数のターゲットドメイン上でテストされる領域一般化の特定の問題に焦点を当てる。
Invariant features Masks for Out-of-Distribution text classification, to achieve OOD generalization by learning invariant features。
論文 参考訳(メタデータ) (2024-04-21T02:15:59Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - MiLe Loss: a New Loss for Mitigating the Bias of Learning Difficulties in Generative Language Models [40.992566245706996]
トークンによる学習難易度を緩和するMiLe Loss関数を提案する。
我々は468M,1.2B,6.7Bパラメータの異なるスケールで生成言語モデルを訓練する。
実験により、提案されたMiLe Lossを組み込んだモデルが下流ベンチマークで一貫したパフォーマンス向上を達成できることが明らかになった。
論文 参考訳(メタデータ) (2023-10-30T13:33:21Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Robustness of Demonstration-based Learning Under Limited Data Scenario [54.912936555876826]
実証に基づく学習は、限られたデータシナリオ下で事前訓練された言語モデルの能力を刺激する大きな可能性を示している。
実演と予測の間に明確な整合性がないため、なぜこのような実演が学習プロセスに有益なのかは不明だ。
本稿では,実証に基づくシーケンスラベリングの頑健さを深く掘り下げるために,標準情報から直感的に有用な情報を徐々に取り除き,病理デモを設計する。
論文 参考訳(メタデータ) (2022-10-19T16:15:04Z) - Quark: Controllable Text Generation with Reinforced Unlearning [68.07749519374089]
大規模言語モデルは、しばしばユーザの期待に合わない振る舞いを学ぶ。
本稿では,(不必要な)特性を定量化する報酬関数を最適化するアルゴリズムQuarkを紹介する。
未学習の毒性、ネガティブな感情、反復について、我々の実験はQuarkが強いベースラインと最先端の強化学習法の両方より優れていることを示している。
論文 参考訳(メタデータ) (2022-05-26T21:11:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。