Fugu-MT 論文翻訳(概要): Token-Level Fitting Issues of Seq2seq Models

論文の概要: Token-Level Fitting Issues of Seq2seq Models

arxiv url: http://arxiv.org/abs/2305.04493v2
Date: Thu, 22 Jun 2023 07:42:08 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-23 17:11:38.100208
Title: Token-Level Fitting Issues of Seq2seq Models
Title（参考訳）: Seq2seqモデルのトークンレベルフィッティング問題
Authors: Guangsheng Bao, Zhiyang Teng, Yue Zhang
Abstract要約: シーケンス・ツー・シーケンス(seq2seq)モデルは自然言語処理、コンピュータビジョン、その他のディープラーニングタスクに広く使われている。早期停止でトレーニングされたSeq2seqモデルはトークンレベルでの問題に悩まされていることがわかった。
参考スコア（独自算出の注目度）: 15.81037035729968
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Sequence-to-sequence (seq2seq) models have been widely used for natural language processing, computer vision, and other deep learning tasks. We find that seq2seq models trained with early-stopping suffer from issues at the token level. In particular, while some tokens in the vocabulary demonstrate overfitting, others underfit when training is stopped. Experiments show that the phenomena are pervasive in different models, even in fine-tuned large pretrained-models. We identify three major factors that influence token-level fitting, which include token frequency, parts-of-speech, and prediction discrepancy. Further, we find that external factors such as language, model size, domain, data scale, and pretraining can also influence the fitting of tokens.
Abstract（参考訳）: sequence-to-sequence(seq2seq)モデルは、自然言語処理、コンピュータビジョン、その他のディープラーニングタスクに広く使われている。早期停止でトレーニングされたSeq2seqモデルはトークンレベルでの問題に悩まされていることがわかった。特に、語彙のいくつかのトークンが過剰適合を示す一方で、トレーニングが停止された場合に不適合なトークンもある。実験により、この現象は、微調整された大きな事前訓練モデルであっても、異なるモデルで広まることが示された。トークンレベルの適合性に影響を与える3つの主要な要因を明らかにする。さらに,言語やモデルサイズ,ドメイン,データスケール,事前トレーニングといった外部要因もトークンの適合性に影響を与える可能性がある。

関連論文リスト

A Variational Framework for Improving Naturalness in Generative Spoken Language Models [52.673912922590866]
本稿では,連続した音声属性をエンコードして意味的トークンを拡張できるエンドツーエンドの変分手法を提案する。提案手法は,手動によるパラ言語的特徴の抽出と選択の必要性を排除している。ヒトの発声者に応じて、好意的な発話継続を生産する。
論文参考訳（メタデータ） (2025-06-17T17:58:17Z)
Pretraining Language Models to Ponder in Continuous Space [50.52734567589996]
単一のトークン生成ステップ内で,前処理を繰り返し呼び出すことによって,この思考プロセスを言語モデルに導入する。人間のアノテーションを使わずに、自己教師付き学習を通じて、この方法でモデルを学習できることが示される。
論文参考訳（メタデータ） (2025-05-27T03:47:33Z)
The Fair Language Model Paradox [19.439996884827448]
大規模言語モデル(LLM)は現実世界のアプリケーションに広くデプロイされているが、トークンレベルでのトレーニングダイナミクスについてはほとんど知られていない。重みの減衰が増加するにつれて、低周波トークンは不均等に劣化することを示す。これらの無視された低周波トークンは、ほとんどの言語におけるトークン分布の大部分を表わしているため、これは特に関係している。
論文参考訳（メタデータ） (2024-10-15T18:47:12Z)
On the Proper Treatment of Tokenization in Psycholinguistics [53.960910019072436]
論文は、トークンレベルの言語モデルは、精神言語学研究で使用される前に、文字レベルの言語モデルにマージ化されるべきであると主張している。興味領域自体のサブプライムよりも心理学的予測が優れている様々な焦点領域を見いだす。
論文参考訳（メタデータ） (2024-10-03T17:18:03Z)
Answer, Assemble, Ace: Understanding How LMs Answer Multiple Choice Questions [103.20281438405111]
MCQA(Multiple-choice Question answering)は、高性能トランスフォーマー言語モデルのキーコンピテンスである。我々は,正解を予測するための関連情報をエンコードするキー隠れ状態のローカライズに語彙予測とアクティベーションパッチ手法を用いる。後続の層は語彙空間における予測応答記号の確率を増大させ、この確率の増加は、特異な役割を持つ注目ヘッドのスパースセットと関連していることを示す。
論文参考訳（メタデータ） (2024-07-21T00:10:23Z)
Fishing for Magikarp: Automatically Detecting Under-trained Tokens in Large Language Models [4.165536532090932]
言語モデルにおけるトークン作成とモデルトレーニングの切り離しにより、悪名高いSolidGoldMagikarpトークンのような特定の入力が不要なモデル動作を引き起こす。本稿では,大規模言語モデルトークン化器の包括的解析,特に未学習トークンの検出を対象とする。そこで我々は,トークン分析,モデルウェイトベースインジケータ,およびプロンプト技術の組み合わせにより,これらの問題のあるトークンを自動的に検出する新規かつ効果的な手法を開発した。
論文参考訳（メタデータ） (2024-05-08T20:37:56Z)
IMO: Greedy Layer-Wise Sparse Representation Learning for Out-of-Distribution Text Classification with Pre-trained Models [56.10157988449818]
本研究は,モデルが1つのソースドメイン上でトレーニングされ,トレーニング中に見つからない複数のターゲットドメイン上でテストされる領域一般化の特定の問題に焦点を当てる。 Invariant features Masks for Out-of-Distribution text classification, to achieve OOD generalization by learning invariant features。
論文参考訳（メタデータ） (2024-04-21T02:15:59Z)
In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文参考訳（メタデータ） (2024-01-23T18:59:21Z)
MiLe Loss: a New Loss for Mitigating the Bias of Learning Difficulties in Generative Language Models [40.992566245706996]
トークンによる学習難易度を緩和するMiLe Loss関数を提案する。我々は468M,1.2B,6.7Bパラメータの異なるスケールで生成言語モデルを訓練する。実験により、提案されたMiLe Lossを組み込んだモデルが下流ベンチマークで一貫したパフォーマンス向上を達成できることが明らかになった。
論文参考訳（メタデータ） (2023-10-30T13:33:21Z)
Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。異なるサイズの言語モデルは事前学習中にどのように学習するか? より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文参考訳（メタデータ） (2022-12-19T19:16:29Z)
Robustness of Demonstration-based Learning Under Limited Data Scenario [54.912936555876826]
実証に基づく学習は、限られたデータシナリオ下で事前訓練された言語モデルの能力を刺激する大きな可能性を示している。実演と予測の間に明確な整合性がないため、なぜこのような実演が学習プロセスに有益なのかは不明だ。本稿では,実証に基づくシーケンスラベリングの頑健さを深く掘り下げるために,標準情報から直感的に有用な情報を徐々に取り除き,病理デモを設計する。
論文参考訳（メタデータ） (2022-10-19T16:15:04Z)
Quark: Controllable Text Generation with Reinforced Unlearning [68.07749519374089]
大規模言語モデルは、しばしばユーザの期待に合わない振る舞いを学ぶ。本稿では,(不必要な)特性を定量化する報酬関数を最適化するアルゴリズムQuarkを紹介する。未学習の毒性、ネガティブな感情、反復について、我々の実験はQuarkが強いベースラインと最先端の強化学習法の両方より優れていることを示している。
論文参考訳（メタデータ） (2022-05-26T21:11:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。