論文の概要: The Hyperfitting Phenomenon: Sharpening and Stabilizing LLMs for Open-Ended Text Generation
- arxiv url: http://arxiv.org/abs/2412.04318v1
- Date: Thu, 05 Dec 2024 16:34:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:42:36.077366
- Title: The Hyperfitting Phenomenon: Sharpening and Stabilizing LLMs for Open-Ended Text Generation
- Title(参考訳): ハイパーフィット現象:オープンエンドテキスト生成のためのLDMのシャープ化と安定化
- Authors: Fredrik Carlsson, Fangyu Liu, Daniel Ward, Murathan Kurfali, Joakim Nivre,
- Abstract要約: 本稿では,非常に小さなデータセット上で事前学習した大規模言語モデルに過度に適合する反直感的な一般化結果を紹介する。
これらのモデルをさらに微調整して、少数のサンプルに対してほぼゼロに近いトレーニング損失を達成することによって、長いシーケンス生成能力が大幅に向上することがわかった。
- 参考スコア(独自算出の注目度): 15.904856111636851
- License:
- Abstract: This paper introduces the counter-intuitive generalization results of overfitting pre-trained large language models (LLMs) on very small datasets. In the setting of open-ended text generation, it is well-documented that LLMs tend to generate repetitive and dull sequences, a phenomenon that is especially apparent when generating using greedy decoding. This issue persists even with state-of-the-art LLMs containing billions of parameters, trained via next-token prediction on large datasets. We find that by further fine-tuning these models to achieve a near-zero training loss on a small set of samples -- a process we refer to as hyperfitting -- the long-sequence generative capabilities are greatly enhanced. Greedy decoding with these Hyperfitted models even outperform Top-P sampling over long-sequences, both in terms of diversity and human preferences. This phenomenon extends to LLMs of various sizes, different domains, and even autoregressive image generation. We further find this phenomena to be distinctly different from that of Grokking and double descent. Surprisingly, our experiments indicate that hyperfitted models rarely fall into repeating sequences they were trained on, and even explicitly blocking these sequences results in high-quality output. All hyperfitted models produce extremely low-entropy predictions, often allocating nearly all probability to a single token.
- Abstract(参考訳): 本稿では,非常に小さなデータセット上で事前学習された大規模言語モデル (LLM) を過度に適合させることによる直感的な一般化結果を紹介する。
オープンエンドテキスト生成の設定においては、LLMが反復的および鈍的シーケンスを生成する傾向があることがよく文書化されている。
この問題は、数十億のパラメータを含む最先端のLLMでさえ持続し、大規模なデータセットの次のトーケン予測を通じてトレーニングされる。
これらのモデルをさらに微調整して、少数のサンプルセット -- ハイパーフィットと呼ばれるプロセス -- に対して、ほぼゼロに近いトレーニング損失を達成することで、長いシーケンス生成能力が大幅に向上することがわかった。
これらのハイパーフィットモデルによるグレディデコーディングは、多様性と人間の嗜好の両面で、長期間にわたってトップPサンプリングよりも優れています。
この現象は、様々なサイズのLSM、異なるドメイン、さらには自己回帰画像生成にまで及ぶ。
さらに、この現象はグロキングと二重降下の現象とは大きく異なることが分かる。
驚くべきことに、我々の実験は、過適合モデルがトレーニングされた繰り返しシーケンスに陥ることは滅多になく、これらのシーケンスを明示的にブロックすることで、高品質な出力が得られます。
すべての超適合モデルは極端に低いエントロピー予測を生成し、ほとんどの確率を1つのトークンに割り当てる。
関連論文リスト
- Non-autoregressive Sequence-to-Sequence Vision-Language Models [63.77614880533488]
本稿では,デコーダ内の複数の推論経路をマージする並列デコードシーケンス・ツー・シーケンス・ビジョン言語モデルを提案する。
このモデルは最先端の自己回帰モデルと同等のパフォーマンスを実現するが、推論時間では高速である。
論文 参考訳(メタデータ) (2024-03-04T17:34:59Z) - Timer: Generative Pre-trained Transformers Are Large Time Series Models [83.03091523806668]
本稿では,大規模時系列モデル(LTSM)の早期開発を目的とした。
事前トレーニング中に、最大10億のタイムポイントを持つ大規模なデータセットをキュレートします。
多様なアプリケーションのニーズを満たすため,予測,計算,時系列の異常検出を統一的な生成タスクに変換する。
論文 参考訳(メタデータ) (2024-02-04T06:55:55Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - Mitigating the Learning Bias towards Repetition by Self-Contrastive
Training for Open-Ended Generation [92.42032403795879]
GPT2のような事前訓練された言語モデル(LM)は、繰り返しテキストを生成する傾向にあることを示す。
トークンレベルの反復確率の過大評価は学習バイアスに起因している。
LMは文レベルの繰り返しループの原因となる非繰り返しトークンよりも長い範囲依存を用いて繰り返しトークンを予測する。
論文 参考訳(メタデータ) (2023-07-04T07:53:55Z) - SequenceMatch: Imitation Learning for Autoregressive Sequence Modelling with Backtracking [60.109453252858806]
MLE(Maxum-likelihood)の目的は、高品質なシーケンスを自動回帰的に生成する下流のユースケースと一致しない。
我々は、模倣学習(IL)問題としてシーケンス生成を定式化する。
これにより、自己回帰モデルによって生成されるシーケンスの分布とデータセットからのシーケンスとの差異を最小化できる。
得られた手法であるSequenceMatchは、敵の訓練やアーキテクチャの変更なしに実装できる。
論文 参考訳(メタデータ) (2023-06-08T17:59:58Z) - A Simple Explanation for the Phase Transition in Large Language Models
with List Decoding [3.898689841227059]
大規模言語モデル(LLM)は,小モデルに存在しない創発的能力を示す。
各ステップに候補シーケンスのリストを保持するリストデコーダを使用し、最後に出力シーケンスを生成する。
論文 参考訳(メタデータ) (2023-03-23T09:00:07Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z) - Calibrating Sequence likelihood Improves Conditional Language Generation [39.35161650538767]
条件言語モデルは主に最大推定(MLE)を用いて訓練される
MLEの訓練されたモデルは、文脈が与えられた場合、高い確率を可算列に割り当てるが、モデル確率は、品質によって正確なランク順生成列を割り当てないことが多い。
本稿では,モデルの潜在空間における参照シーケンスとの整合性を高めるために,モデル生成シーケンスのキャリブレーションを行うSLiC(Sequence chance calibration)を提案する。
論文 参考訳(メタデータ) (2022-09-30T19:16:16Z) - Deep Generative model with Hierarchical Latent Factors for Time Series
Anomaly Detection [40.21502451136054]
本研究は、時系列異常検出のための新しい生成モデルであるDGHLを提示する。
トップダウンの畳み込みネットワークは、新しい階層的な潜在空間を時系列ウィンドウにマッピングし、時間ダイナミクスを利用して情報を効率的にエンコードする。
提案手法は,4つのベンチマーク・データセットにおいて,現在の最先端モデルよりも優れていた。
論文 参考訳(メタデータ) (2022-02-15T17:19:44Z) - Bayesian Inference in High-Dimensional Time-Serieswith the Orthogonal
Stochastic Linear Mixing Model [2.7909426811685893]
現代の時系列データセットの多くは、長期間にわたってサンプリングされた大量の出力応答変数を含んでいる。
本稿では,多種多様な大規模時系列データセット解析のための新しいマルコフ連鎖モンテカルロフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-25T01:12:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。