論文の概要: Unifying Grokking and Double Descent
- arxiv url: http://arxiv.org/abs/2303.06173v1
- Date: Fri, 10 Mar 2023 19:16:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 20:30:40.366474
- Title: Unifying Grokking and Double Descent
- Title(参考訳): 統一グルークキングとダブルディフレッシュ
- Authors: Xander Davies, Lauro Langosco, David Krueger
- Abstract要約: ディープラーニングにおける一般化の原則的理解は、単一の概念的枠組みの下で異なる観察を統一する必要があるかもしれない。
従来の研究は、ほぼ完璧なトレーニングパフォーマンスとニアチャンステストパフォーマンスの持続期間を最終的に一般化する訓練力学である、エンフロキングを研究してきた。
我々は、パターン学習速度の枠組みの中で、グラッキングと二重降下を同じ学習力学の例と解釈できると仮定する。
- 参考スコア(独自算出の注目度): 1.522101583951124
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A principled understanding of generalization in deep learning may require
unifying disparate observations under a single conceptual framework. Previous
work has studied \emph{grokking}, a training dynamic in which a sustained
period of near-perfect training performance and near-chance test performance is
eventually followed by generalization, as well as the superficially similar
\emph{double descent}. These topics have so far been studied in isolation. We
hypothesize that grokking and double descent can be understood as instances of
the same learning dynamics within a framework of pattern learning speeds. We
propose that this framework also applies when varying model capacity instead of
optimization steps, and provide the first demonstration of model-wise grokking.
- Abstract(参考訳): ディープラーニングにおける一般化の原則的理解は、単一の概念的枠組みの下で異なる観察を統一する必要がある。
これまでの研究では、ほぼ完全に近いトレーニングパフォーマンスとほぼ完全に近いテストパフォーマンスが最終的に一般化されるトレーニングダイナミクスである \emph{grokking} と、表面的に類似する \emph{double descend} を研究している。
これらの話題は、これまで単独で研究されてきた。
パターン学習速度のフレームワーク内で、グロッキングとダブル降下を同じ学習ダイナミクスのインスタンスとして理解することができると仮定する。
また,最適化ステップの代わりにモデルキャパシティを変更する場合にも適用し,モデルワイドグルーキングの最初の実演を行う。
関連論文リスト
- On the Generalization Ability of Unsupervised Pretraining [53.06175754026037]
教師なし学習の最近の進歩は、教師なし事前学習、および微調整がモデル一般化を改善することを示している。
本稿では、教師なし事前学習中に得られた知識の伝達可能性に影響を及ぼす重要な要因をその後の微調整フェーズに照らす新しい理論的枠組みを提案する。
この結果は教師なし事前学習と微調整のパラダイムの理解を深め、より効果的な事前学習アルゴリズムの設計に光を当てることができる。
論文 参考訳(メタデータ) (2024-03-11T16:23:42Z) - Spatiotemporal Observer Design for Predictive Learning of
High-Dimensional Data [6.214987339902511]
オブザーバ理論を指導したStemporalと呼ばれるディープラーニングアーキテクチャは、オブザーバの高次元データを予測学習するために設計されている。
このフレームワークは、一段階と多段階の両方のシナリオで正確な予測を行う時間的ダイナミクスをキャプチャすることができる。
論文 参考訳(メタデータ) (2024-02-23T12:28:31Z) - Unified View of Grokking, Double Descent and Emergent Abilities: A
Perspective from Circuits Competition [83.13280812128411]
近年の研究では、グラッキング、二重降下、大規模言語モデルにおける創発的能力など、ディープラーニングにおける興味深い現象が明らかにされている。
本稿では,記憶回路と一般化回路の競合に着目し,これら3つの現象の統一的な見方を提供する包括的枠組みを提案する。
論文 参考訳(メタデータ) (2024-02-23T08:14:36Z) - Hierarchical Decomposition of Prompt-Based Continual Learning:
Rethinking Obscured Sub-optimality [55.88910947643436]
大量のラベルのないデータを実際に扱うためには、自己教師付き事前トレーニングが不可欠である。
HiDe-Promptは、タスク固有のプロンプトと統計のアンサンブルで階層的なコンポーネントを明示的に最適化する革新的なアプローチである。
実験では,HiDe-Promptの優れた性能と,継続学習における事前学習パラダイムへの頑健さを実証した。
論文 参考訳(メタデータ) (2023-10-11T06:51:46Z) - Inverse Dynamics Pretraining Learns Good Representations for Multitask
Imitation [66.86987509942607]
このようなパラダイムを模倣学習でどのように行うべきかを評価する。
本稿では,事前学習コーパスがマルチタスクのデモンストレーションから成り立つ環境について考察する。
逆動力学モデリングはこの設定に適していると主張する。
論文 参考訳(メタデータ) (2023-05-26T14:40:46Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - Incremental Prototype Prompt-tuning with Pre-trained Representation for
Class Incremental Learning [4.717066668969749]
クラスインクリメンタルな学習は多くの注目を集めていますが、既存のほとんどの研究は、表現モデルを継続的に微調整しています。
我々は、事前学習パラダイムを用いて、固定されたセマンティックリッチな事前学習表現モデルに基づいて、新しい視覚概念を逐次学習する。
我々の手法は、多くのマージンを持つ他の最先端手法よりも一貫して優れています。
論文 参考訳(メタデータ) (2022-04-07T12:49:14Z) - Avoiding Inference Heuristics in Few-shot Prompt-based Finetuning [57.4036085386653]
文ペア分類タスクのプロンプトベースモデルでは,語彙重なりに基づく推論の一般的な落とし穴が依然として残っていることを示す。
そこで,プレトレーニングウェイトを保存する正規化を加えることは,この破壊的な微調整の傾向を緩和するのに有効であることを示す。
論文 参考訳(メタデータ) (2021-09-09T10:10:29Z) - Efficient Iterative Amortized Inference for Learning Symmetric and
Disentangled Multi-Object Representations [8.163697683448811]
本稿では,オブジェクト中心表現の教師なし学習のための効率的なフレームワークであるEfficientMORLを紹介する。
対称性と非絡み合いの両方を必要とすることによる最適化の課題は、高コスト反復的償却推論によって解決できることを示す。
標準のマルチオブジェクト・ベンチマークでは,強いオブジェクト分解と歪みを示しながら,ほぼ1桁の高速なトレーニングとテスト時間推定を実現している。
論文 参考訳(メタデータ) (2021-06-07T14:02:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。