論文の概要: Memorization-Compression Cycles Improve Generalization
- arxiv url: http://arxiv.org/abs/2505.08727v1
- Date: Tue, 13 May 2025 16:37:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.674755
- Title: Memorization-Compression Cycles Improve Generalization
- Title(参考訳): 記憶-圧縮サイクルが一般化を改善する
- Authors: Fangyuan Yu,
- Abstract要約: 我々は,データスケーリングだけでなく,内部表現の圧縮によって一般化が向上することが理論的に証明されている。
記憶と圧縮の位相を切り替える学習アルゴリズムであるGAPTを提案する。
破滅的な忘れをシミュレートするように設計された設定では、GAPTは表現を圧縮して分離することで干渉を低減し、分離の97%の改善を達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We prove theoretically that generalization improves not only through data scaling but also by compressing internal representations. To operationalize this insight, we introduce the Information Bottleneck Language Modeling (IBLM) objective, which reframes language modeling as a constrained optimization problem: minimizing representation entropy subject to optimal prediction performance. Empirically, we observe an emergent memorization-compression cycle during LLM pretraining, evidenced by oscillation positive/negative gradient alignment between cross-entropy and Matrix-Based Entropy (MBE), a measure of representation entropy. This pattern closely mirrors the predictive-compressive trade-off prescribed by IBLM and also parallels the biological alternation between awake learning and sleep consolidation. Motivated by this observation, we propose Gated Phase Transition (GAPT), a training algorithm that adaptively switches between memorization and compression phases. When applied to GPT-2 pretraining on FineWeb dataset, GAPT reduces MBE by 50% and improves cross-entropy by 4.8%. GAPT improves OOD generalizatino by 35% in a pretraining task on arithmetic multiplication. In a setting designed to simulate catastrophic forgetting, GAPT reduces interference by compressing and separating representations, achieving a 97% improvement in separation - paralleling the functional role of sleep consolidation.
- Abstract(参考訳): 我々は,データスケーリングだけでなく,内部表現の圧縮によって一般化が向上することが理論的に証明されている。
この知見を運用するために,言語モデリングを制約付き最適化問題として再設計するIBLM(Information Bottleneck Language Modeling)の目的を紹介した。
実験により, 交叉エントロピーとマトリックスベースエントロピー(MBE)の発振正/負の勾配アライメントにより, LLMプレトレーニング中の初期記憶・圧縮サイクルを観察した。
このパターンは、ILBMが規定する予測的・圧縮的トレードオフをよく反映しており、覚醒学習と睡眠統合の生物学的変化と平行している。
本研究の目的は,記憶と圧縮の位相を適応的に切り替える学習アルゴリズムであるGAPT(Gated Phase Transition)を提案することである。
FineWebデータセット上のGPT-2事前トレーニングに適用すると、GAPTはMBEを50%削減し、クロスエントロピーを4.8%改善する。
GAPTは算数乗算の事前学習タスクにおいてOOD Generalizatinoを35%改善する。
破滅的な忘れをシミュレートするために設計された設定では、GAPTは表現を圧縮して分離することで干渉を減らす。
関連論文リスト
- On the Role of Surrogates in Conformal Inference of Individual Causal Effects [0.0]
UnderlineEfficient IunderlineNdividual UnderlineCausal UnderlineEffects (SCIENCE) に対する UnderlineSurrogate-assisted Underline Conformal Underline Inference を導入する。
SCIENCEは、個々の治療効果(ITE)に対してより効率的な予測間隔を構築するために設計されたフレームワークである。
これは第3相であるModerna COVE COVID-19ワクチンの臨床試験に適用される。
論文 参考訳(メタデータ) (2024-12-16T21:36:11Z) - Aiding Global Convergence in Federated Learning via Local Perturbation and Mutual Similarity Information [6.767885381740953]
分散最適化パラダイムとしてフェデレートラーニングが登場した。
本稿では,各クライアントが局所的に摂動勾配のステップを実行する,新しいフレームワークを提案する。
我々は,FedAvgと比較して,アルゴリズムの収束速度が30のグローバルラウンドのマージンとなることを示す。
論文 参考訳(メタデータ) (2024-10-07T23:14:05Z) - Learning in PINNs: Phase transition, total diffusion, and generalization [1.8802875123957965]
勾配信号-雑音比(SNR)のレンズを用いた完全連結ニューラルネットワークの学習力学について検討する。
全拡散と呼ばれる第3相を同定する」。
本稿では,情報誘起圧縮現象を考察し,全拡散相におけるアクティベーションの顕著な圧縮を示唆する。
論文 参考訳(メタデータ) (2024-03-27T12:10:30Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Understanding Augmentation-based Self-Supervised Representation Learning
via RKHS Approximation and Regression [53.15502562048627]
最近の研究は、自己教師付き学習とグラフラプラシアン作用素のトップ固有空間の近似との関係を構築している。
この研究は、増強に基づく事前訓練の統計的分析に発展する。
論文 参考訳(メタデータ) (2023-06-01T15:18:55Z) - Efficient Semi-Implicit Variational Inference [65.07058307271329]
効率的でスケーラブルな半単純外挿 (SIVI) を提案する。
本手法はSIVIの証拠を低勾配値の厳密な推測にマッピングする。
論文 参考訳(メタデータ) (2021-01-15T11:39:09Z) - How Data Augmentation affects Optimization for Linear Regression [26.61545595997111]
MSE損失を伴う線形回帰の単純凸設定における拡張効果について検討した。
この結果は任意の拡張スキームに適用され,凸条件下においても学習率と拡張率の間の複雑な相互作用が明らかになった。
論文 参考訳(メタデータ) (2020-10-21T17:46:32Z) - Pruning Redundant Mappings in Transformer Models via Spectral-Normalized
Identity Prior [54.629850694790036]
スペクトル正規化アイデンティティ事前 (SNIP) は、トランスフォーマーモデルにおける残余モジュール全体をアイデンティティマッピングに向けてペナライズする構造化プルーニング手法である。
5つのGLUEベンチマークタスクでBERTを用いて実験を行い、SNIPが同等の性能を維持しながら効率的な刈り取り結果が得られることを示した。
論文 参考訳(メタデータ) (2020-10-05T05:40:56Z) - Extreme Memorization via Scale of Initialization [72.78162454173803]
我々は,初期化の規模を変えることが,SGDによって誘導される暗黙の正規化に強く影響を与える実験装置を構築する。
一般化能力に影響を及ぼす範囲と方法が、使用したアクティベーションと損失関数に依存することがわかった。
均質なReLU活性化の場合、この挙動は損失関数に起因することが示される。
論文 参考訳(メタデータ) (2020-08-31T04:53:11Z) - IsoBN: Fine-Tuning BERT with Isotropic Batch Normalization [41.267328947683936]
微調整事前学習言語モデル(PTLM)は、自然言語理解(NLU)タスクのパフォーマンス向上のための一般的なプラクティスである。
最近の表現学習の進歩は、等方的埋め込みは、より高速な収束とより優れた一般化で下流タスクの性能を著しく向上させることができることを示している。
PTLMにおける事前学習した埋め込みの等方性は, 可視化により解析し, 標準偏差の高分散と, 寸法間の高相関の2つの主要な問題点を指摘した。
論文 参考訳(メタデータ) (2020-05-02T11:49:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。