Fugu-MT 論文翻訳(概要): Grokking vs. Learning: Same Features, Different Encodings

論文の概要: Grokking vs. Learning: Same Features, Different Encodings

arxiv url: http://arxiv.org/abs/2502.01739v1
Date: Mon, 03 Feb 2025 19:00:02 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-05 15:21:55.632944
Title: Grokking vs. Learning: Same Features, Different Encodings
Title（参考訳）: Grokking vs. Learning: 同じ機能,異なるエンコーディング
Authors: Dmitry Manning-Coe, Jacopo Gliozzi, Alexander G. Stapleton, Edward Hirst, Giuseppe De Tomasi, Barry Bradlyn, David S. Berman,
Abstract要約: グラクテッドモデルと着実に訓練されたモデルは、同じ特徴を学習するが、これらの特徴が符号化される効率に大きな違いがある可能性がある。特に, モデル損失と圧縮性の間に線形トレードオフが生じるような, 定常学習の新たな「圧縮的体制」を見いだす。グルーキングにおけるモデル開発はタスク依存であり,グルーキング高原の直後にピーク圧縮性が達成されることを示す。
参考スコア（独自算出の注目度）: 36.136619420474766
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Grokking typically achieves similar loss to ordinary, "steady", learning. We ask whether these different learning paths - grokking versus ordinary training - lead to fundamental differences in the learned models. To do so we compare the features, compressibility, and learning dynamics of models trained via each path in two tasks. We find that grokked and steadily trained models learn the same features, but there can be large differences in the efficiency with which these features are encoded. In particular, we find a novel "compressive regime" of steady training in which there emerges a linear trade-off between model loss and compressibility, and which is absent in grokking. In this regime, we can achieve compression factors 25x times the base model, and 5x times the compression achieved in grokking. We then track how model features and compressibility develop through training. We show that model development in grokking is task-dependent, and that peak compressibility is achieved immediately after the grokking plateau. Finally, novel information-geometric measures are introduced which demonstrate that models undergoing grokking follow a straight path in information space.
Abstract（参考訳）: グロキングは通常、通常の「安定した」学習と同様の損失を被る。これらの異なる学習パス – グラッキングと通常のトレーニング – が、学習モデルに根本的な違いをもたらすかどうかを問う。そのために、各経路で訓練されたモデルの特徴、圧縮性、学習ダイナミクスを2つのタスクで比較する。グラクテッドモデルと着実に訓練されたモデルは、同じ特徴を学習するが、これらの特徴が符号化される効率に大きな違いがある可能性がある。特に, モデル損失と圧縮性の間に線形トレードオフが生じ, グルーキングに欠落する, 定常トレーニングの新たな「圧縮体制」を見いだす。この方式では, 圧縮係数をベースモデルの25倍, 圧縮率をグルーキング時の5倍にすることができる。そして、トレーニングを通じてモデルの特徴と圧縮性がどのように発達するかを追跡する。グルーキングにおけるモデル開発はタスク依存であり,グルーキング高原の直後にピーク圧縮性が達成されることを示す。最後に、グルーキングを行うモデルが情報空間の直線的な経路を辿ることを示す新しい情報幾何学的手法が導入された。

関連論文リスト

Neural Metamorphosis [72.88137795439407]
本稿では,ニューラル・メタモルファス(NeuMeta)と呼ばれる,自己変形可能なニューラルネットワークの構築を目的とした新たな学習パラダイムを提案する。 NeuMetaはニューラルネットワークの連続重み多様体を直接学習する。 75%の圧縮速度でもフルサイズの性能を維持する。
論文参考訳（メタデータ） (2024-10-10T14:49:58Z)
Scaling Laws and Compute-Optimal Training Beyond Fixed Training Durations [62.132347451049455]
スケールは強力な機械学習モデルを得る上で重要な要素となっている。本研究では,コサインのスケジュールに依存するため,スケールとトレーニングの研究は必然的に複雑である,と論じる。その結果,重量平均化はトレーニングの軌道に沿って,異なるスケールでのトレーニングコストを伴わずに向上することがわかった。
論文参考訳（メタデータ） (2024-05-28T17:33:54Z)
Activations and Gradients Compression for Model-Parallel Training [85.99744701008802]
モデル並列分散トレーニングセットアップにおけるアクティベーションと勾配の同時圧縮が収束に与える影響について検討する。グラデーションはアクティベーションよりも軽度な圧縮速度を必要とする。実験では、TopKでトレーニングされたモデルが、推論中に圧縮も適用された場合にのみ正常に動作することが示されている。
論文参考訳（メタデータ） (2024-01-15T15:54:54Z)
Just CHOP: Embarrassingly Simple LLM Compression [27.64461490974072]
LLM(Large Language Model)は、非並列の少数およびゼロショット推論機能を実現するが、高い計算フットプリントを実現する。拡張言語モデル事前学習と組み合わせた単純なレイヤプルーニングは、7Bスケールでモデルの構造的および半構造化された圧縮に対して最先端の結果をもたらすことを示す。また,より小さなBERT型モデルのタスク非依存圧縮において非常に効果的であった蒸留が,我々の単純な刈り取り技術に対して非効率になることを示す。
論文参考訳（メタデータ） (2023-05-24T08:18:35Z)
Does compressing activations help model parallel training? [64.59298055364336]
モデル並列性に対する圧縮法の有効性に関する実験的検討を行った。圧縮アルゴリズムの3つの共通クラスを実装し,評価する。我々は160以上の設定と8つの一般的なデータセットでこれらの手法を評価した。
論文参考訳（メタデータ） (2023-01-06T18:58:09Z)
Few-Shot Non-Parametric Learning with Deep Latent Variable Model [50.746273235463754]
遅延変数を用いた圧縮による非パラメトリック学習(NPC-LV)を提案する。 NPC-LVは、ラベルなしデータが多いがラベル付きデータはほとんどないデータセットの学習フレームワークである。我々は,NPC-LVが低データ構造における画像分類における3つのデータセットの教師あり手法よりも優れていることを示す。
論文参考訳（メタデータ） (2022-06-23T09:35:03Z)
Structural Dropout for Model Width Compression [1.52292571922932]
既存のMLモデルは高度に過度にパラメータ化され、与えられたタスクに必要なリソースよりもはるかに多くのリソースを使用することが知られている。本稿では,オリジナルのモデルと圧縮モデルのセットに対して,1つのトレーニングセッションのみを必要とする手法を提案する。提案したアプローチは"構造的"なドロップアウトであり、ランダムに選択されたインデックスの上に隠された状態のすべての要素をプルークし、モデルにその特徴に対する重要な順序を学習させる。
論文参考訳（メタデータ） (2022-05-13T21:50:57Z)
Self-Supervised GAN Compression [32.21713098893454]
従来の手法では,標準モデル圧縮手法であるウェイトプルーニングがGANに適用できないことを示す。次に、訓練された判別器を用いて圧縮発電機の訓練を監督する自己教師圧縮手法を開発する。我々は,このフレームワークが高い疎度に対して魅力的な性能を示し,新しいタスクやモデルに容易に適用できることを示し,異なるプルーニング粒度間の有意義な比較を可能にする。
論文参考訳（メタデータ） (2020-07-03T04:18:54Z)
A flexible, extensible software framework for model compression based on the LC algorithm [10.787390511207683]
ニューラルネットワークや他の機械学習モデルを最小限の労力で圧縮できるソフトウェアフレームワークを提案する。ライブラリはPythonとPyTorchで書かれており、Githubで入手できる。
論文参考訳（メタデータ） (2020-05-15T21:14:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。