論文の概要: Quiet Feature Learning in Algorithmic Tasks
- arxiv url: http://arxiv.org/abs/2505.03997v1
- Date: Tue, 06 May 2025 22:18:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:35.925669
- Title: Quiet Feature Learning in Algorithmic Tasks
- Title(参考訳): アルゴリズムタスクにおける素早い特徴学習
- Authors: Prudhviraj Naidu, Zixian Wang, Leon Bergen, Ramamohan Paturi,
- Abstract要約: トランスフォーマーベースの言語モデルを10の基本的なアルゴリズムタスクで訓練する。
従来のパワールールスケーリングの傾向から逸脱した損失曲線における顕著な位相遷移を観察する。
- 参考スコア(独自算出の注目度): 1.9249287163937978
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We train Transformer-based language models on ten foundational algorithmic tasks and observe pronounced phase transitions in their loss curves that deviate from established power-law scaling trends. Over large ranges of compute, the validation loss barely improves, then abruptly decreases. Probing the models' internal representations reveals the learning of quiet features during the stagnant phase, followed by sudden acquisition of loud features that coincide with the sharp drop in loss. Our ablation experiments show that disrupting a single learned feature can dramatically degrade performance, providing evidence of their causal role in task performance. These findings challenge the prevailing assumption that next-token predictive loss reliably tracks incremental progress; instead, key internal features may be developing below the surface until they coalesce, triggering a rapid performance gain.
- Abstract(参考訳): トランスフォーマーベースの言語モデルを10の基本的なアルゴリズムタスクで訓練し、確立されたパワールールスケーリングトレンドから逸脱した損失曲線における顕著な位相遷移を観察する。
広範囲の計算において、バリデーション損失はわずかに改善され、突然減少する。
モデルの内部表現を探索すると、停滞するフェーズにおける静かな特徴の学習が明らかになり、その後、急激な損失の減少にともなう大きな特徴が突然取得される。
我々のアブレーション実験は、単一の学習機能を破壊することは、パフォーマンスを劇的に低下させ、タスクパフォーマンスにおける彼らの因果的役割の証拠となることを示している。
これらの知見は、次点の予測損失が漸進的な進行を確実に追跡する、という一般的な仮定に挑戦する。
関連論文リスト
- Dynamical loss functions shape landscape topography and improve learning in artificial neural networks [0.9208007322096533]
クロスエントロピーと平均二乗誤差を動的損失関数に変換する方法を示す。
異なるサイズのネットワークに対する検証精度を大幅に向上させる方法を示す。
論文 参考訳(メタデータ) (2024-10-14T16:27:03Z) - Understanding Warmup-Stable-Decay Learning Rates: A River Valley Loss Landscape Perspective [66.80315289020487]
Warmup-Stable-Decay (WSD) スケジュールは、一定の学習率を使用して、所定の計算予算なしで無限に継続できるイテレーションのメインブランチを生成する。
プレトレーニング損失は,河底に川がある深い谷に類似した河谷景観を呈することを示す。
この理論にインスパイアされたWSD-Sは、従来のチェックポイントの崩壊フェーズを再利用し、メインブランチを1つだけ保持するWSDの変種である。
論文 参考訳(メタデータ) (2024-10-07T16:49:39Z) - Stepping on the Edge: Curvature Aware Learning Rate Tuners [24.95412499942206]
曲率情報はロス・ヘッセンの最大の固有値であり、鋭さとして知られている。
最近の研究は、曲率情報が訓練中に複雑な力学を経ることを示した。
学習速度チューニングと曲率の閉ループフィードバック効果を解析する。
論文 参考訳(メタデータ) (2024-07-08T17:56:00Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Predicting Emergent Abilities with Infinite Resolution Evaluation [85.89911520190711]
本稿では,デコードフェーズにおける大規模なサンプリングを通じて,理論的に無限の分解能を持つ評価戦略であるPassUntilを紹介する。
トレーニング開始前に0.05%の偏差でコード生成における2.4Bモデルの性能を予測する。
スケーリング曲線が標準スケーリング法則関数に適合できないような,高速化された出現の種を同定する。
論文 参考訳(メタデータ) (2023-10-05T02:35:00Z) - Uncovering the Hidden Cost of Model Compression [43.62624133952414]
視覚プロンプティングは、コンピュータビジョンにおける伝達学習の重要な方法として登場した。
モデル圧縮は視覚的プロンプトベース転送の性能に有害である。
しかし、量子化によってモデルが圧縮されるとき、キャリブレーションに対する負の効果は存在しない。
論文 参考訳(メタデータ) (2023-08-29T01:47:49Z) - A Loss Curvature Perspective on Training Instability in Deep Learning [28.70491071044542]
学習力学における損失の曲率の影響を理解するため,多くの分類課題における損失ヘッセンの進化について検討した。
条件付けの観点から,学習率のウォームアップはバッチ正規化と同じくらいのトレーニング安定性を向上できることを示した。
論文 参考訳(メタデータ) (2021-10-08T20:25:48Z) - Extreme Memorization via Scale of Initialization [72.78162454173803]
我々は,初期化の規模を変えることが,SGDによって誘導される暗黙の正規化に強く影響を与える実験装置を構築する。
一般化能力に影響を及ぼす範囲と方法が、使用したアクティベーションと損失関数に依存することがわかった。
均質なReLU活性化の場合、この挙動は損失関数に起因することが示される。
論文 参考訳(メタデータ) (2020-08-31T04:53:11Z) - The Break-Even Point on Optimization Trajectories of Deep Neural
Networks [64.7563588124004]
この軌道上の「破滅的な」点の存在を論じる。
トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。
また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
論文 参考訳(メタデータ) (2020-02-21T22:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。