論文の概要: Preservation Is Not Enough for Width Growth: Regime-Sensitive Selection of Dense LM Warm Starts
- arxiv url: http://arxiv.org/abs/2604.04281v1
- Date: Sun, 05 Apr 2026 21:47:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.021423
- Title: Preservation Is Not Enough for Width Growth: Regime-Sensitive Selection of Dense LM Warm Starts
- Title(参考訳): 温暖化防止は幅成長に十分ではない-高密度LM温暖化開始のレジーム感性選択
- Authors: Eren Unlu,
- Abstract要約: フルトレーニング状態に対する候補選択問題として, 密度幅の増大について検討した。
我々は、一致した継続予算の下で、正確なコピー、摂動、非対称リセット、構造化された非クローンウォームとを比較した。
この規模で密な幅成長を行うためには、保存は普遍的なランキング基準ではなく、最良の代替信号はレギュラーとラグの予算に依存する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Width expansion offers a practical route to reuse smaller causal-language-model checkpoints, but selecting a widened warm start is not solved by zero-step preservation alone. We study dense width growth as a candidate-selection problem over full training states, including copied weights, optimizer moments, and scheduler state. In a small-scale TinyStories proxy, we compare exact-copy, perturbative, asymmetric-reset, and structured non-clone warm starts under matched continuation budgets. We evaluate zero-step preservation, short-lag probe metrics, and downstream continuation utility in deterministic and stochastic regimes. The picture is mixed and partially replicated through a reduced-pool seed-1 check. Exact-copy symmetric warm starts rank first in every completed 16-step probe and in the completed stochastic 128-step continuations at seed-0 steps 1000 and 2000 plus reduced seed-1 step 2000. By contrast, the structured non-clone challenger wins deterministic 128-step continuation. Early escape from the inherited cloned subspace is therefore not a universal selector: it helps in long deterministic continuation, but it misleads at short lag and under stochastic continuation. The result is narrow but useful: for dense width growth at this scale, preservation is not a universal ranking criterion, and the best replacement signal depends on both regime and lag budget.
- Abstract(参考訳): 幅拡大は、より小さな因果語モデルチェックポイントを再利用するための実用的な経路を提供するが、ゼロステップ保存だけでは、拡張されたウォームスタートを選択することは解決されない。
提案手法は,複写重み,オプティマイザモーメント,スケジューラ状態を含む,完全トレーニング状態に対する候補選択問題として,密度幅の増大について検討する。
小型のTinyStoriesプロキシでは、一致した継続予算の下で、正確なコピー、摂動、非対称リセット、構造化された非クローンウォームを比較する。
決定論的・確率的体制下で,ゼロステップ保存,ショートラグプローブ測定,下流継続ユーティリティを評価した。
画像は混合され、還元プールシード-1チェックによって部分的に複製される。
厳密な複写対称温暖化は、完了した16ステップのプローブごとに第1位に、完了した128ステップのシード-0ステップ1000と2000と還元されたシード-1ステップ2000で第1位にランクインする。
対照的に、構造化された非クローン挑戦者は決定論的128ステップ継続に勝利する。
したがって、継承されたクローン化された部分空間から早期に脱出することは普遍的なセレクターではなく、長い決定論的継続に役立つが、短いラグと確率的連続の下で誤解を招く。
その結果は狭いが有用であり、このスケールでの密集した幅成長では、保存は普遍的なランキング基準ではなく、最高の置換信号はレギュラーとラグの予算に依存する。
関連論文リスト
- Lateral Tree-of-Thoughts Surpasses ToT by Incorporating Logically-Consistent, Low-Utility Candidates [0.0]
Lateral Tree-of-Thoughts (LToT) は、ユーティリティを論理的一貫性から分離し、低ユーティリティだが一貫した候補を無駄ではなく資産として扱うドロップインコントローラである。
LToTは、横方向の小さなプローブを非常に広い横方向のセットに広げるキャップ付き連続半減レースである、横方向レーシングと短絡(LR--SC)を介して横方向を探索する。
論文 参考訳(メタデータ) (2025-10-01T22:23:58Z) - Learning to Cover: Online Learning and Optimization with Irreversible Decisions [50.5775508521174]
我々は,個別かつ不可逆な意思決定を対象とするオンライン学習と最適化の問題を定義した。
各期間において、意思決定者は、オープンする施設を選択し、それぞれの成功に関する情報を受け取り、将来の決定を導くために分類モデルを更新する。
目的は,多数の施設を対象とする地平線を特徴とし,カバー対象を反映するチャンス制約の下で施設開口を最小化することである。
論文 参考訳(メタデータ) (2024-06-20T23:00:25Z) - Nearly Minimax Optimal Regret for Learning Linear Mixture Stochastic
Shortest Path [80.60592344361073]
線形混合遷移カーネルを用いた最短経路(SSP)問題について検討する。
エージェントは繰り返し環境と対話し、累積コストを最小化しながら特定の目標状態に到達する。
既存の作業は、イテレーションコスト関数の厳密な下限や、最適ポリシーに対する期待長の上限を仮定することが多い。
論文 参考訳(メタデータ) (2024-02-14T07:52:00Z) - A Stochastic Proximal Method for Nonsmooth Regularized Finite Sum
Optimization [7.014966911550542]
スパースサブ構造を検索するために,非滑らかな正規化を伴うディープニューラルネットワークをトレーニングする問題を考察する。
我々は、収束と最悪のケースの複雑さが勾配のリプシッツ定数の知識や近似なしで確立されるSR2と呼ばれる新しい解法を導出する。
CIFAR-10とCIFAR-100で訓練されたネットワークインスタンスの実験により、SR2はProxGENやProxSGDのような関連する手法よりも常に高い空間性と精度を達成することが示された。
論文 参考訳(メタデータ) (2022-06-14T00:28:44Z) - Infinitesimal gradient boosting [0.0]
我々は、機械学習から人気のツリーベース勾配向上アルゴリズムの限界として無限小勾配ブースティングを定義する。
完全無作為化木とエクストラツリーを繋ぐ新種の無作為化回帰木を紹介します。
論文 参考訳(メタデータ) (2021-04-26T15:09:05Z) - Stochastic Linear Bandits with Protected Subspace [51.43660657268171]
線形目的関数を最適化するが、報酬は未知の部分空間にのみ得られる線形帯域問題の変種について検討する。
特に、各ラウンドでは、学習者は、目的または保護されたサブスペースを、アクションの選択とともにクエリするかどうかを選択する必要がある。
提案アルゴリズムはOFULの原理から導かれるもので,保護された空間を推定するためにクエリのいくつかを利用する。
論文 参考訳(メタデータ) (2020-11-02T14:59:39Z) - Non-parametric Binary regression in metric spaces with KL loss [15.178937896363452]
そこでは,パラメータ空間を [0,1] とするリプシッツ関数として仮説を正規化し,損失を対数とする二項回帰の非パラメトリック変項を提案する。
この設定は、新しい計算と統計の課題を提示する。
論文 参考訳(メタデータ) (2020-10-19T21:42:26Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z) - On the Almost Sure Convergence of Stochastic Gradient Descent in
Non-Convex Problems [75.58134963501094]
本稿では,勾配降下(SGD)の軌跡を解析する。
我々はSGDが厳格なステップサイズポリシーのために1ドルでサドルポイント/マニフォールドを避けることを示す。
論文 参考訳(メタデータ) (2020-06-19T14:11:26Z) - Carath\'eodory Sampling for Stochastic Gradient Descent [79.55586575988292]
本稿では,Tchakaloff と Carath'eodory の古典的な結果から着想を得た手法を提案する。
我々は、測定値の低減を行う降下ステップを適応的に選択する。
これをBlock Coordinate Descentと組み合わせることで、測定の削減を極めて安価に行えるようにします。
論文 参考訳(メタデータ) (2020-06-02T17:52:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。