論文の概要: Problems with Chinchilla Approach 2: Systematic Biases in IsoFLOP Parabola Fits
- arxiv url: http://arxiv.org/abs/2603.22339v1
- Date: Sat, 21 Mar 2026 09:22:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.077285
- Title: Problems with Chinchilla Approach 2: Systematic Biases in IsoFLOP Parabola Fits
- Title(参考訳): チンチラアプローチの問題点2:IsoFLOPパラボラウイルスの全身的ビアーゼ
- Authors: Eric Czech, Zhiwei Xu, Yael Elmatad, Yixin Wang, William Held,
- Abstract要約: チンチラアプローチ2は、ニューラルスケーリング法則を適合させる最も広く使われている方法の1つである。
アプローチ3は、これらのバイアスを完全に排除するが、多くの場合、データ効率が低いと見なされる。
より便利なアプローチ2の代替として機能するか、よりリッチなスケーリング法定式化へのアプローチ3の適応に対して、よりスケーラブルな代替手段として機能する。
- 参考スコア(独自算出の注目度): 35.1311414689253
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chinchilla Approach 2 is among the most widely used methods for fitting neural scaling laws. Its parabolic approximation introduces systematic biases in compute-optimal allocation estimates, even on noise-free synthetic data. Applied to published Llama 3 IsoFLOP data at open frontier compute scales, these biases imply a parameter underallocation corresponding to 6.5% of the $3.8\times10^{25}$ FLOP training budget and \$1.4M (90% CI: \$412K-\$2.9M) in unnecessary compute at 50% H100 MFU. Simulated multimodal model misallocations show even greater opportunity costs due to higher loss surface asymmetry. Three sources of this error are examined: IsoFLOP sampling grid width (Taylor approximation accuracy), uncentered IsoFLOP sampling, and loss surface asymmetry ($α\neq β$). Chinchilla Approach 3 largely eliminates these biases but is often regarded as less data-efficient, numerically unstable, prone to local minima, and harder to implement. Each concern is shown to be unfounded or addressable, especially when the partially linear structure of the objective is exploited via Variable Projection, enabling unbiased inference on all five loss surface parameters through a two-dimensional optimization that is well-conditioned, analytically differentiable, and amenable to dense, or even exhaustive, grid search. It may serve as a more convenient replacement for Approach 2 or a more scalable alternative for adaptations of Approach 3 to richer scaling law formulations.
- Abstract(参考訳): チンチラアプローチ2は、ニューラルスケーリング法則を適合させる最も広く使われている方法の1つである。
そのパラボラ近似は、ノイズのない合成データであっても、計算-最適割り当て推定において体系的なバイアスをもたらす。
オープンフロンティア計算スケールでのLlama 3 IsoFLOPデータに適用すると、これらのバイアスは3.8\times10^{25}$ FLOPトレーニング予算の6.5%と不要な計算で11.4M (90% CI: \$412K-\$2.9M)に対応するパラメータアンダーアルロケーションを50% H100 MFUで表す。
シミュレーションされたマルチモーダルモデル誤配置は、より高い損失面非対称性のためにさらに大きな機会コストを示す。
アイソFLOPサンプリンググリッド幅(テイラー近似精度)、非中心アイソFLOPサンプリング、損失面非対称性(α\neq β$)の3つの誤差源について検討した。
チンチラアプローチ3は、これらのバイアスを大幅に排除するが、多くの場合、データ効率が低く、数値的に不安定であり、局所的なミニマの傾向があり、実装が困難であると見なされる。
それぞれの関心事は、特に、目的の部分的に線形な構造が可変射影によって利用され、よく条件付き、分析的に微分可能で、密度の高い、あるいは網羅的な探索が可能な2次元の最適化を通じて、5つの損失曲面パラメータの偏りのない推論を可能にするときに、未解決または対処可能である。
より便利なアプローチ2の代替として機能するか、よりリッチなスケーリング法定式化へのアプローチ3の適応に対して、よりスケーラブルな代替手段として機能する。
関連論文リスト
- SA-CycleGAN-2.5D: Self-Attention CycleGAN with Tri-Planar Context for Multi-Site MRI Harmonization [3.5109108807229403]
本稿では,Ben-David らによる$HH$-divergence 境界によるドメイン適応フレームワーク SA-CycleGAN-2.5D を提案する。
2D効率と3D一貫性をブリッジすることで,腫瘍の病態を保ったボクセルレベルの高調波画像が得られる。
論文 参考訳(メタデータ) (2026-03-17T23:49:46Z) - Spline Dimensional Decomposition with Interpolation-based Optimal Knot Selection for Stochastic Dynamic Analysis [6.407952035735354]
スプライン次元(SDD)は、結び目配置を介して入力座標を分割することで非滑らかまたは局所非線形挙動に対処する。
SDDにおける最適結び目選択のための計算効率が高く,計算コストが高い手法を提案する。
低制御アームのモーダル解析により、提案した結び目付きSDDは、一様またはランダムに配置された結び目付きSDDよりも高い精度が得られることが示された。
論文 参考訳(メタデータ) (2025-05-19T09:08:39Z) - Enhancing Unsupervised Feature Selection via Double Sparsity Constrained Optimization [6.342485512772862]
教師なし単一特徴選択(UFS)は機械学習やパターン認識に広く応用されている。
既存の手法のほとんどはスパーシリティしか考慮していないため、サブセットを選択し、元のサブセットと区別することは困難である。
本稿では,DSCOFSと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-01T05:05:46Z) - Two-Timescale Optimization Framework for Sparse-Feedback Linear-Quadratic Optimal Control [3.746304628644379]
The $mathcalHfeedback$-guaranteed sparse-feedback linear-quadratic (LQ) optimal control with convex parameterization and convex-bounded uncertainty。
論文 参考訳(メタデータ) (2024-06-17T03:17:33Z) - DF2: Distribution-Free Decision-Focused Learning [30.288876294435294]
決定中心学習(DFL)は,予測列最適化問題に対する強力なアプローチとして登場した。
DFLはモデル誤差、サンプル平均近似誤差、近似誤差の3つのボトルネックに直面している。
本稿では,この3つのボトルネックを緩和する決定自由学習手法であるDF2を提案する。
論文 参考訳(メタデータ) (2023-08-11T00:44:46Z) - FeDXL: Provable Federated Learning for Deep X-Risk Optimization [105.17383135458897]
我々は、既存のアルゴリズムが適用できないXリスクのファミリーを最適化するために、新しい連邦学習(FL)問題に取り組む。
Xリスクに対するFLアルゴリズムを設計する際の課題は、複数のマシンに対する目的の非可逆性と、異なるマシン間の相互依存にある。
論文 参考訳(メタデータ) (2022-10-26T00:23:36Z) - STORM+: Fully Adaptive SGD with Momentum for Nonconvex Optimization [74.1615979057429]
本研究では,スムーズな損失関数に対する期待値である非バッチ最適化問題について検討する。
我々の研究は、学習率と運動量パラメータを適応的に設定する新しいアプローチとともに、STORMアルゴリズムの上に構築されている。
論文 参考訳(メタデータ) (2021-11-01T15:43:36Z) - A Retrospective Approximation Approach for Smooth Stochastic
Optimization [0.2867517731896504]
グラディエント(グラディエント、英: Gradient、SG)とは、最適化(SO)問題をスムーズ(ノンフィクション)な目標値で解くための補足的反復手法である。
論文 参考訳(メタデータ) (2021-03-07T16:29:36Z) - Canny-VO: Visual Odometry with RGB-D Cameras based on Geometric 3D-2D
Edge Alignment [85.32080531133799]
本稿では,自由形式の曲線登録に関する古典的な問題をレビューし,効率的なrgbdビジュアルオドメトリシステムcanny-voに適用する。
エッジ登録でよく用いられる距離変換の代替として、近似近接近傍場と配向近接近傍場という2つの方法が提案されている。
3D2Dエッジアライメントは、効率性と精度の両方の観点から、これらの代替製剤の恩恵を受けます。
論文 参考訳(メタデータ) (2020-12-15T11:42:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。