論文の概要: On the Invariance and Generality of Neural Scaling Laws
- arxiv url: http://arxiv.org/abs/2605.07546v1
- Date: Fri, 08 May 2026 10:21:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.989137
- Title: On the Invariance and Generality of Neural Scaling Laws
- Title(参考訳): ニューラルスケーリング法則の不変性と一般性について
- Authors: Xing Han, Ziyin Liu, Suchi Saria, Paul Pu Liang,
- Abstract要約: ニューラルスケーリング法則は、モデルパフォーマンスとデータまたは計算の間の予測可能な関係を確立する。
新しいモデルのタスクペアに1つを合わせるには、通常、非常に計算予算を消費する高価なスイープが必要です。 法律は、エコノマイズを意図しています。
本稿では、一般化可能なスケーリング法則をどう開発するかという研究課題を提起する。
- 参考スコア(独自算出の注目度): 30.93250651713082
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural scaling laws establish a predictable relationship between model performance and data or compute, offering crucial guidance for resource allocation in new domains and tasks. Yet such laws are most needed precisely where they are hardest to obtain: fitting one for a new model task pair demands expensive sweeps that typically exhaust the very compute budget the law is meant to economize. This paper poses the research question of how to develop generalizable scaling laws: laws fit once on a well-resourced source domain and reliably transported to new domains where running a full sweep is infeasible, which requires a fundamental understanding of when and why scaling properties change. We address this by identifying the right invariants: scaling laws are preserved under bijective (information-preserving) transformations of the data and modified in predictable, information-theoretically grounded ways under non-bijective transformations that lower its information resolution $ρ$: a single axis along which a law fit in one domain can be transported to another. We validate this across language, vision, and speech, and demonstrate two cross-domain applications: predicting scaling for language models trained on electronic health records from laws fit on general text, and predicting time-series classification scaling under varying levels of noise injection, recovering the data-scaling exponents to within $3\%$ error.
- Abstract(参考訳): ニューラルスケーリング法則は、モデルパフォーマンスとデータまたは計算の間の予測可能な関係を確立し、新しいドメインやタスクにおけるリソース割り当ての重要なガイダンスを提供する。
新たなモデルタスクペアに1つを合わせるには、通常、法がエコノマイズすることを意図した計算予算を浪費する高価なスイープが必要です。
本論文は, 一般化可能なスケーリング法則をどう開発するかという研究課題を提起する: 適切なソースドメインに一度適合し, フルスイープの実行が不可能な新しいドメインに確実に移動するには, スケーリング特性がいつ,なぜ変化するのか, 根本的な理解が必要である。
スケーリング法則は、データのビジェクティブ(情報保存)変換の下で保存され、予測可能で情報理論的に基礎的な方法で修正される。
我々は、言語、ビジョン、スピーチにまたがってこれを検証し、一般的なテキストに適合する法則から電子健康記録に基づいてトレーニングされた言語モデルのスケーリングを予測し、ノイズ注入の様々なレベルにおける時系列分類のスケーリングを予測し、データスケーリング指数を3\%以下のエラーに復元する、2つのクロスドメイン応用を実証する。
関連論文リスト
- Towards Robust Scaling Laws for Optimizers [89.21160945066737]
経験的スケーリング法則は、モデルのサイズやトレーニングデータの増加に伴って損失を予測するために広く使用されている。
本研究では, 損失分解を既約, 近似, 最適化誤差に分解した結果, チンチラ方式のスケーリング法則が自然に現れることを示す。
論文 参考訳(メタデータ) (2026-02-07T21:40:33Z) - Relative Scaling Laws for LLMs [91.73497548097775]
スケーリング法則は、追加のデータ、パラメータ、計算によって言語モデルがどのように改善されるかを記述する。
相対的なスケーリング法則を導入し、テスト分布間のパフォーマンスギャップをスケールで追跡する。
これらの結果は、スケーリングは全体的なパフォーマンスを改善するが、普遍的等化器ではないことを示している。
論文 参考訳(メタデータ) (2025-10-28T16:55:22Z) - Pretraining Scaling Laws for Generative Evaluations of Language Models [30.6654523997984]
生成評価にパス-at-k$を適合させ、最も高価なモデルのパス-at-k$を予測するための3つの異なるスケーリング法則を示す。
我々のフレームワークは、研究者や実践者に対して、生成性能を予測するための洞察と方法論を提供します。
論文 参考訳(メタデータ) (2025-09-28T18:04:18Z) - Scaling Laws for Optimal Data Mixtures [36.161727115217964]
スケーリング法則を用いて、任意の対象領域に対して最適なデータ混合を決定するための体系的手法を提案する。
我々は,これらのスケーリング法則の普遍性を,その予測力を3つの異なる大規模設定で示すことによって検証する。
論文 参考訳(メタデータ) (2025-07-12T21:16:08Z) - Bayesian Neural Scaling Law Extrapolation with Prior-Data Fitted Networks [100.13335639780415]
スケーリング法則は、しばしばパワーローに従っており、より大きなスケールでのスケーリングの振る舞いを予測するために、パワーロー関数のいくつかの変種を提案した。
既存の手法は主に点推定に依存しており、現実のアプリケーションにとって欠かせない不確実性を定量化しない。
本研究では,ニューラルスケーリング法外挿のためのPFNに基づくベイズフレームワークについて検討する。
論文 参考訳(メタデータ) (2025-05-29T03:19:17Z) - ScaMo: Exploring the Scaling Law in Autoregressive Motion Generation Model [27.532993606576152]
本稿では,モーショントークン機構であるMotionQ-VAEと,テキストFS-VAE変換器を備えるスケーラブルなモーション生成フレームワークを提案する。
運動生成の文脈におけるスケーリング法則の存在を初めて確認する。
計算予算が1e18$である場合、最適なトランスフォーマーサイズ、語彙サイズ、およびデータ要求を予測する。
論文 参考訳(メタデータ) (2024-12-19T06:22:19Z) - Information-Theoretic Foundations for Neural Scaling Laws [20.617552198581024]
我々は、ニューラルスケーリング法則のための情報理論の基礎を開発する。
データとモデルサイズの間の最適関係は、対数的要因まで線形であることが観察された。
論文 参考訳(メタデータ) (2024-06-28T02:20:54Z) - A Solvable Model of Neural Scaling Laws [72.8349503901712]
大量のパラメータを持つ大規模な言語モデルは、インターネットに近い数のトークンで訓練されると、ニューラルネットワークのスケーリング法則に従うことが実証的に示されている。
我々は,このニューラルスケーリング現象を捉える統計モデル(共同生成データモデルとランダム特徴モデル)を提案する。
主な発見は、自然データセットの統計に現れる電力法則が非線形ランダムな特徴写像によって拡張される方法である。
論文 参考訳(メタデータ) (2022-10-30T15:13:18Z) - Scaling Laws Beyond Backpropagation [64.0476282000118]
因果デコーダのみの変換器を効率的に訓練するための直接フィードバックアライメントの有効性について検討した。
DFAはバックプロパゲーションよりも効率的なスケーリングを提供していないことが分かりました。
論文 参考訳(メタデータ) (2022-10-26T10:09:14Z) - Learning Invariant Representations and Risks for Semi-supervised Domain
Adaptation [109.73983088432364]
半教師付きドメイン適応(Semi-DA)の設定の下で不変表現とリスクを同時に学習することを目的とした最初の手法を提案する。
共同で textbfLearning textbfInvariant textbfRepresentations と textbfRisks の LIRR アルゴリズムを導入する。
論文 参考訳(メタデータ) (2020-10-09T15:42:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。