論文の概要: Complexity Scaling Laws for Neural Models using Combinatorial Optimization
- arxiv url: http://arxiv.org/abs/2506.12932v1
- Date: Sun, 15 Jun 2025 18:20:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:47.109187
- Title: Complexity Scaling Laws for Neural Models using Combinatorial Optimization
- Title(参考訳): 組合せ最適化を用いたニューラルネットワークの複雑性スケーリング法則
- Authors: Lowell Weissman, Michael Krumdick, A. Lynn Abbott,
- Abstract要約: 問題複雑性に基づくスケーリング法則を策定する。
我々は、解空間サイズと表現空間サイズという2つの基本的な複雑さの尺度を解析する。
最適化はスムーズなコストトレンドを促進し,解釈可能な損失がなくても有意義なスケーリング法則を得ることができることを示す。
- 参考スコア(独自算出の注目度): 3.4585775092874163
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent work on neural scaling laws demonstrates that model performance scales predictably with compute budget, model size, and dataset size. In this work, we develop scaling laws based on problem complexity. We analyze two fundamental complexity measures: solution space size and representation space size. Using the Traveling Salesman Problem (TSP) as a case study, we show that combinatorial optimization promotes smooth cost trends, and therefore meaningful scaling laws can be obtained even in the absence of an interpretable loss. We then show that suboptimality grows predictably for fixed-size models when scaling the number of TSP nodes or spatial dimensions, independent of whether the model was trained with reinforcement learning or supervised fine-tuning on a static dataset. We conclude with an analogy to problem complexity scaling in local search, showing that a much simpler gradient descent of the cost landscape produces similar trends.
- Abstract(参考訳): ニューラルスケーリング法則に関する最近の研究は、計算予算、モデルサイズ、データセットサイズでモデルパフォーマンスが予測可能であることを実証している。
本研究では,問題複雑性に基づくスケーリング法則の開発を行う。
我々は、解空間サイズと表現空間サイズという2つの基本的な複雑性尺度を解析する。
旅行セールスマン問題(TSP)をケーススタディとして、組合せ最適化がスムーズなコストトレンドを促進することを示し、解釈可能な損失がなくても有意義なスケーリング法則を得ることができることを示した。
次に,TSPノード数や空間次元のスケーリングにおいて,モデルが強化学習で訓練されたか,静的データセット上で教師付き微調整を受けたかに関わらず,固定サイズモデルに対して,サブ最適性が予測可能となることを示す。
局所探索における問題複雑性のスケーリングに類似して、コストランドスケープのより単純な勾配勾配が同様の傾向をもたらすことを示す。
関連論文リスト
- Communication-Efficient Language Model Training Scales Reliably and Robustly: Scaling Laws for DiLoCo [22.7130140114906]
固定計算予算下でのLLMのトレーニングにおいて,DiLoCoのスケーリング法挙動について検討した。
DiLoCoはモデルサイズで予測可能かつ堅牢にスケールする。
十分に調整された場合、DiLoCoはモデルサイズでデータ並列トレーニングよりもスケールし、小さなモデルサイズでもデータ並列トレーニングよりパフォーマンスがよい。
論文 参考訳(メタデータ) (2025-03-12T20:04:38Z) - Optimizing Sequential Recommendation Models with Scaling Laws and Approximate Entropy [104.48511402784763]
SRモデルの性能法則は,モデルの性能とデータ品質の関係を理論的に調査し,モデル化することを目的としている。
データ品質を評価するために、従来のデータ量メトリクスと比較して、より曖昧なアプローチを示すために、近似エントロピー(ApEn)を提案する。
論文 参考訳(メタデータ) (2024-11-30T10:56:30Z) - Information-Theoretic Foundations for Neural Scaling Laws [20.617552198581024]
我々は、ニューラルスケーリング法則のための情報理論の基礎を開発する。
データとモデルサイズの間の最適関係は、対数的要因まで線形であることが観察された。
論文 参考訳(メタデータ) (2024-06-28T02:20:54Z) - More Compute Is What You Need [3.184416958830696]
モデル性能はトランスフォーマーモデルに費やされる計算量に大きく依存することを示す新しいスケーリング法則を提案する。
a)推論効率、トレーニングは、より小さなモデルサイズとより大きなトレーニングデータセットを優先すべきであり、(b)利用可能なWebデータセットの枯渇を前提として、モデルサイズをスケールすることが、モデルパフォーマンスをさらに改善するための唯一の方法である、と予測する。
論文 参考訳(メタデータ) (2024-04-30T12:05:48Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - An Information-Theoretic Analysis of Compute-Optimal Neural Scaling Laws [24.356906682593532]
大規模ニューラルネットワークにおけるモデルとトレーニングデータセットサイズ間の計算-最適トレードオフについて検討する。
以上の結果から, チンチラの実証分析で裏付けられる線形関係が示唆された。
論文 参考訳(メタデータ) (2022-12-02T18:46:41Z) - A Solvable Model of Neural Scaling Laws [72.8349503901712]
大量のパラメータを持つ大規模な言語モデルは、インターネットに近い数のトークンで訓練されると、ニューラルネットワークのスケーリング法則に従うことが実証的に示されている。
我々は,このニューラルスケーリング現象を捉える統計モデル(共同生成データモデルとランダム特徴モデル)を提案する。
主な発見は、自然データセットの統計に現れる電力法則が非線形ランダムな特徴写像によって拡張される方法である。
論文 参考訳(メタデータ) (2022-10-30T15:13:18Z) - Scaling Laws for Neural Language Models [14.472857826717613]
クロスエントロピー損失に対する言語モデル性能のスケーリング法則について検討する。
損失は、モデルサイズ、データセットサイズ、トレーニングに使用される計算量など、パワーローとしてスケールする。
論文 参考訳(メタデータ) (2020-01-23T03:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。