論文の概要: (Mis)Fitting: A Survey of Scaling Laws
- arxiv url: http://arxiv.org/abs/2502.18969v1
- Date: Wed, 26 Feb 2025 09:27:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:59:45.626005
- Title: (Mis)Fitting: A Survey of Scaling Laws
- Title(参考訳): (ミス)フィッティング:スケーリングの法則に関する調査
- Authors: Margaret Li, Sneha Kudugunta, Luke Zettlemoyer,
- Abstract要約: 本稿では,パラメータ比に対する最適トークンのような質問に対して,いくつかの先行研究が到達した結論の相違について論じる。
スケーリングのトレンドを研究する50以上の論文を調査します。
本稿では,法律研究のスケールアップに寄与しながら,著者が考慮すべきチェックリストを提案する。
- 参考スコア(独自算出の注目度): 52.598843243928584
- License:
- Abstract: Modern foundation models rely heavily on using scaling laws to guide crucial training decisions. Researchers often extrapolate the optimal architecture and hyper parameters settings from smaller training runs by describing the relationship between, loss, or task performance, and scale. All components of this process vary, from the specific equation being fit, to the training setup, to the optimization method. Each of these factors may affect the fitted law, and therefore, the conclusions of a given study. We discuss discrepancies in the conclusions that several prior works reach, on questions such as the optimal token to parameter ratio. We augment this discussion with our own analysis of the critical impact that changes in specific details may effect in a scaling study, and the resulting altered conclusions. Additionally, we survey over 50 papers that study scaling trends: while 45 of these papers quantify these trends using a power law, most under-report crucial details needed to reproduce their findings. To mitigate this, we we propose a checklist for authors to consider while contributing to scaling law research.
- Abstract(参考訳): 現代の基礎モデルは、重要なトレーニング決定を導くためにスケーリング法を使うことに大きく依存しています。
研究者はしばしば、より小さなトレーニングの実行から最適なアーキテクチャとハイパーパラメータの設定を外挿し、その関係、損失、タスクパフォーマンス、スケールを記述する。
このプロセスのすべてのコンポーネントは、適合する特定の方程式からトレーニング設定、最適化方法まで様々である。
これらの因子は、それぞれが適合した法則に影響を与え、従って与えられた研究の結論に影響を及ぼす可能性がある。
本稿では,パラメータ比に対する最適トークンのような質問に対して,いくつかの先行研究が到達した結論の相違について論じる。
我々は、この議論を、スケーリング研究において、特定の詳細の変化が影響しうる重要な影響とその結果として生じる結論について、私たち自身の分析で強化する。
さらに、スケーリングの傾向を研究する50以上の論文を調査し、これらの論文のうち45は電力法を用いてこれらの傾向を定量化しているが、その発見を再現するために必要な重要な詳細はほとんど報告されていない。
そこで本研究では,法律研究のスケールアップに寄与しながら,著者が考慮すべきチェックリストを提案する。
関連論文リスト
- Scaling Law for Language Models Training Considering Batch Size [17.09348741898811]
大規模言語モデル(LLM)は近年顕著な進歩を遂げており、この急速な進歩においてスケーリング法則が重要な役割を担っている。
本稿は,LLMトレーニングの実践において,重要なハイパーパラメータ,すなわちグローバルバッチサイズがどのように影響するかを実証的に検討する。
モデルのサイズとトレーニングデータ量に関する基本的なスケーリング法則を確立します。
次に,バッチサイズや学習率の変化が,これらのモデルの収束と一般化にどのように影響するかを検討する。
論文 参考訳(メタデータ) (2024-12-02T13:58:35Z) - A Simple Model of Inference Scaling Laws [1.3597551064547502]
スケーリング法則を推論の文脈で研究し、特に複数の推論による性能向上について検討する。
我々の単純なフレームワークは、推論スケーリングを他の既知のスケーリング法則に組み込むための基盤となる。
論文 参考訳(メタデータ) (2024-10-21T18:00:06Z) - Revisiting the Superficial Alignment Hypothesis [0.9831489366502302]
表面アライメント仮説(英語版)は、言語モデルの能力と知識のほとんど全てが事前訓練中に学習されていることを示唆している。
我々はこれらの主張を再検討し、微調整例の増加とともにポストトレーニングのスケーリング行動を研究する。
論文 参考訳(メタデータ) (2024-09-27T22:14:10Z) - See Further for Parameter Efficient Fine-tuning by Standing on the Shoulders of Decomposition [56.87609859444084]
パラメータ効率の細かいチューニング(PEFT)は、パラメータの選択したサブセットを最適化し、残りを固定し、計算とストレージのオーバーヘッドを大幅に削減することに焦点を当てている。
分解の観点からそれらを分離することで、すべてのアプローチを統一する第一歩を踏み出します。
本稿では,PEFT技術の性能向上を目的とした,単純かつ効果的なフレームワークとともに,新しい2つのPEFT手法を提案する。
論文 参考訳(メタデータ) (2024-07-07T15:44:42Z) - Scaling Laws For Dense Retrieval [22.76001461620846]
本研究は,高密度検索モデルの性能が他のニューラルモデルと同様のスケーリング法則に従うかどうかを考察する。
その結果、我々の設定下では、高密度検索モデルの性能は、モデルサイズとアノテーション数に関連する正確なパワーロースケーリングに従っていることがわかった。
論文 参考訳(メタデータ) (2024-03-27T15:27:36Z) - Scaling Laws for Sparsely-Connected Foundation Models [70.41266138010657]
大規模データセット上でトレーニングしたトランスフォーマーのスケーリング挙動に及ぼすパラメータ空間の影響について検討する。
重み空間,非ゼロパラメータ数,およびトレーニングデータの量との関係を記述した最初のスケーリング法則を同定する。
論文 参考訳(メタデータ) (2023-09-15T16:29:27Z) - Inducing Causal Structure for Abstractive Text Summarization [76.1000380429553]
要約データの因果構造を誘導する構造因果モデル(SCM)を導入する。
本稿では因果的要因を模倣できる因果的表現を学習するための因果性インスピレーション付き系列列列モデル(CI-Seq2Seq)を提案する。
2つの広く使われているテキスト要約データセットの実験結果は、我々のアプローチの利点を示している。
論文 参考訳(メタデータ) (2023-08-24T16:06:36Z) - Training Data Influence Analysis and Estimation: A Survey [25.460140245596918]
トレーニングデータの影響分析と推定に関する総合的な調査を初めて実施する。
我々は、最先端の影響分析手法を分類学に編成する。
本研究では,影響分析をより効果的に活用するための今後の研究の方向性を提案する。
論文 参考訳(メタデータ) (2022-12-09T00:32:46Z) - Scale Efficiently: Insights from Pre-training and Fine-tuning
Transformers [57.931830650323]
本稿では,事前学習および微調整型変圧器によるスケーリングの洞察について述べる。
モデルのサイズだけでなく、モデル形状が下流の微調整に重要であることを示す。
再設計したモデルにより、下流の微調整品質が向上する。
論文 参考訳(メタデータ) (2021-09-22T12:29:15Z) - Everything Has a Cause: Leveraging Causal Inference in Legal Text
Analysis [62.44432226563088]
因果推論は変数間の因果関係を捉えるプロセスである。
本論文では,事実記述から因果グラフを構築するための新たなグラフベース因果推論フレームワークを提案する。
GCIに含まれる因果知識を強力なニューラルネットワークに効果的に注入することで、パフォーマンスと解釈性が向上します。
論文 参考訳(メタデータ) (2021-04-19T16:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。