Fugu-MT 論文翻訳(概要): Revisiting Neural Scaling Laws in Language and Vision

論文の概要: Revisiting Neural Scaling Laws in Language and Vision

arxiv url: http://arxiv.org/abs/2209.06640v1
Date: Tue, 13 Sep 2022 09:41:51 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-15 13:04:20.679332
Title: Revisiting Neural Scaling Laws in Language and Vision
Title（参考訳）: 言語と視覚における神経スケーリング則の再検討
Authors: Ibrahim Alabdulmohsin, Behnam Neyshabur, Xiaohua Zhai
Abstract要約: 我々は、最適なパラメータを報告するのではなく、外挿損失に基づくより厳密な方法論を論じる。本稿では,学習曲線から法則パラメータのスケーリングを確実に推定する手法を提案する。複数のドメインにまたがる幅広いアーキテクチャファミリにおいて,従来手法よりも高精度に外挿できることを実証した。
参考スコア（独自算出の注目度）: 43.57394336742374
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The remarkable progress in deep learning in recent years is largely driven by improvements in scale, where bigger models are trained on larger datasets for longer schedules. To predict the benefit of scale empirically, we argue for a more rigorous methodology based on the extrapolation loss, instead of reporting the best-fitting (interpolating) parameters. We then present a recipe for estimating scaling law parameters reliably from learning curves. We demonstrate that it extrapolates more accurately than previous methods in a wide range of architecture families across several domains, including image classification, neural machine translation (NMT) and language modeling, in addition to tasks from the BIG-Bench evaluation benchmark. Finally, we release a benchmark dataset comprising of 90 evaluation tasks to facilitate research in this domain.
Abstract（参考訳）: 近年のディープラーニングの著しい進歩は、大きなモデルがより長いスケジュールのために大きなデータセットでトレーニングされるスケールの改善によって引き起こされている。スケールの利点を実証的に予測するために、最適な(補間)パラメータを報告するのではなく、外挿損失に基づく厳密な方法論を議論する。次に,学習曲線から確実にスケーリング則パラメータを推定する手法を提案する。我々は,BIG-Bench評価ベンチマークのタスクに加えて,画像分類,ニューラルマシン翻訳(NMT),言語モデリングなど,複数の領域にわたる幅広いアーキテクチャファミリにおいて,従来手法よりも高精度に外挿できることを実証した。最後に、この領域の研究を容易にするために、90の評価タスクからなるベンチマークデータセットをリリースする。

関連論文リスト

Exploring Training and Inference Scaling Laws in Generative Retrieval [50.82554729023865]
モデルサイズ,トレーニングデータスケール,推論時間計算が生成的検索性能にどのように影響するかを検討する。実験の結果,n-gram-based method はトレーニング法と推論法の両方と強く一致していることがわかった。 LLaMAモデルはT5モデルより一貫して優れており、生成検索におけるデコーダのみの大きなモデルに対して特に有利であることが示唆された。
論文参考訳（メタデータ） (2025-03-24T17:59:03Z)
A Bayesian Approach to Data Point Selection [24.98069363998565]
データポイントの選択(DPS)は、ディープラーニングにおいて重要なトピックになりつつある。既存のDPSへのアプローチは、主にバイレベル最適化(BLO)の定式化に基づいている。 DPSに対する新しいベイズ的アプローチを提案する。
論文参考訳（メタデータ） (2024-11-06T09:04:13Z)
A Hitchhiker's Guide to Scaling Law Estimation [56.06982415792523]
スケーリング法則は、より少ないパラメータやより少ないトレーニングセットで訓練が容易なモデルから外挿することで、ターゲットとなる機械学習モデルの損失を予測する。我々は1000以上のスケーリング法則を推定し、新しいモデルファミリーにおけるスケーリング法則を推定するためのベストプラクティスを導出する。
論文参考訳（メタデータ） (2024-10-15T17:59:10Z)
Scaling Laws For Dense Retrieval [22.76001461620846]
本研究は,高密度検索モデルの性能が他のニューラルモデルと同様のスケーリング法則に従うかどうかを考察する。その結果、我々の設定下では、高密度検索モデルの性能は、モデルサイズとアノテーション数に関連する正確なパワーロースケーリングに従っていることがわかった。
論文参考訳（メタデータ） (2024-03-27T15:27:36Z)
The Languini Kitchen: Enabling Language Modelling Research at Different Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文参考訳（メタデータ） (2023-09-20T10:31:17Z)
Learning Large-scale Neural Fields via Context Pruned Meta-Learning [60.93679437452872]
本稿では,大規模ニューラルネットワーク学習のための最適化に基づくメタラーニング手法を提案する。メタテスト時間における勾配再スケーリングは、非常に高品質なニューラルネットワークの学習を可能にすることを示す。我々のフレームワークは、モデルに依存しない、直感的で、実装が容易であり、幅広い信号に対する大幅な再構成改善を示す。
論文参考訳（メタデータ） (2023-02-01T17:32:16Z)
Leveraging Angular Information Between Feature and Classifier for Long-tailed Learning: A Prediction Reformulation Approach [90.77858044524544]
分類器の重みを再バランスすることなく、包含角度で認識確率を再構成する。予測形式再構成の性能向上に着想を得て, この角度予測の異なる特性について検討する。 CIFAR10/100-LT と ImageNet-LT を事前学習することなく、ピアメソッド間で最高の性能を得ることができる。
論文参考訳（メタデータ） (2022-12-03T07:52:48Z)
Sequential Learning Of Neural Networks for Prequential MDL [18.475866691786695]
ニューラルネットワークを用いた画像分類データセットの事前記述長の計算手法を評価する。計算コストを考慮すると、リハーサルによるオンライン学習は好成績であることがわかった。本稿では,画像分類データセットの集合に対する記述長について述べる。
論文参考訳（メタデータ） (2022-10-14T16:30:23Z)
Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文参考訳（メタデータ） (2021-09-09T12:32:28Z)
Few-shot Learning for Spatial Regression [31.022722103424684]
空間回帰のための数ショット学習法を提案する。本モデルは,地域によって異なる属性の空間的データセットを用いて訓練されている。本研究では,提案手法が既存のメタ学習手法よりも優れた予測性能を実現することを示す。
論文参考訳（メタデータ） (2020-10-09T04:05:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。