論文の概要: Scaling Laws Do Not Scale
- arxiv url: http://arxiv.org/abs/2307.03201v1
- Date: Wed, 5 Jul 2023 15:32:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-10 14:26:32.176313
- Title: Scaling Laws Do Not Scale
- Title(参考訳): スケーリングの法則はスケールしない
- Authors: Fernando Diaz and Michael Madaio
- Abstract要約: 大規模なAIモデルのトレーニングに使用されるデータセットのサイズが大きくなるにつれて、異なるコミュニティの数が増加する可能性がある、と私たちは主張する。
その結果、データセットで表されるコミュニティが、モデルパフォーマンスを評価するために使用されるメトリクスによってキャプチャされない値や嗜好を持つリスクが増大する。
- 参考スコア(独自算出の注目度): 87.76714490248779
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work has proposed a power law relationship, referred to as ``scaling
laws,'' between the performance of artificial intelligence (AI) models and
aspects of those models' design (e.g., dataset size). In other words, as the
size of a dataset (or model parameters, etc) increases, the performance of a
given model trained on that dataset will correspondingly increase. However,
while compelling in the aggregate, this scaling law relationship overlooks the
ways that metrics used to measure performance may be precarious and contested,
or may not correspond with how different groups of people may perceive the
quality of models' output. In this paper, we argue that as the size of datasets
used to train large AI models grows, the number of distinct communities
(including demographic groups) whose data is included in a given dataset is
likely to grow, each of whom may have different values. As a result, there is
an increased risk that communities represented in a dataset may have values or
preferences not captured by (or in the worst case, at odds with) the metrics
used to evaluate model performance for scaling laws. We end the paper with
implications for AI scaling laws -- that models may not, in fact, continue to
improve as the datasets get larger -- at least not for all people or
communities impacted by those models.
- Abstract(参考訳): 近年の研究では、人工知能(AI)モデルの性能とそれらのモデルの設計(例えばデータセットサイズ)の側面との間の「スケーリング法則」と呼ばれるパワーローの関係が提案されている。
言い換えると、データセット(またはモデルパラメータなど)のサイズが大きくなると、そのデータセットでトレーニングされた所定のモデルのパフォーマンスは対応するほど増加する。
しかしながら、このスケーリング法則は、集計において説得力がある一方で、パフォーマンスを測定するために使われる指標が悪用され、競合する可能性がある、あるいは、異なるグループの人々がモデルの出力の質をどう知覚するかを無視する。
本稿では、大規模AIモデルのトレーニングに使用されるデータセットのサイズが大きくなるにつれて、データセットに含まれるデータを含む異なるコミュニティ(人口統計群を含む)の数が増加し、それぞれが異なる価値を持つ可能性があることを論じる。
その結果、データセットで表されるコミュニティが、法をスケールするためにモデルパフォーマンスを評価するのに使用されるメトリクスによってキャプチャされない(または最悪の場合)値や好みを持つリスクが増加する。
論文の最後には、aiのスケーリングに関する法律 -- データセットが大きくなるにつれて、モデルが改善を続けるとは限らない — 少なくとも、これらのモデルに影響を受けるすべての人々やコミュニティにとって。
関連論文リスト
- On Hate Scaling Laws For Data-Swamps [14.891493485229251]
HCR(Hate Content Rate)測定値で測定すると,データセットにおけるヘイトフルコンテンツの存在が約12%増加した。
スケールが大きくなるにつれて、他の7つの攻撃的クラスに比べて、人間の顔の画像と人間のクラスを関連付ける傾向が半減した。
黒人女性のカテゴリーでは、モデルを犯罪者のクラスに関連付ける傾向は2倍になり、黒人男性の顔のクインタップリングは4倍になった。
論文 参考訳(メタデータ) (2023-06-22T18:00:17Z) - Non-Invasive Fairness in Learning through the Lens of Data Drift [88.37640805363317]
データや学習アルゴリズムを変更することなく、機械学習モデルの公平性を向上する方法を示す。
異なる集団間の傾向のばらつきと、学習モデルと少数民族間の連続的な傾向は、データドリフトと類似している。
このドリフトを解決するための2つの戦略(モデル分割とリウィーディング)を探索し、基礎となるデータに対するモデル全体の適合性を改善することを目的としている。
論文 参考訳(メタデータ) (2023-03-30T17:30:42Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - A Solvable Model of Neural Scaling Laws [72.8349503901712]
大量のパラメータを持つ大規模な言語モデルは、インターネットに近い数のトークンで訓練されると、ニューラルネットワークのスケーリング法則に従うことが実証的に示されている。
我々は,このニューラルスケーリング現象を捉える統計モデル(共同生成データモデルとランダム特徴モデル)を提案する。
主な発見は、自然データセットの統計に現れる電力法則が非線形ランダムな特徴写像によって拡張される方法である。
論文 参考訳(メタデータ) (2022-10-30T15:13:18Z) - Scaling Laws for Acoustic Models [7.906034575114518]
近年の研究では、クロスエントロピー目的関数を持つ自己回帰生成モデルがスムーズなパワー-ロー関係を示すことが示されている。
自動予測符号損失で訓練された音響モデルは、まるで同様のスケーリング法則に従うかのように振る舞うことを示す。
論文 参考訳(メタデータ) (2021-06-11T18:59:24Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - Interpretabilit\'e des mod\`eles : \'etat des lieux des m\'ethodes et
application \`a l'assurance [1.6058099298620423]
データは、今日の多くのモデルの原材料であり、デジタルサービスの品質とパフォーマンスを向上させることができる。
モデル利用者は、モデルが差別されないようにし、その結果を説明することも可能であることを保証する必要がある。
予測アルゴリズムのパネルを広げると、科学者はモデルの使用について警戒するようになる。
論文 参考訳(メタデータ) (2020-07-25T12:18:07Z) - When Ensembling Smaller Models is More Efficient than Single Large
Models [52.38997176317532]
アンサンブルは高い精度で単一モデルより優れており、計算に要する総FLOPは少ない。
これは、アンサンブルの出力の多様性がより大きなモデルを訓練するよりも効率的であることを示す興味深い観察結果である。
論文 参考訳(メタデータ) (2020-05-01T18:56:18Z) - Scaling Laws for Neural Language Models [14.472857826717613]
クロスエントロピー損失に対する言語モデル性能のスケーリング法則について検討する。
損失は、モデルサイズ、データセットサイズ、トレーニングに使用される計算量など、パワーローとしてスケールする。
論文 参考訳(メタデータ) (2020-01-23T03:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。