論文の概要: Why Has Predicting Downstream Capabilities of Frontier AI Models with Scale Remained Elusive?
- arxiv url: http://arxiv.org/abs/2406.04391v1
- Date: Thu, 6 Jun 2024 17:46:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 18:39:07.953673
- Title: Why Has Predicting Downstream Capabilities of Frontier AI Models with Scale Remained Elusive?
- Title(参考訳): なぜ大規模に残っているフロンティアAIモデルの下流能力を予測するのか?
- Authors: Rylan Schaeffer, Hailey Schoelkopf, Brando Miranda, Gabriel Mukobi, Varun Madan, Adam Ibrahim, Herbie Bradley, Stella Biderman, Sanmi Koyejo,
- Abstract要約: 広範に使用されている複数選択質問応答ベンチマークのスケーリング動作のモデル化が困難であることを示す。
ダウンストリーム性能は、性能とスケールの統計的関係を段階的に低下させる一連の変換によって負のログ確率から計算されることを示す。
計算量の増加に伴う誤った選択に対して、確率質量と確率質量が共起する正しい選択に対する確率質量がどのようにして成立するかを実証的に研究し、誤った選択に対するスケーリング法則が達成可能であることを示唆する。
- 参考スコア(独自算出の注目度): 26.04581530766348
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Predictable behavior from scaling advanced AI systems is an extremely desirable property. Although a well-established literature exists on how pretraining performance scales, the literature on how particular downstream capabilities scale is significantly muddier. In this work, we take a step back and ask: why has predicting specific downstream capabilities with scale remained elusive? While many factors are certainly responsible, we identify a new factor that makes modeling scaling behavior on widely used multiple-choice question-answering benchmarks challenging. Using five model families and twelve well-established multiple-choice benchmarks, we show that downstream performance is computed from negative log likelihoods via a sequence of transformations that progressively degrade the statistical relationship between performance and scale. We then reveal the mechanism causing this degradation: downstream metrics require comparing the correct choice against a small number of specific incorrect choices, meaning accurately predicting downstream capabilities requires predicting not just how probability mass concentrates on the correct choice with scale, but also how probability mass fluctuates on specific incorrect choices with scale. We empirically study how probability mass on the correct choice co-varies with probability mass on incorrect choices with increasing compute, suggesting that scaling laws for incorrect choices might be achievable. Our work also explains why pretraining scaling laws are commonly regarded as more predictable than downstream capabilities and contributes towards establishing scaling-predictable evaluations of frontier AI models.
- Abstract(参考訳): 高度なAIシステムのスケーリングによる予測可能な振る舞いは、非常に望ましい特性である。
事前トレーニングのパフォーマンスのスケールに関する文献は確立されているが、ダウンストリーム能力のスケールに関する文献は、かなり泥だらけである。
この研究で、私たちは一歩後退して、なぜスケールで特定のダウンストリーム能力を予測したのか?
多くの要因が確かに責任を負っていますが、広く使われている複数の質問回答ベンチマークのスケーリング動作を難しくする新しい要因を特定します。
5つのモデルファミリと12のよく確立されたマルチチョイスベンチマークを用いて、ダウンストリーム性能は、性能とスケールの統計的関係を段階的に低下させる一連の変換によって負のログ可能性から計算されることを示す。
下流のメトリクスは、少数の特定の誤った選択に対して正しい選択を比較する必要があり、正確に下流の能力を予測するためには、スケールによる正しい選択にどのように確率質量が集中するかだけでなく、スケールによる特定の誤った選択にどのように確率質量が変動するかを予測する必要がある。
計算量の増加に伴う誤った選択に対して、確率質量と確率質量が共起する正しい選択に対する確率質量がどのようにして成立するかを実証的に研究し、誤った選択に対するスケーリング法則が達成可能であることを示唆する。
私たちの研究は、事前学習されたスケーリング法則が、下流の能力よりも予測可能なものであると一般的にみなす理由も説明し、フロンティアAIモデルのスケーリング予測可能な評価の確立に寄与している。
関連論文リスト
- Awareness of uncertainty in classification using a multivariate model and multi-views [1.3048920509133808]
提案モデルでは,不確かさ予測を正規化し,予測と不確かさ推定の両方を計算する訓練を行う。
複数ビュー予測と不確かさと信頼度を考慮し、最終的な予測を計算する方法をいくつか提案した。
提案手法はクリーンでノイズの多いラベル付きCIFAR-10データセットを用いて検証した。
論文 参考訳(メタデータ) (2024-04-16T06:40:51Z) - Selecting Large Language Model to Fine-tune via Rectified Scaling Law [74.84096546112215]
制約のあるリソースを前提に、すべてのモデルを微調整し、その後の選択は非現実的である。
微調整スケーリング曲線は、よく知られた「パワーフェーズ」だけでなく、これまで観測されていなかった「プリパワーフェーズ」も含む。
本法則を利用して,資源消費の数百倍少ない最適モデルを選択する新しいLCM選択アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-04T01:55:00Z) - Human Trajectory Forecasting with Explainable Behavioral Uncertainty [63.62824628085961]
人間の軌道予測は人間の行動を理解し予測し、社会ロボットから自動運転車への応用を可能にする。
モデルフリー手法は予測精度が優れているが説明可能性に欠ける一方、モデルベース手法は説明可能性を提供するが、よく予測できない。
BNSP-SFMは,11種類の最先端手法と比較して,予測精度を最大50%向上することを示す。
論文 参考訳(メタデータ) (2023-07-04T16:45:21Z) - Calibrated Selective Classification [34.08454890436067]
そこで我々は,「不確か」な不確実性のある例を拒否する手法を提案する。
本稿では,選択的校正モデル学習のためのフレームワークを提案する。そこでは,任意のベースモデルの選択的校正誤差を改善するために,個別のセレクタネットワークを訓練する。
われわれは,複数画像分類と肺癌リスク評価におけるアプローチの実証的効果を実証した。
論文 参考訳(メタデータ) (2022-08-25T13:31:09Z) - Uncertainty estimation of pedestrian future trajectory using Bayesian
approximation [137.00426219455116]
動的トラフィックシナリオでは、決定論的予測に基づく計画は信頼できない。
著者らは、決定論的アプローチが捉えられない近似を用いて予測中の不確実性を定量化する。
将来の状態の不確実性に対する降雨重量と長期予測の影響について検討した。
論文 参考訳(メタデータ) (2022-05-04T04:23:38Z) - Dense Uncertainty Estimation [62.23555922631451]
本稿では,ニューラルネットワークと不確実性推定手法について検討し,正確な決定論的予測と確実性推定の両方を実現する。
本研究では,アンサンブルに基づく手法と生成モデルに基づく手法の2つの不確実性推定法について検討し,それらの長所と短所を,完全/半端/弱度に制御されたフレームワークを用いて説明する。
論文 参考訳(メタデータ) (2021-10-13T01:23:48Z) - Backward-Compatible Prediction Updates: A Probabilistic Approach [12.049279991559091]
本稿では,予測更新問題を定式化し,上記の質問に対する効率的な確率的アプローチを提案する。
標準分類ベンチマークデータセットの広範な実験において,提案手法は後方互換性のある予測更新のための代替戦略よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-07-02T13:05:31Z) - Multivariate Probabilistic Regression with Natural Gradient Boosting [63.58097881421937]
多変量予測分布の条件パラメータを非パラメトリックにモデル化したNatural Gradient Boosting (NGBoost) 手法を提案する。
提案手法は頑健で, 広範囲なチューニングを伴わず, 推定対象分布に対してモジュール構造であり, 既存の手法と比較して競争力がある。
論文 参考訳(メタデータ) (2021-06-07T17:44:49Z) - Contextual Dropout: An Efficient Sample-Dependent Dropout Module [60.63525456640462]
ドロップアウトは、ディープニューラルネットワークのトレーニングプロセスを正規化するシンプルで効果的なモジュールとして実証されています。
単純でスケーラブルなサンプル依存型ドロップアウトモジュールとして,効率的な構造設計によるコンテキスト型ドロップアウトを提案する。
提案手法は,不確実性推定の精度と品質の両面において,ベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2021-03-06T19:30:32Z) - PrognoseNet: A Generative Probabilistic Framework for Multimodal
Position Prediction given Context Information [2.5302126831371226]
本稿では,予測問題を分類タスクとして再構成し,強力なツールを実現する手法を提案する。
潜在変数のスマートな選択は、分類問題と非常に単純化された回帰問題の組み合わせとして、ログ様関数の再構成を可能にする。
提案手法は文脈情報を容易に組み込むことができ、データの事前処理は不要である。
論文 参考訳(メタデータ) (2020-10-02T06:13:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。