Fugu-MT 論文翻訳(概要): Why Has Predicting Downstream Capabilities of Frontier AI Models with Scale Remained Elusive?

論文の概要: Why Has Predicting Downstream Capabilities of Frontier AI Models with Scale Remained Elusive?

arxiv url: http://arxiv.org/abs/2406.04391v2
Date: Wed, 05 Feb 2025 17:44:38 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-07 15:30:40.241468
Title: Why Has Predicting Downstream Capabilities of Frontier AI Models with Scale Remained Elusive?
Title（参考訳）: なぜ大規模に残っているフロンティアAIモデルの下流能力を予測するのか?
Authors: Rylan Schaeffer, Hailey Schoelkopf, Brando Miranda, Gabriel Mukobi, Varun Madan, Adam Ibrahim, Herbie Bradley, Stella Biderman, Sanmi Koyejo,
Abstract要約: 本稿では,質問応答ベンチマークにおけるスケーリングの予測を困難にする重要な要因を明らかにする。ダウンストリーム性能は、性能とスケールの統計的関係を段階的に劣化させる一連の変換によって負のログ確率から計算されることを示す。計算量の増加に伴う誤った選択に対する確率質量と確率質量の相関関係について検討し,テキスト不正確な選択に対するスケーリング法則が達成可能であることを示唆した。
参考スコア（独自算出の注目度）: 26.04581530766348
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Predicting changes from scaling advanced AI systems is a desirable property for engineers, economists, governments and industry alike, and, while a well-established literature exists on how pretraining performance scales, predictable scaling behavior on downstream capabilities remains elusive. While many factors are certainly responsible, this paper identifies a significant factor that makes predicting scaling behavior on widely used multiple-choice question answering benchmarks challenging and illuminates a path towards making such downstream evaluations predictable with scale. Using five model families and twelve well-established multiple-choice benchmarks, we demonstrate that downstream performance is computed from negative log likelihoods via a sequence of transformations that progressively degrades the statistical relationship between performance and scale. We then pinpoint the mechanism causing this degradation: downstream metrics require comparing the correct choice against a small number of specific incorrect choices, meaning accurately predicting downstream capabilities requires predicting not just how probability mass concentrates on the correct choice with scale, but also how probability mass fluctuates on the alternative incorrect choices with scale. We empirically study how probability mass on the correct choice co-varies with probability mass on incorrect choices with increasing compute, suggesting that scaling laws for \textit{incorrect} choices might be achievable. Our work also explains why pretraining scaling laws are commonly regarded as more predictable than downstream capabilities and contributes towards establishing scaling-predictable evaluations of frontier AI models.
Abstract（参考訳）: 高度なAIシステムのスケーリングからの変化を予測することは、エンジニア、経済学者、政府、そして業界にとっても望ましい特性であり、パフォーマンスのスケールを事前訓練する方法については、十分に確立された文献があるが、下流の能力に対する予測可能なスケーリングの振る舞いは、明らかになっていない。多くの要因が確実に責任を負っているが、本論文は、広く使われている多点質問応答ベンチマークにおいて、スケールの予測を可能にする重要な要因を特定し、そのようなダウンストリーム評価をスケールで予測可能なものにするための道筋を照らす。 5つのモデルファミリと12のよく確立された多重選択ベンチマークを用いて、ダウンストリーム性能は、性能とスケールの統計的関係を段階的に低下させる一連の変換によって負のログ可能性から計算されることを示した。下流のメトリクスは、少数の特定の誤った選択と正しい選択を比較する必要があり、正確に下流の能力を予測するには、スケールで正しい選択に集中する確率の予測だけでなく、スケールで別の間違った選択にどのように確率の質量が変動するかを予測する必要がある。計算量の増加に伴う不正確な選択に対して、確率質量と確率質量が共起する正しい選択に対する確率質量がどのようにして成立するかを実証的に研究し、 \textit{incorrect} の選択に対する法則のスケーリングが達成可能であることを示唆する。私たちの研究は、事前学習されたスケーリング法則が、下流の能力よりも予測可能なものであると一般的にみなす理由も説明し、フロンティアAIモデルのスケーリング予測可能な評価の確立に寄与している。

関連論文リスト

Multidimensional Uncertainty Quantification via Optimal Transport [87.97146725546502]
相補的なUQ測度をベクトルに積み重ねることで,不確実性定量化(UQ)の多次元的考察を行う。 VecUQ-OTは、個々の測定が失敗しても高い効率を示す。
論文参考訳（メタデータ） (2025-09-26T14:09:03Z)
Awareness of uncertainty in classification using a multivariate model and multi-views [1.3048920509133808]
提案モデルでは,不確かさ予測を正規化し,予測と不確かさ推定の両方を計算する訓練を行う。複数ビュー予測と不確かさと信頼度を考慮し、最終的な予測を計算する方法をいくつか提案した。提案手法はクリーンでノイズの多いラベル付きCIFAR-10データセットを用いて検証した。
論文参考訳（メタデータ） (2024-04-16T06:40:51Z)
Selecting Large Language Model to Fine-tune via Rectified Scaling Law [74.84096546112215]
制約のあるリソースを前提に、すべてのモデルを微調整し、その後の選択は非現実的である。微調整スケーリング曲線は、よく知られた「パワーフェーズ」だけでなく、これまで観測されていなかった「プリパワーフェーズ」も含む。本法則を利用して,資源消費の数百倍少ない最適モデルを選択する新しいLCM選択アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-02-04T01:55:00Z)
Human Trajectory Forecasting with Explainable Behavioral Uncertainty [63.62824628085961]
人間の軌道予測は人間の行動を理解し予測し、社会ロボットから自動運転車への応用を可能にする。モデルフリー手法は予測精度が優れているが説明可能性に欠ける一方、モデルベース手法は説明可能性を提供するが、よく予測できない。 BNSP-SFMは,11種類の最先端手法と比較して,予測精度を最大50%向上することを示す。
論文参考訳（メタデータ） (2023-07-04T16:45:21Z)
Improved Bayes Risk Can Yield Reduced Social Welfare Under Competition [99.7047087527422]
本研究は,機械学習のスケーリングトレンドの振る舞いを根本的に変化させることを実証する。データ表現品質の改善により、ユーザ間での全体的な予測精度が低下する、多くの設定が見つかる。概念レベルでは,各モデルプロジェクタのスケーリング傾向が,社会福祉の下流改善に寄与する必要はないことが示唆された。
論文参考訳（メタデータ） (2023-06-26T13:06:34Z)
Calibrated Selective Classification [34.08454890436067]
そこで我々は,「不確か」な不確実性のある例を拒否する手法を提案する。本稿では,選択的校正モデル学習のためのフレームワークを提案する。そこでは,任意のベースモデルの選択的校正誤差を改善するために,個別のセレクタネットワークを訓練する。われわれは,複数画像分類と肺癌リスク評価におけるアプローチの実証的効果を実証した。
論文参考訳（メタデータ） (2022-08-25T13:31:09Z)
Selective Prediction via Training Dynamics [31.708701583736644]
本研究では,モデルのトレーニング力学を学習することで,最先端の選択的予測性能が得られることを示す。特に、トレーニングの後半段階で最終予測と大差ないデータポイントを拒否する。提案された拒絶機構はドメインに依存しない(すなわち、離散予測と実数値予測の両方に有効)、既存の選択的予測手法と柔軟に組み合わせることができる。
論文参考訳（メタデータ） (2022-05-26T17:51:29Z)
Uncertainty estimation of pedestrian future trajectory using Bayesian approximation [137.00426219455116]
動的トラフィックシナリオでは、決定論的予測に基づく計画は信頼できない。著者らは、決定論的アプローチが捉えられない近似を用いて予測中の不確実性を定量化する。将来の状態の不確実性に対する降雨重量と長期予測の影響について検討した。
論文参考訳（メタデータ） (2022-05-04T04:23:38Z)
Taming Overconfident Prediction on Unlabeled Data from Hindsight [50.9088560433925]
ラベルのないデータに対する予測の不確実性を最小化することは、半教師付き学習において優れた性能を達成するための鍵となる要素である。本稿では,アダプティブシャーニング(Adaptive Sharpening, ADS)と呼ばれる2つのメカニズムを提案する。 ADSは、プラグインにすることで最先端のSSLメソッドを大幅に改善する。
論文参考訳（メタデータ） (2021-12-15T15:17:02Z)
Dense Uncertainty Estimation [62.23555922631451]
本稿では,ニューラルネットワークと不確実性推定手法について検討し,正確な決定論的予測と確実性推定の両方を実現する。本研究では,アンサンブルに基づく手法と生成モデルに基づく手法の2つの不確実性推定法について検討し,それらの長所と短所を,完全/半端/弱度に制御されたフレームワークを用いて説明する。
論文参考訳（メタデータ） (2021-10-13T01:23:48Z)
Calibrating Predictions to Decisions: A Novel Approach to Multi-Class Calibration [118.26862029820447]
我々は、下流の意思決定者に対して、予測された分布と真の分布を区別不能にする必要がある新しい概念、即時校正を導入します。決定キャリブレーションは、皮膚病変の判定と、現代のニューラルネットワークを用いたImageNet分類を改善する。
論文参考訳（メタデータ） (2021-07-12T20:17:28Z)
Backward-Compatible Prediction Updates: A Probabilistic Approach [12.049279991559091]
本稿では,予測更新問題を定式化し,上記の質問に対する効率的な確率的アプローチを提案する。標準分類ベンチマークデータセットの広範な実験において,提案手法は後方互換性のある予測更新のための代替戦略よりも優れていることを示す。
論文参考訳（メタデータ） (2021-07-02T13:05:31Z)
Multivariate Probabilistic Regression with Natural Gradient Boosting [63.58097881421937]
多変量予測分布の条件パラメータを非パラメトリックにモデル化したNatural Gradient Boosting (NGBoost) 手法を提案する。提案手法は頑健で, 広範囲なチューニングを伴わず, 推定対象分布に対してモジュール構造であり, 既存の手法と比較して競争力がある。
論文参考訳（メタデータ） (2021-06-07T17:44:49Z)
Contextual Dropout: An Efficient Sample-Dependent Dropout Module [60.63525456640462]
ドロップアウトは、ディープニューラルネットワークのトレーニングプロセスを正規化するシンプルで効果的なモジュールとして実証されています。単純でスケーラブルなサンプル依存型ドロップアウトモジュールとして,効率的な構造設計によるコンテキスト型ドロップアウトを提案する。提案手法は,不確実性推定の精度と品質の両面において,ベースライン法よりも優れていた。
論文参考訳（メタデータ） (2021-03-06T19:30:32Z)
Learnable and Instance-Robust Predictions for Online Matching, Flows and Load Balancing [12.961453245099044]
本稿では,アルゴリズムが形式的に学習可能で,例えば頑健であることを要求して,予測を伴うアルゴリズムの拡張モデルを提案する。ネットワークフロー割当問題と制限された割当ミスパン最小化の予測を含むオンラインアルゴリズムを設計する。
論文参考訳（メタデータ） (2020-11-23T21:38:57Z)
PrognoseNet: A Generative Probabilistic Framework for Multimodal Position Prediction given Context Information [2.5302126831371226]
本稿では,予測問題を分類タスクとして再構成し,強力なツールを実現する手法を提案する。潜在変数のスマートな選択は、分類問題と非常に単純化された回帰問題の組み合わせとして、ログ様関数の再構成を可能にする。提案手法は文脈情報を容易に組み込むことができ、データの事前処理は不要である。
論文参考訳（メタデータ） (2020-10-02T06:13:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。