論文の概要: Measuring training variability from stochastic optimization using robust nonparametric testing
- arxiv url: http://arxiv.org/abs/2406.08307v2
- Date: Tue, 15 Apr 2025 18:34:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 14:37:26.442643
- Title: Measuring training variability from stochastic optimization using robust nonparametric testing
- Title(参考訳): 頑健な非パラメトリックテストを用いた確率的最適化による訓練変数の測定
- Authors: Sinjini Banerjee, Tim Marrinan, Reilly Cannon, Tony Chiang, Anand D. Sarwate,
- Abstract要約: 本稿では,モデル類似度を測定するために,ロバストな仮説テストフレームワークと,新たな要約統計量である$alpha$-trimmingレベルを提案する。
仮説を$alpha$-trimmingレベルで直接適用することは、null仮説の下で分布を正確に記述できないため、難しい。
モデル変数の測定に$alpha$-trimmingレベルを使用する方法を示し、パフォーマンス指標よりも表現力が高いことを実験的に実証する。
- 参考スコア(独自算出の注目度): 5.519968037738177
- License:
- Abstract: Deep neural network training often involves stochastic optimization, meaning each run will produce a different model. This implies that hyperparameters of the training process, such as the random seed itself, can potentially have significant influence on the variability in the trained models. Measuring model quality by summary statistics, such as test accuracy, can obscure this dependence. We propose a robust hypothesis testing framework and a novel summary statistic, the $\alpha$-trimming level, to measure model similarity. Applying hypothesis testing directly with the $\alpha$-trimming level is challenging because we cannot accurately describe the distribution under the null hypothesis. Our framework addresses this issue by determining how closely an approximate distribution resembles the expected distribution of a group of individually trained models and using this approximation as our reference. We then use the $\alpha$-trimming level to suggest how many training runs should be sampled to ensure that an ensemble is a reliable representative of the true model performance. We also show how to use the $\alpha$-trimming level to measure model variability and demonstrate experimentally that it is more expressive than performance metrics like validation accuracy, churn, or expected calibration error when taken alone. An application of fine-tuning over random seed in transfer learning illustrates the advantage of our new metric.
- Abstract(参考訳): ディープニューラルネットワークトレーニングは、しばしば確率的最適化を伴うため、各ランが異なるモデルを生成する。
これは、ランダムシードのようなトレーニングプロセスのハイパーパラメータが、トレーニングされたモデルの変動に重大な影響を与える可能性を示唆している。
テスト精度などの要約統計によるモデル品質の測定は、この依存を曖昧にする可能性がある。
本稿では,モデル類似度を測定するために,ロバストな仮説テストフレームワークと,新しい要約統計量である$\alpha$-trimmingレベルを提案する。
仮説を$\alpha$-trimmingレベルで直接適用することは、null仮説の下で分布を正確に記述できないため、難しい。
我々のフレームワークは、近似分布が、個別に訓練されたモデルの期待分布にどの程度近いかを判断し、この近似を基準として、この問題に対処する。
次に、$\alpha$-trimmingレベルを使用して、実際のモデルパフォーマンスの信頼できる表現であるアンサンブルを確実にするために、どれだけのトレーニング実行をサンプリングすべきかを提案します。
また、モデル変数を測定するために$\alpha$-trimmingのレベルをどう使うかを示し、検証精度やチャーン、期待されるキャリブレーションエラーといったパフォーマンス指標よりも表現力が高いことを実験的に示す。
トランスファーラーニングにおけるランダムシードの微調整の適用は、我々の新しい指標の利点を示している。
関連論文リスト
- Test-Time Alignment via Hypothesis Reweighting [56.71167047381817]
大規模な事前訓練されたモデルは、しばしば未指定のタスクで苦労する。
テストタイムのユーザ意図にモデルを整合させるという課題に対処する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-11T23:02:26Z) - Just One Byte (per gradient): A Note on Low-Bandwidth Decentralized
Language Model Finetuning Using Shared Randomness [86.61582747039053]
分散環境での言語モデルトレーニングは、交換の通信コストによって制限される。
分散微調整を低帯域幅で行うために,共有ランダムネスを用いた最近の作業を拡張した。
論文 参考訳(メタデータ) (2023-06-16T17:59:51Z) - We need to talk about random seeds [16.33770822558325]
この意見は、ランダムな種子には安全な用途があると主張している。
ACLアンソロジーの85の最近の論文の分析によると、50%以上はランダム種子の危険な使用を含んでいる。
論文 参考訳(メタデータ) (2022-10-24T16:48:45Z) - Post-Selection Confidence Bounds for Prediction Performance [2.28438857884398]
機械学習では、潜在的に多くの競合モデルから有望なモデルを選択し、その一般化性能を評価することが重要な課題である。
本稿では,評価セットの予測性能に基づいて選択された複数のモデルに対して,有効な低信頼境界を求めるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-24T13:28:43Z) - Demystifying Randomly Initialized Networks for Evaluating Generative
Models [28.8899914083501]
生成モデルの評価は、主に、ある特徴空間における推定分布と基底真理分布の比較に基づいて行われる。
サンプルを情報的特徴に組み込むために、以前の研究では、分類に最適化された畳み込みニューラルネットワークを使用していた。
本稿では,ランダムな重み付きモデルの特徴空間を,訓練されたモデルと比較して厳密に検討する。
論文 参考訳(メタデータ) (2022-08-19T08:43:53Z) - Convergence for score-based generative modeling with polynomial
complexity [9.953088581242845]
我々は、Scoreベースの生成モデルの背後にあるコアメカニックに対する最初の収束保証を証明した。
以前の作品と比較すると、時間的に指数関数的に増加するエラーや、次元の呪いに苦しむエラーは発生しない。
予測器・相関器はどちらの部分のみを使用するよりも収束性が高いことを示す。
論文 参考訳(メタデータ) (2022-06-13T14:57:35Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Sampling from Arbitrary Functions via PSD Models [55.41644538483948]
まず確率分布をモデル化し,そのモデルからサンプリングする。
これらのモデルでは, 少数の評価値を用いて, 高精度に多数の密度を近似することが可能であることが示され, それらのモデルから効果的にサンプルする簡単なアルゴリズムが提示される。
論文 参考訳(メタデータ) (2021-10-20T12:25:22Z) - Model-based micro-data reinforcement learning: what are the crucial
model properties and which model to choose? [0.2836066255205732]
我々は,マイクロデータモデルに基づく強化学習(MBRL)に寄与する。
マルチモーダルな後続予測を必要とする環境では、混合密度ネットは他のモデルよりも大きなマージンで優れていることがわかった。
また、決定論的モデルは同等であり、実際、確率論的モデルよりも一貫して(非目立ったことではないが)優れていることも見出した。
論文 参考訳(メタデータ) (2021-07-24T11:38:25Z) - Improving Maximum Likelihood Training for Text Generation with Density
Ratio Estimation [51.091890311312085]
本稿では,テキスト生成で遭遇する大規模なサンプル空間において,効率よく安定な自動回帰シーケンス生成モデルのトレーニング手法を提案する。
本手法は,品質と多様性の両面で,最大類似度推定や他の最先端シーケンス生成モデルよりも安定に優れている。
論文 参考訳(メタデータ) (2020-07-12T15:31:24Z) - On the Discrepancy between Density Estimation and Sequence Generation [92.70116082182076]
log-likelihoodは、同じファミリー内のモデルを考えるとき、BLEUと非常に相関している。
異なる家族間でのモデルランキングの相関はみられない。
論文 参考訳(メタデータ) (2020-02-17T20:13:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。