論文の概要: Measuring training variability from stochastic optimization using robust nonparametric testing
- arxiv url: http://arxiv.org/abs/2406.08307v2
- Date: Tue, 15 Apr 2025 18:34:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-25 13:58:54.659854
- Title: Measuring training variability from stochastic optimization using robust nonparametric testing
- Title(参考訳): 頑健な非パラメトリックテストを用いた確率的最適化による訓練変数の測定
- Authors: Sinjini Banerjee, Tim Marrinan, Reilly Cannon, Tony Chiang, Anand D. Sarwate,
- Abstract要約: 本稿では,モデル類似度を測定するために,ロバストな仮説テストフレームワークと,新たな要約統計量である$alpha$-trimmingレベルを提案する。
仮説を$alpha$-trimmingレベルで直接適用することは、null仮説の下で分布を正確に記述できないため、難しい。
モデル変数の測定に$alpha$-trimmingレベルを使用する方法を示し、パフォーマンス指標よりも表現力が高いことを実験的に実証する。
- 参考スコア(独自算出の注目度): 5.519968037738177
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep neural network training often involves stochastic optimization, meaning each run will produce a different model. This implies that hyperparameters of the training process, such as the random seed itself, can potentially have significant influence on the variability in the trained models. Measuring model quality by summary statistics, such as test accuracy, can obscure this dependence. We propose a robust hypothesis testing framework and a novel summary statistic, the $\alpha$-trimming level, to measure model similarity. Applying hypothesis testing directly with the $\alpha$-trimming level is challenging because we cannot accurately describe the distribution under the null hypothesis. Our framework addresses this issue by determining how closely an approximate distribution resembles the expected distribution of a group of individually trained models and using this approximation as our reference. We then use the $\alpha$-trimming level to suggest how many training runs should be sampled to ensure that an ensemble is a reliable representative of the true model performance. We also show how to use the $\alpha$-trimming level to measure model variability and demonstrate experimentally that it is more expressive than performance metrics like validation accuracy, churn, or expected calibration error when taken alone. An application of fine-tuning over random seed in transfer learning illustrates the advantage of our new metric.
- Abstract(参考訳): ディープニューラルネットワークトレーニングは、しばしば確率的最適化を伴うため、各ランが異なるモデルを生成する。
これは、ランダムシードのようなトレーニングプロセスのハイパーパラメータが、トレーニングされたモデルの変動に重大な影響を与える可能性を示唆している。
テスト精度などの要約統計によるモデル品質の測定は、この依存を曖昧にする可能性がある。
本稿では,モデル類似度を測定するために,ロバストな仮説テストフレームワークと,新しい要約統計量である$\alpha$-trimmingレベルを提案する。
仮説を$\alpha$-trimmingレベルで直接適用することは、null仮説の下で分布を正確に記述できないため、難しい。
我々のフレームワークは、近似分布が、個別に訓練されたモデルの期待分布にどの程度近いかを判断し、この近似を基準として、この問題に対処する。
次に、$\alpha$-trimmingレベルを使用して、実際のモデルパフォーマンスの信頼できる表現であるアンサンブルを確実にするために、どれだけのトレーニング実行をサンプリングすべきかを提案します。
また、モデル変数を測定するために$\alpha$-trimmingのレベルをどう使うかを示し、検証精度やチャーン、期待されるキャリブレーションエラーといったパフォーマンス指標よりも表現力が高いことを実験的に示す。
トランスファーラーニングにおけるランダムシードの微調整の適用は、我々の新しい指標の利点を示している。
関連論文リスト
- Quantifying Uncertainty and Variability in Machine Learning: Confidence Intervals for Quantiles in Performance Metric Distributions [0.17265013728931003]
マシンラーニングモデルは、信頼性と堅牢性が重要であるアプリケーションで広く使用されている。
モデル評価は、しばしば、モデルパフォーマンスの固有の変数をキャプチャできないパフォーマンスメトリクスの単一ポイント推定に依存します。
この貢献は、そのような分布を分析するために量子と信頼区間を使うことを探求し、モデルの性能とその不確実性についてより完全な理解を提供する。
論文 参考訳(メタデータ) (2025-01-28T13:21:34Z) - Source-Free Unsupervised Domain Adaptation with Hypothesis Consolidation
of Prediction Rationale [53.152460508207184]
Source-Free Unsupervised Domain Adaptation (SFUDA)は、モデルがターゲットのドメインラベルやソースドメインデータにアクセスせずに新しいドメインに適応する必要がある、という課題である。
本稿では,各サンプルについて複数の予測仮説を考察し,各仮説の背景にある理論的根拠について考察する。
最適性能を達成するために,モデル事前適応,仮説統合,半教師付き学習という3段階の適応プロセスを提案する。
論文 参考訳(メタデータ) (2024-02-02T05:53:22Z) - Robust Nonparametric Hypothesis Testing to Understand Variability in
Training Neural Networks [5.8490454659691355]
本稿では,閾値決定前のネットワークの出力に基づく分類モデル間の密接度の新しい尺度を提案する。
我々の測度は、頑健な仮説テストフレームワークに基づいており、訓練されたモデルから派生した他の量に適応することができる。
論文 参考訳(メタデータ) (2023-10-01T01:44:35Z) - Just One Byte (per gradient): A Note on Low-Bandwidth Decentralized
Language Model Finetuning Using Shared Randomness [86.61582747039053]
分散環境での言語モデルトレーニングは、交換の通信コストによって制限される。
分散微調整を低帯域幅で行うために,共有ランダムネスを用いた最近の作業を拡張した。
論文 参考訳(メタデータ) (2023-06-16T17:59:51Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - Estimating Regression Predictive Distributions with Sample Networks [17.935136717050543]
モデル不確実性に対する一般的なアプローチは、パラメトリック分布を選択し、最大推定を用いてデータに適合させることである。
選択されたパラメトリック形式は、データ生成分布に不適合であり、信頼できない不確実性推定をもたらす。
出力分布にパラメトリック形式を指定することを避けるため,不確実性をモデル化するためのフレキシブルでスケーラブルなアーキテクチャであるSampleNetを提案する。
論文 参考訳(メタデータ) (2022-11-24T17:23:29Z) - We need to talk about random seeds [16.33770822558325]
この意見は、ランダムな種子には安全な用途があると主張している。
ACLアンソロジーの85の最近の論文の分析によると、50%以上はランダム種子の危険な使用を含んでいる。
論文 参考訳(メタデータ) (2022-10-24T16:48:45Z) - Post-Selection Confidence Bounds for Prediction Performance [2.28438857884398]
機械学習では、潜在的に多くの競合モデルから有望なモデルを選択し、その一般化性能を評価することが重要な課題である。
本稿では,評価セットの予測性能に基づいて選択された複数のモデルに対して,有効な低信頼境界を求めるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-24T13:28:43Z) - Demystifying Randomly Initialized Networks for Evaluating Generative
Models [28.8899914083501]
生成モデルの評価は、主に、ある特徴空間における推定分布と基底真理分布の比較に基づいて行われる。
サンプルを情報的特徴に組み込むために、以前の研究では、分類に最適化された畳み込みニューラルネットワークを使用していた。
本稿では,ランダムな重み付きモデルの特徴空間を,訓練されたモデルと比較して厳密に検討する。
論文 参考訳(メタデータ) (2022-08-19T08:43:53Z) - Convergence for score-based generative modeling with polynomial
complexity [9.953088581242845]
我々は、Scoreベースの生成モデルの背後にあるコアメカニックに対する最初の収束保証を証明した。
以前の作品と比較すると、時間的に指数関数的に増加するエラーや、次元の呪いに苦しむエラーは発生しない。
予測器・相関器はどちらの部分のみを使用するよりも収束性が高いことを示す。
論文 参考訳(メタデータ) (2022-06-13T14:57:35Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Sampling from Arbitrary Functions via PSD Models [55.41644538483948]
まず確率分布をモデル化し,そのモデルからサンプリングする。
これらのモデルでは, 少数の評価値を用いて, 高精度に多数の密度を近似することが可能であることが示され, それらのモデルから効果的にサンプルする簡単なアルゴリズムが提示される。
論文 参考訳(メタデータ) (2021-10-20T12:25:22Z) - Training on Test Data with Bayesian Adaptation for Covariate Shift [96.3250517412545]
ディープニューラルネットワークは、信頼できない不確実性推定で不正確な予測を行うことが多い。
分布シフトの下でのラベルなし入力とモデルパラメータとの明確に定義された関係を提供するベイズモデルを導出する。
本手法は精度と不確実性の両方を向上することを示す。
論文 参考訳(メタデータ) (2021-09-27T01:09:08Z) - Model-based micro-data reinforcement learning: what are the crucial
model properties and which model to choose? [0.2836066255205732]
我々は,マイクロデータモデルに基づく強化学習(MBRL)に寄与する。
マルチモーダルな後続予測を必要とする環境では、混合密度ネットは他のモデルよりも大きなマージンで優れていることがわかった。
また、決定論的モデルは同等であり、実際、確率論的モデルよりも一貫して(非目立ったことではないが)優れていることも見出した。
論文 参考訳(メタデータ) (2021-07-24T11:38:25Z) - On Misspecification in Prediction Problems and Robustness via Improper
Learning [23.64462813525688]
広い種類の損失関数とパラメトリック分布の族に対して、"プロパ"予測子をプレイしたことの後悔は、少なくとも$sqrtgamma n$として境界スケーリングを下げていることが示される。
パラメトリックファミリーの凸体で分布を再生する可能性のあるすべての学習者の家族にしても、これは改善できない例を示します。
論文 参考訳(メタデータ) (2021-01-13T17:54:08Z) - Improving Maximum Likelihood Training for Text Generation with Density
Ratio Estimation [51.091890311312085]
本稿では,テキスト生成で遭遇する大規模なサンプル空間において,効率よく安定な自動回帰シーケンス生成モデルのトレーニング手法を提案する。
本手法は,品質と多様性の両面で,最大類似度推定や他の最先端シーケンス生成モデルよりも安定に優れている。
論文 参考訳(メタデータ) (2020-07-12T15:31:24Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z) - On the Discrepancy between Density Estimation and Sequence Generation [92.70116082182076]
log-likelihoodは、同じファミリー内のモデルを考えるとき、BLEUと非常に相関している。
異なる家族間でのモデルランキングの相関はみられない。
論文 参考訳(メタデータ) (2020-02-17T20:13:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。