論文の概要: Measuring model variability using robust non-parametric testing
- arxiv url: http://arxiv.org/abs/2406.08307v1
- Date: Wed, 12 Jun 2024 15:08:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 16:26:24.106089
- Title: Measuring model variability using robust non-parametric testing
- Title(参考訳): 頑健な非パラメトリックテストを用いたモデル可変性の測定
- Authors: Sinjini Banerjee, Tim Marrinan, Reilly Cannon, Tony Chiang, Anand D. Sarwate,
- Abstract要約: この研究は、異なるランダムシードで訓練されたディープネットモデルと、予測されたモデルの振る舞いとの関係を記述しようとするものである。
本稿では,$alpha$-trimming($alpha$-trimming)レベルと呼ばれる,ネットワーク類似性に関する新しい要約統計法を提案する。
我々は、$alpha$-trimmingレベルが、バリデーションの正確性、チャーン、または単独でのキャリブレーションエラーなど、さまざまなパフォーマンス指標よりも表現力が高いことを示した。
- 参考スコア(独自算出の注目度): 5.519968037738177
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training a deep neural network often involves stochastic optimization, meaning each run will produce a different model. The seed used to initialize random elements of the optimization procedure heavily influences the quality of a trained model, which may be obscure from many commonly reported summary statistics, like accuracy. However, random seed is often not included in hyper-parameter optimization, perhaps because the relationship between seed and model quality is hard to describe. This work attempts to describe the relationship between deep net models trained with different random seeds and the behavior of the expected model. We adopt robust hypothesis testing to propose a novel summary statistic for network similarity, referred to as the $\alpha$-trimming level. We use the $\alpha$-trimming level to show that the empirical cumulative distribution function of an ensemble model created from a collection of trained models with different random seeds approximates the average of these functions as the number of models in the collection grows large. This insight provides guidance for how many random seeds should be sampled to ensure that an ensemble of these trained models is a reliable representative. We also show that the $\alpha$-trimming level is more expressive than different performance metrics like validation accuracy, churn, or expected calibration error when taken alone and may help with random seed selection in a more principled fashion. We demonstrate the value of the proposed statistic in real experiments and illustrate the advantage of fine-tuning over random seed with an experiment in transfer learning.
- Abstract(参考訳): ディープニューラルネットワークのトレーニングには確率的最適化が伴うことが多い。
最適化手順のランダムな要素を初期化するために使用されるシードは、トレーニングされたモデルの品質に大きく影響する。
しかし、種子とモデル品質の関係は説明が難しいため、しばしば超パラメータ最適化にはランダムシードは含まれない。
この研究は、異なるランダムシードで訓練されたディープネットモデルと、予測されたモデルの振る舞いとの関係を記述しようとするものである。
我々は、ネットワーク類似性に関する新しい要約統計量($\alpha$-trimming level)を提案するために、ロバスト仮説テストを採用する。
我々は、異なるランダムシードを持つ訓練されたモデルの集合から生成されたアンサンブルモデルの経験的累積分布関数が、コレクション内のモデル数が大きくなるにつれて、これらの関数の平均を近似することを示すために、$\alpha$-trimmingレベルを用いる。
この洞察は、これらのトレーニングされたモデルのアンサンブルが信頼できる代表であることを保証するために、ランダムな種をいくつサンプリングすべきかのガイダンスを提供する。
また、$\alpha$-trimmingのレベルは、検証精度やチャーン、単独で行う場合のキャリブレーションエラーなど、さまざまなパフォーマンス指標よりも表現力が高く、より原則化された方法でランダムなシード選択を支援することも示している。
実実験において提案した統計値の価値を実証し, 移動学習実験によるランダムシードに対する微調整の利点を示す。
関連論文リスト
- Just One Byte (per gradient): A Note on Low-Bandwidth Decentralized
Language Model Finetuning Using Shared Randomness [86.61582747039053]
分散環境での言語モデルトレーニングは、交換の通信コストによって制限される。
分散微調整を低帯域幅で行うために,共有ランダムネスを用いた最近の作業を拡張した。
論文 参考訳(メタデータ) (2023-06-16T17:59:51Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - We need to talk about random seeds [16.33770822558325]
この意見は、ランダムな種子には安全な用途があると主張している。
ACLアンソロジーの85の最近の論文の分析によると、50%以上はランダム種子の危険な使用を含んでいる。
論文 参考訳(メタデータ) (2022-10-24T16:48:45Z) - Post-Selection Confidence Bounds for Prediction Performance [2.28438857884398]
機械学習では、潜在的に多くの競合モデルから有望なモデルを選択し、その一般化性能を評価することが重要な課題である。
本稿では,評価セットの予測性能に基づいて選択された複数のモデルに対して,有効な低信頼境界を求めるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-24T13:28:43Z) - Demystifying Randomly Initialized Networks for Evaluating Generative
Models [28.8899914083501]
生成モデルの評価は、主に、ある特徴空間における推定分布と基底真理分布の比較に基づいて行われる。
サンプルを情報的特徴に組み込むために、以前の研究では、分類に最適化された畳み込みニューラルネットワークを使用していた。
本稿では,ランダムな重み付きモデルの特徴空間を,訓練されたモデルと比較して厳密に検討する。
論文 参考訳(メタデータ) (2022-08-19T08:43:53Z) - Convergence for score-based generative modeling with polynomial
complexity [9.953088581242845]
我々は、Scoreベースの生成モデルの背後にあるコアメカニックに対する最初の収束保証を証明した。
以前の作品と比較すると、時間的に指数関数的に増加するエラーや、次元の呪いに苦しむエラーは発生しない。
予測器・相関器はどちらの部分のみを使用するよりも収束性が高いことを示す。
論文 参考訳(メタデータ) (2022-06-13T14:57:35Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Sampling from Arbitrary Functions via PSD Models [55.41644538483948]
まず確率分布をモデル化し,そのモデルからサンプリングする。
これらのモデルでは, 少数の評価値を用いて, 高精度に多数の密度を近似することが可能であることが示され, それらのモデルから効果的にサンプルする簡単なアルゴリズムが提示される。
論文 参考訳(メタデータ) (2021-10-20T12:25:22Z) - Model-based micro-data reinforcement learning: what are the crucial
model properties and which model to choose? [0.2836066255205732]
我々は,マイクロデータモデルに基づく強化学習(MBRL)に寄与する。
マルチモーダルな後続予測を必要とする環境では、混合密度ネットは他のモデルよりも大きなマージンで優れていることがわかった。
また、決定論的モデルは同等であり、実際、確率論的モデルよりも一貫して(非目立ったことではないが)優れていることも見出した。
論文 参考訳(メタデータ) (2021-07-24T11:38:25Z) - Improving Maximum Likelihood Training for Text Generation with Density
Ratio Estimation [51.091890311312085]
本稿では,テキスト生成で遭遇する大規模なサンプル空間において,効率よく安定な自動回帰シーケンス生成モデルのトレーニング手法を提案する。
本手法は,品質と多様性の両面で,最大類似度推定や他の最先端シーケンス生成モデルよりも安定に優れている。
論文 参考訳(メタデータ) (2020-07-12T15:31:24Z) - On the Discrepancy between Density Estimation and Sequence Generation [92.70116082182076]
log-likelihoodは、同じファミリー内のモデルを考えるとき、BLEUと非常に相関している。
異なる家族間でのモデルランキングの相関はみられない。
論文 参考訳(メタデータ) (2020-02-17T20:13:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。