論文の概要: A practical generalization metric for deep networks benchmarking
- arxiv url: http://arxiv.org/abs/2409.01498v1
- Date: Mon, 2 Sep 2024 23:38:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 03:35:27.502571
- Title: A practical generalization metric for deep networks benchmarking
- Title(参考訳): ディープネットワークベンチマークのための実用的な一般化指標
- Authors: Mengqing Huang, Hongchuan Yu, Jianjun Zhang,
- Abstract要約: 本稿では,異なるディープネットワークをベンチマークする実用的な一般化基準を提案し,理論的推定の検証のための新しいテストベッドを提案する。
その結果,分類作業におけるディープネットワークの一般化能力は,分類精度と未確認データの多様性の両方に依存していることがわかった。
利用可能な一般化推定のほとんどは,提案した実測値を用いて得られた実測値と相関しない点に注意が必要である。
- 参考スコア(独自算出の注目度): 4.111474233685893
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is an ongoing and dedicated effort to estimate bounds on the generalization error of deep learning models, coupled with an increasing interest with practical metrics that can be used to experimentally evaluate a model's ability to generalize. This interest is not only driven by practical considerations but is also vital for theoretical research, as theoretical estimations require practical validation. However, there is currently a lack of research on benchmarking the generalization capacity of various deep networks and verifying these theoretical estimations. This paper aims to introduce a practical generalization metric for benchmarking different deep networks and proposes a novel testbed for the verification of theoretical estimations. Our findings indicate that a deep network's generalization capacity in classification tasks is contingent upon both classification accuracy and the diversity of unseen data. The proposed metric system is capable of quantifying the accuracy of deep learning models and the diversity of data, providing an intuitive and quantitative evaluation method, a trade-off point. Furthermore, we compare our practical metric with existing generalization theoretical estimations using our benchmarking testbed. It is discouraging to note that most of the available generalization estimations do not correlate with the practical measurements obtained using our proposed practical metric. On the other hand, this finding is significant as it exposes the shortcomings of theoretical estimations and inspires new exploration.
- Abstract(参考訳): 深層学習モデルの一般化誤差の限界を推定し、モデルが一般化する能力を実験的に評価できる実用的な指標への関心が高まっている。
この関心は、実際的な考察だけでなく、理論的な推定が実際的な検証を必要とするため、理論的な研究にも不可欠である。
しかし、現在、様々なディープネットワークの一般化能力のベンチマークとこれらの理論推定の検証に関する研究が不足している。
本稿では,異なるディープネットワークをベンチマークする実用的な一般化基準を提案し,理論的推定の検証のための新しいテストベッドを提案する。
その結果,分類作業におけるディープネットワークの一般化能力は,分類精度と未確認データの多様性の両方に依存していることがわかった。
提案手法は,ディープラーニングモデルの精度とデータの多様性を定量化し,直感的かつ定量的な評価方法,トレードオフ点を提供する。
さらに,実測値と既存の一般化理論推定をベンチマークテストベッドを用いて比較した。
利用可能な一般化推定のほとんどは,提案した実測値を用いて得られた実測値と相関しない点に注意が必要である。
一方、この発見は理論的な推定の欠点を露呈し、新たな探索を促すために重要である。
関連論文リスト
- PredBench: Benchmarking Spatio-Temporal Prediction across Diverse Disciplines [86.36060279469304]
予測時間ネットワークの総合評価に適したベンチマークであるPredBenchを紹介する。
このベンチマークでは、広く採用されている12のメソッドと、複数のアプリケーションドメインにまたがる多様なデータセットを統合する。
その多次元評価フレームワークは、総合的なメトリクスセットで分析を広げる。
論文 参考訳(メタデータ) (2024-07-11T11:51:36Z) - Empirical Tests of Optimization Assumptions in Deep Learning [41.05664717242051]
本稿では,理論解析において制御しなければならない重要な量を追跡するための新しい経験的指標を開発する。
テストされたすべての仮定は、確実に最適化性能を捉えられません。
このことは、理論解析に使用される解析的仮定の新しい実証的検証の必要性を強調している。
論文 参考訳(メタデータ) (2024-07-01T21:56:54Z) - Calibration-then-Calculation: A Variance Reduced Metric Framework in Deep Click-Through Rate Prediction Models [16.308958212406583]
ディープラーニングパイプラインのパフォーマンス評価に重点が置かれていない。
大きなデータセットと複雑なモデルの使用が増えると、トレーニングプロセスは一度だけ実行され、その結果は以前のベンチマークと比較される。
トレーニングプロセスを複数回実行するような従来のソリューションは、計算上の制約のため、しばしば実現不可能である。
本稿では,従来からある分散を低減し,この問題に対処するために設計された新しい計量フレームワークCalibrated Loss Metricを紹介する。
論文 参考訳(メタデータ) (2024-01-30T02:38:23Z) - A Theoretical and Practical Framework for Evaluating Uncertainty Calibration in Object Detection [1.8843687952462744]
本研究では,不確実性校正の文脈において,物体検出システムを評価するための理論的,実践的な枠組みを提案する。
提案した不確実性校正指標のロバスト性は, 一連の代表的な実験を通して示される。
論文 参考訳(メタデータ) (2023-09-01T14:02:44Z) - Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。
提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。
複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文 参考訳(メタデータ) (2023-06-09T08:30:51Z) - A Theoretical-Empirical Approach to Estimating Sample Complexity of DNNs [11.152761263415046]
本稿では,深層ニューラルネットワーク(DNN)のトレーニングデータ量と一般化誤差のスケールについて考察する。
我々は、ディープネットワークに保持され、到達不能な容量尺度に依存しない一般化誤差の推定を導出する。
論文 参考訳(メタデータ) (2021-05-05T05:14:08Z) - Metrics and continuity in reinforcement learning [34.10996560464196]
メトリクスのレンズを通してトポロジを定義するために統一的な定式化を導入する。
我々はこれらの指標の階層を確立し、マルコフ決定過程にその理論的意味を実証する。
考察した指標間の差異を示す実証的な評価で理論結果を補完する。
論文 参考訳(メタデータ) (2021-02-02T14:30:41Z) - Margin-Based Transfer Bounds for Meta Learning with Deep Feature
Embedding [67.09827634481712]
我々は、マージン理論と統計学習理論を活用し、メタラーニングに基づくマルチクラス分類(MLMC)のための3つのマージンベース転送境界を確立する。
これらの境界は、与えられた将来のタスクに対する分類アルゴリズムの予測誤差を、前のタスクの有限個の平均的な経験誤差で推定できることを示している。
3つのベンチマークの実験は、これらのマージンベースのモデルが依然として競争力のある性能を達成していることを示している。
論文 参考訳(メタデータ) (2020-12-02T23:50:51Z) - In Search of Robust Measures of Generalization [79.75709926309703]
我々は、一般化誤差、最適化誤差、過大なリスクのバウンダリを開発する。
経験的に評価すると、これらの境界の大部分は数値的に空白である。
我々は、分散ロバストネスの枠組みの中で、一般化対策を評価するべきであると論じる。
論文 参考訳(メタデータ) (2020-10-22T17:54:25Z) - Performance metrics for intervention-triggering prediction models do not
reflect an expected reduction in outcomes from using the model [71.9860741092209]
臨床研究者はしばしばリスク予測モデルの中から選択し評価する。
振り返りデータから算出される標準メトリクスは、特定の仮定の下でのみモデルユーティリティに関係します。
予測が時間を通して繰り返し配信される場合、標準メトリクスとユーティリティの関係はさらに複雑になる。
論文 参考訳(メタデータ) (2020-06-02T16:26:49Z) - On the uncertainty of self-supervised monocular depth estimation [52.13311094743952]
単眼深度推定のための自己監督的パラダイムは、基礎的な真理アノテーションを全く必要としないため、非常に魅力的である。
我々は,このタスクの不確かさを推定する方法と,これが深さ精度にどのように影響するかを初めて検討する。
自己教師型アプローチに特化して設計された,斬新な手法を提案する。
論文 参考訳(メタデータ) (2020-05-13T09:00:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。