論文の概要: Revisiting Generalization Measures Beyond IID: An Empirical Study under Distributional Shift
- arxiv url: http://arxiv.org/abs/2602.01718v1
- Date: Mon, 02 Feb 2026 06:56:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.962994
- Title: Revisiting Generalization Measures Beyond IID: An Empirical Study under Distributional Shift
- Title(参考訳): IIDを超越した一般化政策の再検討--分布シフト下における実証的研究
- Authors: Sora Nakai, Youssef Fadhloun, Kacem Mathlouthi, Kotaro Yoshida, Ganesh Talluri, Ioannis Mitliagkas, Hiroki Naganuma,
- Abstract要約: 一般化は依然として深層学習における中心的かつ未解決の課題である。
IID体制を超えた一般化対策の頑健さをベンチマークする。
分布シフトは多くの一般化尺度の予測性能を著しく変化させることができる。
- 参考スコア(独自算出の注目度): 8.901651365617491
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generalization remains a central yet unresolved challenge in deep learning, particularly the ability to predict a model's performance beyond its training distribution using quantities available prior to test-time evaluation. Building on the large-scale study of Jiang et al. (2020). and concerns by Dziugaite et al. (2020). about instability across training configurations, we benchmark the robustness of generalization measures beyond IID regime. We train small-to-medium models over 10,000 hyperparameter configurations and evaluate more than 40 measures computable from the trained model and the available training data alone. We significantly broaden the experimental scope along multiple axes: (i) extending the evaluation beyond the standard IID setting to include benchmarking for robustness across diverse distribution shifts, (ii) evaluating multiple architectures and training recipes, and (iii) newly incorporating calibration- and information-criteria-based measures to assess their alignment with both IID and OOD generalization. We find that distribution shifts can substantially alter the predictive performance of many generalization measures, while a smaller subset remains comparatively stable across settings.
- Abstract(参考訳): 一般化は、ディープラーニングにおける中心的かつ未解決の課題であり、特に、テスト時間評価の前に利用可能な量を用いて、トレーニング分布を超えてモデルのパフォーマンスを予測する能力である。
Jiang et al (2020) の大規模研究に基づく。
そして、Dziugaite et al (2020)による懸念です。
トレーニング構成間の不安定性について、IID体制を超えた一般化対策の堅牢性をベンチマークする。
トレーニングされたモデルと利用可能なトレーニングデータのみから計算可能な40以上の指標を評価する。
複数の軸に沿って実験範囲を大きく広げる。
i) 標準ID設定を超えて評価を拡張し、多様な分散シフトにおけるロバストネスのベンチマークを含む。
(二)複数の建築、訓練レシピの評価、及び
三 校正基準及び情報基準に基づく対策を新たに導入し、IID及びOODの一般化の両面での整合性を評価する。
分布シフトは、多くの一般化尺度の予測性能を著しく変化させるが、より小さなサブセットは、設定全体にわたって比較的安定である。
関連論文リスト
- Enhancing Generalization of Depth Estimation Foundation Model via Weakly-Supervised Adaptation with Regularization [21.788680301776207]
WeSTAR(Weakly supervised Self-Training Adaptation with Regularization)を提案する。
まず、構造的自己超越の主源として、密集した自己学習目標を採用する。
さらにロバスト性を改善するために,意味論的に認識された階層的正規化を導入する。
論文 参考訳(メタデータ) (2025-11-18T08:16:16Z) - QuEst: Enhancing Estimates of Quantile-Based Distributional Measures Using Model Predictions [12.851704083461616]
提案するQuEstは、観測データとインプットデータをマージしてポイント推定を行う、原則化されたフレームワークである。
QuEstは、尾のリスク(CVaR)から、クォータイルのような人口セグメントまで、経済学、社会学、教育、医学などの分野の中心となる様々な手段をカバーしている。
我々は、QuEstを多次元メトリクスに拡張し、これや他のハイブリッド推定器の分散をさらに低減するための追加の最適化手法を導入する。
論文 参考訳(メタデータ) (2025-07-07T17:33:18Z) - Position: There are no Champions in Long-Term Time Series Forecasting [0.0]
我々は、より複雑なモデルを追求することから、ベンチマークプラクティスの強化へと焦点を移す必要があることに重点を置いています。
クレームをサポートするために、私たちはまず、14のデータセットに3500以上のネットワークをトレーニングすることで、最も人気のあるベンチマークで最高のパフォーマンスのモデルを広く、徹底し、再現可能な評価を行います。
論文 参考訳(メタデータ) (2025-02-19T19:08:37Z) - Beyond Scaling: Measuring and Predicting the Upper Bound of Knowledge Retention in Language Model Pre-Training [68.94373533768501]
我々は、知識保持をモデル化し、そのコーパスから事実情報を記憶するための事前学習言語モデルの能力を示し、学習前にそれを推定する原則的手法を導入する。
本稿では,知識周波数,知識特異度,モデルサイズを統合し,クローズドブック質問応答(QA)の精度を予測する情報理論予測器である,サイズ依存型相互情報(SMI)を提案する。
論文 参考訳(メタデータ) (2025-02-06T13:23:53Z) - Quantifying Uncertainty and Variability in Machine Learning: Confidence Intervals for Quantiles in Performance Metric Distributions [0.17265013728931003]
マシンラーニングモデルは、信頼性と堅牢性が重要であるアプリケーションで広く使用されている。
モデル評価は、しばしば、モデルパフォーマンスの固有の変数をキャプチャできないパフォーマンスメトリクスの単一ポイント推定に依存します。
この貢献は、そのような分布を分析するために量子と信頼区間を使うことを探求し、モデルの性能とその不確実性についてより完全な理解を提供する。
論文 参考訳(メタデータ) (2025-01-28T13:21:34Z) - Benign Overfitting in Out-of-Distribution Generalization of Linear Models [19.203753135860016]
我々は、アウト・オブ・ディストリビューション(OOD)体制における良心過剰の理解に向けて、最初の一歩を踏み出した。
我々は、標準的な隆起回帰において良性過剰適合が生じることを証明する非漸近保証を提供する。
また、より一般的な目標共分散行列の族についても理論的結果を示す。
論文 参考訳(メタデータ) (2024-12-19T02:47:39Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - SimSCOOD: Systematic Analysis of Out-of-Distribution Generalization in
Fine-tuned Source Code Models [58.78043959556283]
本研究は,Low-Rank Adaptation (LoRA)ファインチューニング手法を含む,異なる微調整手法によるモデルの挙動について検討する。
解析の結果、LoRAファインチューニングは様々なシナリオにおけるフルファインチューニングよりも、OODの一般化性能が大幅に向上していることが判明した。
論文 参考訳(メタデータ) (2022-10-10T16:07:24Z) - Semantic Self-adaptation: Enhancing Generalization with a Single Sample [45.111358665370524]
セマンティックセグメンテーションのための自己適応型アプローチを提案する。
整合正則化を用いて畳み込み層のパラメータを入力画像に微調整する。
実験により, 自己適応は訓練時のモデル正規化の確立した実践を補完する可能性が示唆された。
論文 参考訳(メタデータ) (2022-08-10T12:29:01Z) - An Empirical Study on Distribution Shift Robustness From the Perspective
of Pre-Training and Data Augmentation [91.62129090006745]
本稿では,事前学習とデータ拡張の観点から分布シフト問題を考察する。
我々は,事前学習とデータ拡張に焦点を当てた,最初の総合的な実証的研究を行った。
論文 参考訳(メタデータ) (2022-05-25T13:04:53Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。