Fugu-MT 論文翻訳(概要): Don't stop me now: Rethinking Validation Criteria for Model Parameter Selection

論文の概要: Don't stop me now: Rethinking Validation Criteria for Model Parameter Selection

arxiv url: http://arxiv.org/abs/2602.22107v1
Date: Wed, 25 Feb 2026 16:56:14 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-26 18:19:16.920071
Title: Don't stop me now: Rethinking Validation Criteria for Model Parameter Selection
Title（参考訳）: モデルパラメータ選択の検証基準を再考する
Authors: Andrea Apicella, Francesco Isgrò, Andrea Pollastro, Roberto Prevete,
Abstract要約: モデル選択に使用する検証基準がニューラル分類器の試験性能に与える影響について検討する。検証精度に基づいた早期停止は最悪であり、テスト精度が低いチェックポイントを一貫して選択する。損失ベースの検証基準は、同等で安定したテスト精度をもたらす。
参考スコア（独自算出の注目度）: 3.219880761967806
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite the extensive literature on training loss functions, the evaluation of generalization on the validation set remains underexplored. In this work, we conduct a systematic empirical and statistical study of how the validation criterion used for model selection affects test performance in neural classifiers, with attention to early stopping. Using fully connected networks on standard benchmarks under $k$-fold evaluation, we compare: (i) early stopping with patience and (ii) post-hoc selection over all epochs (i.e. no early stopping). Models are trained with cross-entropy, C-Loss, or PolyLoss; the model parameter selection on the validation set is made using accuracy or one of the three loss functions, each considered independently. Three main findings emerge. (1) Early stopping based on validation accuracy performs worst, consistently selecting checkpoints with lower test accuracy than both loss-based early stopping and post-hoc selection. (2) Loss-based validation criteria yield comparable and more stable test accuracy. (3) Across datasets and folds, any single validation rule often underperforms the test-optimal checkpoint. Overall, the selected model typically achieves test-set performance statistically lower than the best performance across all epochs, regardless of the validation criterion. Our results suggest avoiding validation accuracy (in particular with early stopping) for parameter selection, favoring loss-based validation criteria.
Abstract（参考訳）: トレーニング損失関数に関する広範な文献にもかかわらず、検証セットの一般化の評価は未定である。本研究では,モデル選択に用いた検証基準が神経分類器の試験性能にどのように影響するかを,早期停止に留意しながら,系統的および統計的に検討した。 k$-fold評価の標準ベンチマークで完全に接続されたネットワークを使用すると、以下のようになる。 i) 忍耐と忍耐で早く止まること (二)全エポック(早期停止なし)のポストホック選択モデルはクロスエントロピー、C-Loss、PolyLossで訓練され、検証セット上のモデルパラメータの選択は、それぞれ独立に考慮された3つの損失関数のうちの1つを使用して行われる。主な発見は3つある。 1) 検証精度に基づく早期停止は最悪であり, 損失ベース早期停止とポストホック選択よりもテスト精度の低いチェックポイントを一貫して選択する。 2) 損失に基づく検証基準は、同等で安定したテスト精度をもたらす。 (3) データセットとフォールド全体において、単一のバリデーションルールはテスト最適チェックポイントを過小評価することが多い。全体として、選択されたモデルは通常、検証基準にかかわらず、すべてのエポックで最高のパフォーマンスよりも統計的に低いテストセット性能を達成する。この結果から,パラメータ選択の検証精度(特に早期停止)を回避し,損失に基づく検証基準を優先することが示唆された。

関連論文リスト

PRIME: A Process-Outcome Alignment Benchmark for Verifiable Reasoning in Mathematics and Engineering [71.15346406323827]
本稿では,プロセス・アウトカム・アライメント・アライメント・検証における検証結果を評価するベンチマークであるPRIMEを紹介する。現在の検証器は、しばしば導出欠陥を検出するのに失敗する。本稿では,PRIMEで選択した検証手法を利用したプロセス認識型RLVRトレーニングパラダイムを提案する。
論文参考訳（メタデータ） (2026-02-12T04:45:01Z)
Uncertainty-Guided Checkpoint Selection for Reinforcement Finetuning of Large Language Models [27.97382399449914]
強化学習(RL)ファインタニングは大規模言語モデル(LLM)の整合に不可欠であるが、そのプロセスは不安定である。実際に、最高のチェックポイントを選択することは難しい。トレーニング中の検証セットのチェックポイントを評価することは、計算コストが高く、優れた検証セットが必要である。チェックポイント選択(UGCS)に対する不確実性誘導手法を導入し,これらの落とし穴を回避する。
論文参考訳（メタデータ） (2025-11-13T01:46:58Z)
Suitability Filter: A Statistical Framework for Classifier Evaluation in Real-World Deployment Settings [33.080398349395686]
適合性信号を利用して性能劣化を検出する新しいフレームワークを提案する。テストデータとユーザデータの両方に適合する信号を集約し、これらの経験的分布を比較する。これにより、高スループットアプリケーションにおける潜在的な障害の積極的な緩和が可能となる。
論文参考訳（メタデータ） (2025-05-28T13:37:04Z)
Don't Waste Your Time: Early Stopping Cross-Validation [41.092016771160566]
クロスバリデーションは、単一の構成を検証する際の計算コストを大幅に向上させる。本研究は, 単純な理解や実装が容易な方法であっても, モデル選択がより高速に収束できることを示す。
論文参考訳（メタデータ） (2024-05-06T11:51:09Z)
Uncertainty-Calibrated Test-Time Model Adaptation without Forgetting [65.21599711087538]
テスト時間適応(TTA)は、与えられたモデルw.r.t.を任意のテストサンプルに適用することにより、トレーニングデータとテストデータの間の潜在的な分散シフトに取り組むことを目指している。事前の手法は各テストサンプルに対してバックプロパゲーションを実行するため、多くのアプリケーションに対して許容できない最適化コストがかかる。本稿では, 有効サンプル選択基準を策定し, 信頼性および非冗長なサンプルを同定する, 効率的なアンチフォッティングテスト時間適応法を提案する。
論文参考訳（メタデータ） (2024-03-18T05:49:45Z)
On Pitfalls of Test-Time Adaptation [82.8392232222119]
TTA(Test-Time Adaptation)は、分散シフトの下で堅牢性に取り組むための有望なアプローチとして登場した。 TTABは,10の最先端アルゴリズム,多種多様な分散シフト,および2つの評価プロトコルを含むテスト時間適応ベンチマークである。
論文参考訳（メタデータ） (2023-06-06T09:35:29Z)
DELTA: degradation-free fully test-time adaptation [59.74287982885375]
テスト時間バッチ正規化(BN)や自己学習といった,一般的な適応手法では,2つの好ましくない欠陥が隠されていることがわかった。まず、テスト時間BNにおける正規化統計は、現在受信されているテストサンプルに完全に影響され、その結果、不正確な推定結果が得られることを明らかにする。第二に、テスト時間適応中にパラメータ更新が支配的なクラスに偏っていることを示す。
論文参考訳（メタデータ） (2023-01-30T15:54:00Z)
Sequential Kernelized Independence Testing [77.237958592189]
我々は、カーネル化依存度にインスパイアされたシーケンシャルなカーネル化独立試験を設計する。シミュレーションデータと実データの両方にアプローチのパワーを実証する。
論文参考訳（メタデータ） (2022-12-14T18:08:42Z)
Three New Validators and a Large-Scale Benchmark Ranking for Unsupervised Domain Adaptation [37.03614011735927]
教師なしドメイン適応(UDA)のための3つの新しいバリデータを提案する。私たちは、1000,000のチェックポイントの大規模なデータセットで、他の5つのバリデータと比較し、ランク付けします。提案するバリデータのうち2つは,様々な環境で最先端の性能を実現する。
論文参考訳（メタデータ） (2022-08-15T17:55:26Z)
Cross-validation Confidence Intervals for Test Error [83.67415139421448]
この研究は、クロスバリデーションのための中心極限定理と、学習アルゴリズムの弱い安定性条件下での分散の一貫した推定器を開発する。結果は、一般的な1対1のクロスバリデーションの選択にとって、初めてのものだ。
論文参考訳（メタデータ） (2020-07-24T17:40:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。