論文の概要: Show Your Work with Confidence: Confidence Bands for Tuning Curves
- arxiv url: http://arxiv.org/abs/2311.09480v2
- Date: Mon, 8 Apr 2024 18:21:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 20:06:52.113973
- Title: Show Your Work with Confidence: Confidence Bands for Tuning Curves
- Title(参考訳): 信頼と仕事を見せる - 信頼のバンドをチューニングする
- Authors: Nicholas Lourie, Kyunghyun Cho, He He,
- Abstract要約: チューニング作業の関数としての曲線プロット検証性能。
そこで我々は,曲線のチューニングに有効な信頼帯域を構築するための最初の方法を提案する。
提案手法と比較し,提案手法の有効性を検証し,サンプルサイズの影響を解析し,モデルの比較に関するガイダンスを提供する。
- 参考スコア(独自算出の注目度): 51.12106543561089
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The choice of hyperparameters greatly impacts performance in natural language processing. Often, it is hard to tell if a method is better than another or just better tuned. Tuning curves fix this ambiguity by accounting for tuning effort. Specifically, they plot validation performance as a function of the number of hyperparameter choices tried so far. While several estimators exist for these curves, it is common to use point estimates, which we show fail silently and give contradictory results when given too little data. Beyond point estimates, confidence bands are necessary to rigorously establish the relationship between different approaches. We present the first method to construct valid confidence bands for tuning curves. The bands are exact, simultaneous, and distribution-free, thus they provide a robust basis for comparing methods. Empirical analysis shows that while bootstrap confidence bands, which serve as a baseline, fail to approximate their target confidence, ours achieve it exactly. We validate our design with ablations, analyze the effect of sample size, and provide guidance on comparing models with our method. To promote confident comparisons in future work, we release opda: an easy-to-use library that you can install with pip. https://github.com/nicholaslourie/opda
- Abstract(参考訳): ハイパーパラメータの選択は自然言語処理の性能に大きな影響を及ぼす。
多くの場合、あるメソッドが他のメソッドよりも優れているか、単にチューニングされているだけなのかを判断するのは困難です。
チューニング曲線は、チューニングの労力を考慮して、この曖昧さを修正します。
具体的には、これまで試みてきたハイパーパラメータ選択数の関数として、検証性能をプロットする。
これらの曲線にはいくつかの推定器が存在するが、点推定を用いるのが一般的であり、これは静かに失敗し、データが少ないと矛盾する結果を与える。
点推定を超えて、信頼バンドは異なるアプローチ間の関係を厳格に確立するために必要である。
そこで我々は,曲線のチューニングに有効な信頼帯域を構築するための最初の方法を提案する。
バンドは正確で、同時であり、分布のないため、メソッドを比較するための堅牢な基盤を提供する。
実験的な分析によると、ベースラインとして機能するブートストラップの信頼バンドは、ターゲットの信頼度を近似できないが、正確には達成できない。
提案手法と比較し,提案手法の有効性を検証し,サンプルサイズの影響を解析し,モデルの比較に関するガイダンスを提供する。
今後の作業における確実な比較を促進するため,我々は,pipでインストール可能な,使いやすいライブラリであるopdaをリリースした。
https://github.com/nicholaslourie/opda
関連論文リスト
- Pearls from Pebbles: Improved Confidence Functions for Auto-labeling [51.44986105969375]
しきい値に基づく自動ラベル付け(TBAL)は、上記のモデルの信頼度スコアのしきい値を見つけ、ラベルなしのデータポイントを正確にラベル付けすることで機能する。
本稿では,近位TBAL信頼度関数の研究のための枠組みを提案する。
本稿では,TBALシステムの性能を最大化するポストホック法を提案する。
論文 参考訳(メタデータ) (2024-04-24T20:22:48Z) - Binary Classification with Confidence Difference [100.08818204756093]
本稿では,信頼性差分法 (ConfDiff) という,弱教師付き二項分類問題について考察する。
本稿では,この問題に対処するためのリスク一貫性のあるアプローチを提案し,推定誤差が最適収束率と一致することを示す。
また,整合性や収束率も証明されたオーバーフィッティング問題を緩和するためのリスク補正手法も導入する。
論文 参考訳(メタデータ) (2023-10-09T11:44:50Z) - Sample and Predict Your Latent: Modality-free Sequential Disentanglement
via Contrastive Estimation [2.7759072740347017]
外部信号のないコントラスト推定に基づく自己教師付きシーケンシャル・アンタングルメント・フレームワークを提案する。
実際に,データのセマンティックに類似し,異種なビューに対して,統一的で効率的かつ容易にサンプリングできる手法を提案する。
提案手法は,既存の手法と比較して最先端の結果を示す。
論文 参考訳(メタデータ) (2023-05-25T10:50:30Z) - Sequential Kernelized Independence Testing [101.22966794822084]
我々は、カーネル化依存度にインスパイアされたシーケンシャルなカーネル化独立試験を設計する。
シミュレーションデータと実データの両方にアプローチのパワーを実証する。
論文 参考訳(メタデータ) (2022-12-14T18:08:42Z) - Catoni-style Confidence Sequences under Infinite Variance [19.61346221428679]
データ生成分布のばらつきが存在しない、あるいは無限であるような設定のための信頼性シーケンスの拡張を提供する。
信頼シーケンスは、任意のデータ依存の停止時間で有効である信頼区間を付与する。
得られた結果は,Dubins-Savage不等式を用いて得られた信頼シーケンスよりも優れていた。
論文 参考訳(メタデータ) (2022-08-05T14:11:06Z) - Comparing Sequential Forecasters [35.38264087676121]
2つの予測器を考えてみましょう。それぞれが時間とともに一連のイベントを予測します。
オンラインでもポストホックでも、予測と結果がどのように生成されたかの検証不可能な仮定を避けながら、これらの予測をどのように比較すればよいのか?
予測スコアの時間差を推定するための新しい逐次推論手法を提案する。
実世界の野球と天気予報機を比較することで,我々のアプローチを実証的に検証する。
論文 参考訳(メタデータ) (2021-09-30T22:54:46Z) - Parametric Bootstrap for Differentially Private Confidence Intervals [8.781431682774484]
本研究では,個人差分パラメトリック推定のための信頼区間を構築するための実用的,汎用的なアプローチを開発する。
パラメトリックブートストラップは単純で効果的な解であることがわかった。
論文 参考訳(メタデータ) (2020-06-14T00:08:19Z) - Showing Your Work Doesn't Always Work [73.63200097493576]
『Show Your Work: Improved Reporting of Experimental Results』では、最高の学習モデルの有効性を報告している。
解析的にそれらの推定器は偏りがあり、エラーを起こしやすい仮定を用いていることを示す。
我々は、偏見のない代替案を導き、統計的シミュレーションから経験的な証拠で主張を裏付ける。
論文 参考訳(メタデータ) (2020-04-28T17:59:01Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。