論文の概要: The Dutch Draw: Constructing a Universal Baseline for Binary Prediction
Models
- arxiv url: http://arxiv.org/abs/2203.13084v1
- Date: Thu, 24 Mar 2022 14:20:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-25 13:55:47.552088
- Title: The Dutch Draw: Constructing a Universal Baseline for Binary Prediction
Models
- Title(参考訳): オランダの図:二項予測モデルのためのユニバーサルベースラインの構築
- Authors: Etienne van de Bijl, Jan Klein, Joris Pries, Sandjai Bhulai, Mark
Hoogendoorn, Rob van der Mei
- Abstract要約: パフォーマンススコアの「良さ」を評価するためには、適切なベースラインが必要である。
本稿では、ダッチ・ドロー(DD)と呼ばれる全ての二項分類モデルに対する普遍的ベースライン法を提案する。
- 参考スコア(独自算出の注目度): 2.8816551600116527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Novel prediction methods should always be compared to a baseline to know how
well they perform. Without this frame of reference, the performance score of a
model is basically meaningless. What does it mean when a model achieves an
$F_1$ of 0.8 on a test set? A proper baseline is needed to evaluate the
`goodness' of a performance score. Comparing with the latest state-of-the-art
model is usually insightful. However, being state-of-the-art can change rapidly
when newer models are developed. Contrary to an advanced model, a simple dummy
classifier could be used. However, the latter could be beaten too easily,
making the comparison less valuable. This paper presents a universal baseline
method for all binary classification models, named the Dutch Draw (DD). This
approach weighs simple classifiers and determines the best classifier to use as
a baseline. We theoretically derive the DD baseline for many commonly used
evaluation measures and show that in most situations it reduces to (almost)
always predicting either zero or one. Summarizing, the DD baseline is: (1)
general, as it is applicable to all binary classification problems; (2) simple,
as it is quickly determined without training or parameter-tuning; (3)
informative, as insightful conclusions can be drawn from the results. The DD
baseline serves two purposes. First, to enable comparisons across research
papers by this robust and universal baseline. Secondly, to provide a sanity
check during the development process of a prediction model. It is a major
warning sign when a model is outperformed by the DD baseline.
- Abstract(参考訳): 新たな予測手法は、常にベースラインと比較され、その性能を知る必要がある。
この参照フレームがなければ、モデルのパフォーマンススコアは基本的に意味がない。
モデルがテストセットで$F_1$ 0.8を達成した場合、何を意味するのでしょう?
パフォーマンススコアの‘良さ’を評価するには、適切なベースラインが必要です。
最新の最先端モデルと比較すると、通常は洞察力がある。
しかし、新しいモデルを開発すると、最先端であることは急速に変化する。
高度なモデルとは異なり、単純なダミー分類器が使用できる。
しかし、後者は簡単に打ち負かすことができず、比較の価値は低かった。
本稿では,全二項分類モデルの普遍ベースライン法である dutch draw (dd) を提案する。
このアプローチは単純な分類器を重くし、ベースラインとして使用する最良の分類器を決定する。
理論的には、多くの一般的な評価基準に対してDDベースラインを導出し、ほとんどの場合、(ほとんど)常に0または1の予測に還元されることを示す。
総括すると、ddのベースラインは、(1)すべての二分分類問題に適用できる、(2)訓練やパラメータチューニングなしで素早く決定される、(2)結果から洞察に富んだ結論を引き出すことができる、といったものである。
DDベースラインは2つの目的がある。
まず、この堅牢で普遍的なベースラインによる研究論文間の比較を可能にする。
第2に、予測モデルの開発過程での健全性チェックを提供する。
DDベースラインでモデルのパフォーマンスが上回っている場合、これは大きな警告サインである。
関連論文リスト
- Reviving Undersampling for Long-Tailed Learning [16.054442161144603]
我々は,最低性能カテゴリーの精度を高め,調和平均と幾何平均を用いてモデルの性能を評価することを目的とする。
我々は,余分なオーバーヘッドを伴わず,高調波平均と幾何平均を改良したモデルアンサンブル戦略を考案した。
提案手法の有効性を,長期学習のための広く利用されているベンチマークデータセットに検証する。
論文 参考訳(メタデータ) (2024-01-30T08:15:13Z) - Distilling BlackBox to Interpretable models for Efficient Transfer
Learning [19.40897632956169]
一般化可能なAIモデルの構築は、医療分野における大きな課題のひとつだ。
あるドメインから別のドメインに知識を転送するモデルを微調整するには、ターゲットドメイン内の大量のラベル付きデータが必要である。
本研究では,最小の計算コストで効率よく未確認対象領域に微調整できる解釈可能なモデルを開発する。
論文 参考訳(メタデータ) (2023-05-26T23:23:48Z) - Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。
CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。
単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:28:29Z) - The Optimal Input-Independent Baseline for Binary Classification: The
Dutch Draw [0.0]
本研究の目的は,特徴値に依存しない基本手法について検討することである。
どのベースラインモデルが最適かを特定することにより、評価プロセスにおける重要な選択決定が簡単になる。
論文 参考訳(メタデータ) (2023-01-09T13:11:59Z) - Class-Incremental Learning with Strong Pre-trained Models [97.84755144148535]
CIL(Class-incremental Learning)は、少数のクラス(ベースクラス)から始まる設定で広く研究されている。
我々は、多数のベースクラスで事前訓練された強力なモデルから始まるCILの実証済み実世界の設定について検討する。
提案手法は、解析されたCIL設定すべてに頑健で一般化されている。
論文 参考訳(メタデータ) (2022-04-07T17:58:07Z) - Deconstructing Distributions: A Pointwise Framework of Learning [15.517383696434162]
テスト分布におけるモデルの平均性能と、この個々の点におけるポイントワイズ性能の関係について調べる。
プロファイルは、モデルとデータの構造 -- 分布の内外 -- に新しい洞察を与えることができる。
論文 参考訳(メタデータ) (2022-02-20T23:25:28Z) - Mismatched No More: Joint Model-Policy Optimization for Model-Based RL [172.37829823752364]
本稿では,モデルとポリシーを共同でトレーニングする単一目的について提案する。
我々の目標は、期待されるリターンのグローバルな低い境界であり、この境界は特定の仮定の下で厳密になる。
結果のアルゴリズム(MnM)は概念的にはGANと似ている。
論文 参考訳(メタデータ) (2021-10-06T13:43:27Z) - Enhancing the Generalization for Intent Classification and Out-of-Domain
Detection in SLU [70.44344060176952]
インテント分類は、音声言語理解(SLU)における主要な課題である
近年の研究では、余分なデータやラベルを使用することで、OOD検出性能が向上することが示されている。
本稿では、IND意図分類とOOD検出の両方をサポートしながら、INDデータのみを用いてモデルを訓練することを提案する。
論文 参考訳(メタデータ) (2021-06-28T08:27:38Z) - Back to Square One: Bias Detection, Training and Commonsense
Disentanglement in the Winograd Schema [106.79804048131253]
Winograd(WS)は、モデルの常識能力を測定するテストとして提案されている。
本稿では,WS の現在評価手法が準最適であることを示し,その評価にツイン文を用いる修正を提案する。
私たちは、WSの明らかな進歩の多くは、必ずしも常識推論の進歩を反映していないと結論付けています。
論文 参考訳(メタデータ) (2021-04-16T15:17:23Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。