Fugu-MT 論文翻訳(概要): What is the state of the art? Accounting for multiplicity in machine learning benchmark performance

論文の概要: What is the state of the art? Accounting for multiplicity in machine learning benchmark performance

arxiv url: http://arxiv.org/abs/2303.07272v3
Date: Sat, 17 Jun 2023 11:10:32 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-22 03:23:11.424422
Title: What is the state of the art? Accounting for multiplicity in machine learning benchmark performance
Title（参考訳）: 芸術の状況はどうなっていますか。機械学習ベンチマーク性能における多重性会計
Authors: Kajsa M{\o}llersen and Einar Holsb{\o}
Abstract要約: SOTAの最大性能を推定として用いることは偏りのある推定器であり、過度に楽観的な結果を与える。精度が高い場合に、どのように影響が制限されるかを示す。実世界の例である、2020年のKaggleコンペティションについて論じる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Machine learning methods are commonly evaluated and compared by their performance on data sets from public repositories. This allows for multiple methods, oftentimes several thousands, to be evaluated under identical conditions and across time. The highest ranked performance on a problem is referred to as state-of-the-art (SOTA) performance, and is used, among other things, as a reference point for publication of new methods. Using the highest-ranked performance as an estimate for SOTA is a biased estimator, giving overly optimistic results. The mechanisms at play are those of multiplicity, a topic that is well-studied in the context of multiple comparisons and multiple testing, but has, as far as the authors are aware of, been nearly absent from the discussion regarding SOTA estimates. The optimistic state-of-the-art estimate is used as a standard for evaluating new methods, and methods with substantial inferior results are easily overlooked. In this article, we provide a probability distribution for the case of multiple classifiers so that known analyses methods can be engaged and a better SOTA estimate can be provided. We demonstrate the impact of multiplicity through a simulated example with independent classifiers. We show how classifier dependency impacts the variance, but also that the impact is limited when the accuracy is high. Finally, we discuss a real-world example; a Kaggle competition from 2020.
Abstract（参考訳）: 機械学習手法は一般に評価され、公開リポジトリのデータセットのパフォーマンスによって比較される。これにより、しばしば数千のメソッドが同じ条件下で、時間にわたって評価される。問題における最上位の成績は「最先端(SOTA)パフォーマンス」と呼ばれ、新しい手法を公表するための基準点として用いられる。 SOTAの最大性能を推定として用いることは偏りのある推定器であり、過度に楽観的な結果を与える。マルチプリシティ(multiplicity)は、複数の比較と複数のテストの文脈でよく研究されているトピックであるが、著者たちが認識している限り、SOTAの推定に関する議論からほとんど欠落している。新しい手法を評価するための基準として,楽観的な最先端推定法が用いられ,その結果が著しく劣る手法が容易に見過ごされる。本稿では、複数の分類器の場合の確率分布について、既知の解析手法を適用できるようにし、より優れたSOTA推定値を提供する。独立分類器を用いた模擬例による乗法の影響を実証する。分類子依存性が分散にどのように影響するかを示すとともに,精度が高い場合には影響が限定されることを示した。最後に,2020年のkaggleコンペティションという実例について論じる。

関連論文リスト

Quantifying Variance in Evaluation Benchmarks [34.12254884944099]
評価ベンチマークのばらつきは,初期化における種子のばらつき,訓練中の単調性などである。選択タスクを完了タスクとしてフレーミングするといった単純な変更は、小さなスケールでの分散を減少させる可能性がある。人間のテスト文献(項目分析や項目応答理論など)に触発されたより複雑な手法は、分散を有意義に減少させるのに苦労する。
論文参考訳（メタデータ） (2024-06-14T17:59:54Z)
Unsupervised Estimation of Ensemble Accuracy [0.0]
いくつかの分類器の結合力を推定する手法を提案する。ラベルに依存しない「多様性」対策に重点を置く既存のアプローチとは異なる。本手法は,一般的な大規模顔認証データセット上で実証する。
論文参考訳（メタデータ） (2023-11-18T02:31:36Z)
Statistical Inference for Fairness Auditing [4.318555434063274]
我々は、このタスクを複数の仮説テストの観点から「フェアネス監査」とみなしている。ブートストラップを用いて,グループ間のパフォーマンス格差を同時にバインドする方法を示す。本手法は,モデルアンダーパフォーマンスの影響を受けるサブポピュレーションのフラグ付けや,モデルが適切に機能するサブポピュレーションの認証に利用できる。
論文参考訳（メタデータ） (2023-05-05T17:54:22Z)
Synergies between Disentanglement and Sparsity: Generalization and Identifiability in Multi-Task Learning [79.83792914684985]
我々は,最大スパース基底予測器が不整合表現をもたらす条件を提供する新しい識別可能性の結果を証明した。この理論的な結果から,両レベル最適化問題に基づくアンタングル表現学習の実践的アプローチを提案する。
論文参考訳（メタデータ） (2022-11-26T21:02:09Z)
Systematic Evaluation of Predictive Fairness [60.0947291284978]
バイアス付きデータセットのトレーニングにおけるバイアスの緩和は、重要なオープンな問題である。複数のタスクにまたがる様々なデバイアス化手法の性能について検討する。データ条件が相対モデルの性能に強い影響を与えることがわかった。
論文参考訳（メタデータ） (2022-10-17T05:40:13Z)
An Additive Instance-Wise Approach to Multi-class Model Interpretation [53.87578024052922]
解釈可能な機械学習は、ブラックボックスシステムの特定の予測を駆動する要因に関する洞察を提供する。既存の手法は主に、局所的な加法的あるいはインスタンス的なアプローチに従う説明的入力特徴の選択に重点を置いている。本研究は,両手法の長所を生かし,複数の対象クラスに対する局所的な説明を同時に学習するためのグローバルフレームワークを提案する。
論文参考訳（メタデータ） (2022-07-07T06:50:27Z)
Beyond Adult and COMPAS: Fairness in Multi-Class Prediction [8.405162568925405]
我々は、この問題を、事前訓練された(そして潜在的に不公平な)分類器を、対象のグループフェアネス要件を満たすモデルの集合に「投影する」という観点で定式化する。投影された分類器を並列化して計算し、サンプルの複雑性と収束保証の両方を導出する反復アルゴリズムを提案する。また,複数のクラス,複数の交差保護グループ,100万以上のサンプルを持つオープンデータセット上で,本手法を大規模に評価した。
論文参考訳（メタデータ） (2022-06-15T20:29:33Z)
Realistic Evaluation of Transductive Few-Shot Learning [41.06192162435249]
トランスダクティブ推論は、数ショットの学習で広く使われている。推論における少数ショットタスクの問合せセット内における任意のクラス分布の効果について検討する。我々は,3つの広く使用されているデータセットに対して,最先端のトランスダクティブ手法を実験的に評価した。
論文参考訳（メタデータ） (2022-04-24T03:35:06Z)
Boost Test-Time Performance with Closed-Loop Inference [85.43516360332646]
そこで本研究では,モデル性能を高めるために,ループ方式でハードクラス化試験サンプルを予測することを提案する。まず、追加の推論ループを必要とするハードクラス化テストサンプルを識別するためにフィルタリング基準を考案する。各ハードサンプルに対して、モデルのキャリブレーションを行うために、元の上位$K$予測に基づいて補助学習タスクを構築する。
論文参考訳（メタデータ） (2022-03-21T10:20:21Z)
A Closer Look at Debiased Temporal Sentence Grounding in Videos: Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文参考訳（メタデータ） (2022-03-10T08:58:18Z)
What are the best systems? New perspectives on NLP Benchmarking [10.27421161397197]
そこで本研究では,各タスクのパフォーマンスに基づいて,システムにランク付けする新しい手法を提案する。社会的選択理論によって動機付けられ、各タスクによって誘導されるランクを集約することで最終システム順序付けが得られる。本手法は, 平均集約法とは異なる, 最先端システム上での結論を導出することを示す。
論文参考訳（メタデータ） (2022-02-08T11:44:20Z)
When in Doubt: Improving Classification Performance with Alternating Normalization [57.39356691967766]
分類のための非パラメトリック後処理ステップである交互正規化(CAN)を用いた分類を導入する。 CANは、予測されたクラス確率分布を再調整することで、挑戦的な例の分類精度を向上させる。多様な分類課題にまたがってその効果を実証的に示す。
論文参考訳（メタデータ） (2021-09-28T02:55:42Z)
An Investigation of Replay-based Approaches for Continual Learning [79.0660895390689]
連続学習(CL)は機械学習(ML)の大きな課題であり、破滅的忘れ(CF)を伴わずに連続的に複数のタスクを学習する能力を記述する。いくつかの解クラスが提案されており、その単純さと堅牢性から、いわゆるリプレイベースのアプローチは非常に有望であるように思われる。連続学習におけるリプレイに基づくアプローチを実証的に検討し,応用の可能性を評価する。
論文参考訳（メタデータ） (2021-08-15T15:05:02Z)
Unsupervised Learning of Debiased Representations with Pseudo-Attributes [85.5691102676175]
教師なし方式で,単純かつ効果的な脱バイアス手法を提案する。特徴埋め込み空間上でクラスタリングを行い、クラスタリング結果を利用して疑似属性を識別する。次に,非偏り表現を学習するために,クラスタベースの新しい重み付け手法を用いる。
論文参考訳（メタデータ） (2021-08-06T05:20:46Z)
Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文参考訳（メタデータ） (2021-05-11T03:38:16Z)
Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文参考訳（メタデータ） (2020-11-13T10:53:27Z)
Identifying Wrongly Predicted Samples: A Method for Active Learning [6.976600214375139]
本稿では,不確実性を超えた単純なサンプル選択基準を提案する。予測されたサンプルを正しく識別するために、最先端の結果とより良いレートを示す。
論文参考訳（メタデータ） (2020-10-14T09:00:42Z)
Achieving Equalized Odds by Resampling Sensitive Attributes [13.114114427206678]
等価性の概念をほぼ満足する予測モデルを学習するためのフレキシブルなフレームワークを提案する。この微分可能な関数は、モデルパラメータを等化奇数に向けて駆動するペナルティとして使用される。本研究は,予測規則が本性質に反するか否かを検出するための公式な仮説テストを開発する。
論文参考訳（メタデータ） (2020-06-08T00:18:34Z)
Minority Class Oversampling for Tabular Data with Deep Generative Models [4.976007156860967]
オーバーサンプリングによる非バランスな分類タスクの性能向上を図るために, 深層生成モデルを用いて現実的なサンプルを提供する能力について検討した。実験の結果,サンプリング手法は品質に影響を与えないが,実行環境は様々であることがわかった。また、性能指標の点でも改善が重要であるが、絶対的な点では小さな点がしばしば見られる。
論文参考訳（メタデータ） (2020-05-07T21:35:57Z)
Pre-training Is (Almost) All You Need: An Application to Commonsense Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文参考訳（メタデータ） (2020-04-29T10:54:40Z)
Dynamic Decision Boundary for One-class Classifiers applied to non-uniformly Sampled Data [0.9569316316728905]
パターン認識の典型的な問題は、一様でないサンプルデータである。本稿では,動的決定境界を持つ最小スパンニング木に基づく一クラス分類器を提案する。
論文参考訳（メタデータ） (2020-04-05T18:29:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。