Fugu-MT 論文翻訳(概要): Accounting for multiplicity in machine learning benchmark performance

論文の概要: Accounting for multiplicity in machine learning benchmark performance

arxiv url: http://arxiv.org/abs/2303.07272v6
Date: Mon, 14 Jul 2025 20:05:42 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-23 15:21:36.635298
Title: Accounting for multiplicity in machine learning benchmark performance
Title（参考訳）: 機械学習ベンチマーク性能における多重性を考慮した会計
Authors: Kajsa Møllersen, Einar Holsbø,
Abstract要約: State-of-the-art(SOTA)パフォーマンスは、テストサンプル上であるモデルによって達成される最高のパフォーマンスを指す。我々は代わりに、最高の分類器の期待性能によってSOTAを推定するべきであると論じる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: State-of-the-art (SOTA) performance refers to the highest performance achieved by some model on a test sample, preferably under controlled conditions such as public data (reproducibility) or public challenges (independent sample). Thousands of classifiers are applied, and the highest performance becomes the new reference point for a particular problem. In effect, this set-up is an estimate of the expected best performance among all classifiers applied to a random sample; a sample maximum estimate. In this paper, we argue that SOTA should instead be estimated by the expected performance of the best classifier, which can be done without knowing which classifier it is. Our contribution is the formal distinction between the two, and an investigation into the practical consequences of using the former to estimate the latter. This is done by presenting sample maximum estimator distributions for non-identical and dependent classifiers. We illustrate the impact on real world examples from public challenges.
Abstract（参考訳）: State-of-the-art(SOTA)のパフォーマンスは、テストサンプル上のモデルによって達成される最高のパフォーマンスを指し、好ましくは、パブリックデータ(再現性)やパブリックチャレンジ(独立サンプル)のような制御された条件下で達成される。数千の分類器が適用され、最も高い性能が特定の問題に対する新しい基準点となる。このセットアップは、ランダムなサンプルに適用された全ての分類器のうち、期待される最高の性能の見積もりである。本稿では,SOTAを最も優れた分類器の期待性能によって推定すべきであり,どの分類器がどの分類器であるかを知らずに行うことができると論じる。我々の貢献は、両者の正式な区別であり、前者を用いて後者を推定する実践的な結果の調査である。これは、非識別型および依存型分類器に対するサンプル最大推定器分布を提示することによって行われる。公共の課題による実世界の実例への影響について説明する。

関連論文リスト

The Lie of the Average: How Class Incremental Learning Evaluation Deceives You? [48.83567710215299]
クラスインクリメンタルラーニング(CIL)では、モデルが学習済みのクラスを忘れずに、新しいクラスを継続的に学習する必要がある。我々は、ロバストなCIL評価プロトコルは、性能分布全体を正確に特徴付け、推定するべきであると論じる。我々は,タスク間類似度を用いて,極端なクラスシーケンスを適応的に識別し,サンプリングする評価プロトコルEDGEを提案する。
論文参考訳（メタデータ） (2025-09-26T17:00:15Z)
Quantifying Variance in Evaluation Benchmarks [34.12254884944099]
評価ベンチマークのばらつきは,初期化における種子のばらつき,訓練中の単調性などである。選択タスクを完了タスクとしてフレーミングするといった単純な変更は、小さなスケールでの分散を減少させる可能性がある。人間のテスト文献(項目分析や項目応答理論など)に触発されたより複雑な手法は、分散を有意義に減少させるのに苦労する。
論文参考訳（メタデータ） (2024-06-14T17:59:54Z)
Unsupervised Estimation of Ensemble Accuracy [0.0]
いくつかの分類器の結合力を推定する手法を提案する。ラベルに依存しない「多様性」対策に重点を置く既存のアプローチとは異なる。本手法は,一般的な大規模顔認証データセット上で実証する。
論文参考訳（メタデータ） (2023-11-18T02:31:36Z)
Statistical Inference for Fairness Auditing [4.318555434063274]
我々は、このタスクを複数の仮説テストの観点から「フェアネス監査」とみなしている。ブートストラップを用いて,グループ間のパフォーマンス格差を同時にバインドする方法を示す。本手法は,モデルアンダーパフォーマンスの影響を受けるサブポピュレーションのフラグ付けや,モデルが適切に機能するサブポピュレーションの認証に利用できる。
論文参考訳（メタデータ） (2023-05-05T17:54:22Z)
Synergies between Disentanglement and Sparsity: Generalization and Identifiability in Multi-Task Learning [79.83792914684985]
我々は,最大スパース基底予測器が不整合表現をもたらす条件を提供する新しい識別可能性の結果を証明した。この理論的な結果から,両レベル最適化問題に基づくアンタングル表現学習の実践的アプローチを提案する。
論文参考訳（メタデータ） (2022-11-26T21:02:09Z)
Systematic Evaluation of Predictive Fairness [60.0947291284978]
バイアス付きデータセットのトレーニングにおけるバイアスの緩和は、重要なオープンな問題である。複数のタスクにまたがる様々なデバイアス化手法の性能について検討する。データ条件が相対モデルの性能に強い影響を与えることがわかった。
論文参考訳（メタデータ） (2022-10-17T05:40:13Z)
An Additive Instance-Wise Approach to Multi-class Model Interpretation [53.87578024052922]
解釈可能な機械学習は、ブラックボックスシステムの特定の予測を駆動する要因に関する洞察を提供する。既存の手法は主に、局所的な加法的あるいはインスタンス的なアプローチに従う説明的入力特徴の選択に重点を置いている。本研究は,両手法の長所を生かし,複数の対象クラスに対する局所的な説明を同時に学習するためのグローバルフレームワークを提案する。
論文参考訳（メタデータ） (2022-07-07T06:50:27Z)
Beyond Adult and COMPAS: Fairness in Multi-Class Prediction [8.405162568925405]
我々は、この問題を、事前訓練された(そして潜在的に不公平な)分類器を、対象のグループフェアネス要件を満たすモデルの集合に「投影する」という観点で定式化する。投影された分類器を並列化して計算し、サンプルの複雑性と収束保証の両方を導出する反復アルゴリズムを提案する。また,複数のクラス,複数の交差保護グループ,100万以上のサンプルを持つオープンデータセット上で,本手法を大規模に評価した。
論文参考訳（メタデータ） (2022-06-15T20:29:33Z)
Realistic Evaluation of Transductive Few-Shot Learning [41.06192162435249]
トランスダクティブ推論は、数ショットの学習で広く使われている。推論における少数ショットタスクの問合せセット内における任意のクラス分布の効果について検討する。我々は,3つの広く使用されているデータセットに対して,最先端のトランスダクティブ手法を実験的に評価した。
論文参考訳（メタデータ） (2022-04-24T03:35:06Z)
Boost Test-Time Performance with Closed-Loop Inference [85.43516360332646]
そこで本研究では,モデル性能を高めるために,ループ方式でハードクラス化試験サンプルを予測することを提案する。まず、追加の推論ループを必要とするハードクラス化テストサンプルを識別するためにフィルタリング基準を考案する。各ハードサンプルに対して、モデルのキャリブレーションを行うために、元の上位$K$予測に基づいて補助学習タスクを構築する。
論文参考訳（メタデータ） (2022-03-21T10:20:21Z)
A Closer Look at Debiased Temporal Sentence Grounding in Videos: Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文参考訳（メタデータ） (2022-03-10T08:58:18Z)
What are the best systems? New perspectives on NLP Benchmarking [10.27421161397197]
そこで本研究では,各タスクのパフォーマンスに基づいて,システムにランク付けする新しい手法を提案する。社会的選択理論によって動機付けられ、各タスクによって誘導されるランクを集約することで最終システム順序付けが得られる。本手法は, 平均集約法とは異なる, 最先端システム上での結論を導出することを示す。
論文参考訳（メタデータ） (2022-02-08T11:44:20Z)
When in Doubt: Improving Classification Performance with Alternating Normalization [57.39356691967766]
分類のための非パラメトリック後処理ステップである交互正規化(CAN)を用いた分類を導入する。 CANは、予測されたクラス確率分布を再調整することで、挑戦的な例の分類精度を向上させる。多様な分類課題にまたがってその効果を実証的に示す。
論文参考訳（メタデータ） (2021-09-28T02:55:42Z)
An Investigation of Replay-based Approaches for Continual Learning [79.0660895390689]
連続学習(CL)は機械学習(ML)の大きな課題であり、破滅的忘れ(CF)を伴わずに連続的に複数のタスクを学習する能力を記述する。いくつかの解クラスが提案されており、その単純さと堅牢性から、いわゆるリプレイベースのアプローチは非常に有望であるように思われる。連続学習におけるリプレイに基づくアプローチを実証的に検討し,応用の可能性を評価する。
論文参考訳（メタデータ） (2021-08-15T15:05:02Z)
Unsupervised Learning of Debiased Representations with Pseudo-Attributes [85.5691102676175]
教師なし方式で,単純かつ効果的な脱バイアス手法を提案する。特徴埋め込み空間上でクラスタリングを行い、クラスタリング結果を利用して疑似属性を識別する。次に,非偏り表現を学習するために,クラスタベースの新しい重み付け手法を用いる。
論文参考訳（メタデータ） (2021-08-06T05:20:46Z)
Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文参考訳（メタデータ） (2021-05-11T03:38:16Z)
Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文参考訳（メタデータ） (2020-11-13T10:53:27Z)
Identifying Wrongly Predicted Samples: A Method for Active Learning [6.976600214375139]
本稿では,不確実性を超えた単純なサンプル選択基準を提案する。予測されたサンプルを正しく識別するために、最先端の結果とより良いレートを示す。
論文参考訳（メタデータ） (2020-10-14T09:00:42Z)
Achieving Equalized Odds by Resampling Sensitive Attributes [13.114114427206678]
等価性の概念をほぼ満足する予測モデルを学習するためのフレキシブルなフレームワークを提案する。この微分可能な関数は、モデルパラメータを等化奇数に向けて駆動するペナルティとして使用される。本研究は,予測規則が本性質に反するか否かを検出するための公式な仮説テストを開発する。
論文参考訳（メタデータ） (2020-06-08T00:18:34Z)
Minority Class Oversampling for Tabular Data with Deep Generative Models [4.976007156860967]
オーバーサンプリングによる非バランスな分類タスクの性能向上を図るために, 深層生成モデルを用いて現実的なサンプルを提供する能力について検討した。実験の結果,サンプリング手法は品質に影響を与えないが,実行環境は様々であることがわかった。また、性能指標の点でも改善が重要であるが、絶対的な点では小さな点がしばしば見られる。
論文参考訳（メタデータ） (2020-05-07T21:35:57Z)
Pre-training Is (Almost) All You Need: An Application to Commonsense Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文参考訳（メタデータ） (2020-04-29T10:54:40Z)
Dynamic Decision Boundary for One-class Classifiers applied to non-uniformly Sampled Data [0.9569316316728905]
パターン認識の典型的な問題は、一様でないサンプルデータである。本稿では,動的決定境界を持つ最小スパンニング木に基づく一クラス分類器を提案する。
論文参考訳（メタデータ） (2020-04-05T18:29:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。