Fugu-MT 論文翻訳(概要): The curious case of the test set AUROC

論文の概要: The curious case of the test set AUROC

arxiv url: http://arxiv.org/abs/2312.16188v1
Date: Tue, 19 Dec 2023 17:40:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-15 13:05:15.563394
Title: The curious case of the test set AUROC
Title（参考訳）: テストセットAUROCの興味深い事例
Authors: Michael Roberts, Alon Hazan, S\"oren Dittmer, James H.F. Rudd, and Carola-Bibiane Sch\"onlieb
Abstract要約: テストROC曲線のみから得られるスコアを考えると、モデルがどのように機能するか、その一般化する能力について、より狭い洞察しか得られない、と我々は論じる。
参考スコア（独自算出の注目度）: 0.5242869847419834
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Whilst the size and complexity of ML models have rapidly and significantly increased over the past decade, the methods for assessing their performance have not kept pace. In particular, among the many potential performance metrics, the ML community stubbornly continues to use (a) the area under the receiver operating characteristic curve (AUROC) for a validation and test cohort (distinct from training data) or (b) the sensitivity and specificity for the test data at an optimal threshold determined from the validation ROC. However, we argue that considering scores derived from the test ROC curve alone gives only a narrow insight into how a model performs and its ability to generalise.
Abstract（参考訳）: MLモデルのサイズと複雑さは過去10年間で急速に増加してきたが、パフォーマンスを評価する方法はペースを保っていない。特に、多くの潜在的なパフォーマンス指標の中で、MLコミュニティは頑固に使い続けている。 a) 検証及び試験コホート(訓練データとは別)のための受信機動作特性曲線(AUROC)の下の領域 b)検証ROCから決定された最適しきい値における試験データの感度及び特異性。しかし、テストROC曲線から得られるスコアを考慮すれば、モデルがどのように機能するか、その一般化能力についてのみ、狭い洞察が得られると論じる。

関連論文リスト

ROC-n-reroll: How verifier imperfection affects test-time scaling [10.949594516629652]
テストタイムスケーリングは、推論中に追加の計算を活用することで、言語モデルのパフォーマンスを向上させることを目的としている。検証の不完全性がパフォーマンスにどのように影響するかという理論的理解はほとんどない。検証器のROC曲線の幾何によって,メソッドのインスタンスレベルの精度が正確に評価されているかを証明する。
論文参考訳（メタデータ） (2025-07-16T16:44:29Z)
Investigating the Impact of Hard Samples on Accuracy Reveals In-class Data Imbalance [4.291589126905706]
AutoMLドメインでは、モデルの有効性を評価するための重要な指標として、テスト精度が宣言される。しかし、主性能指標としての試験精度の信頼性は疑問視されている。トレーニングセットとテストセット間のハードサンプルの分布は、これらのセットの難易度に影響を与える。本稿では,ハードサンプル識別法を比較するためのベンチマーク手法を提案する。
論文参考訳（メタデータ） (2024-09-22T11:38:14Z)
Multi-stream deep learning framework to predict mild cognitive impairment with Rey Complex Figure Test [10.324611550865926]
2つの異なる処理ストリームを統合するマルチストリームディープラーニングフレームワークを開発した。提案したマルチストリームモデルは,外部検証においてベースラインモデルよりも優れた性能を示した。本モデルは,早期スクリーニングのための費用対効果のあるツールとして機能する,臨床現場における実用的意味を持つ。
論文参考訳（メタデータ） (2024-09-04T17:08:04Z)
Federated Nonparametric Hypothesis Testing with Differential Privacy Constraints: Optimal Rates and Adaptive Tests [5.3595271893779906]
フェデレート学習は、さまざまな場所でデータが収集され分析される広範囲な設定で適用可能であることから、近年大きな注目を集めている。分散差分プライバシー(DP)制約下でのホワイトノイズ・ウィズ・ドリフトモデルにおける非パラメトリック適合性試験について検討した。
論文参考訳（メタデータ） (2024-06-10T19:25:19Z)
Investigating the Robustness of Counterfactual Learning to Rank Models: A Reproducibility Study [61.64685376882383]
ランク付け学習(CLTR: Counterfactual Learning to rank)は、IRコミュニティにおいて、ログ化された大量のユーザインタラクションデータを活用してランキングモデルをトレーニングする能力において、大きな注目を集めている。本稿では,複雑かつ多様な状況における既存のCLTRモデルのロバスト性について検討する。その結果, DLAモデルとIPS-DCMは, PS-PBMやPSSよりも, オフラインの確率推定による堅牢性が高いことがわかった。
論文参考訳（メタデータ） (2024-04-04T10:54:38Z)
Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。我々はLSMに答えを自己評価するように指示する。自己評価に基づくスコアリング手法をベンチマークする。
論文参考訳（メタデータ） (2023-12-14T19:09:22Z)
Low-Cost High-Power Membership Inference Attacks [15.240271537329534]
メンバーシップ推論攻撃は、特定のデータポイントがモデルのトレーニングに使用されたかどうかを検出することを目的としている。我々は,計算オーバーヘッドの少ない,堅牢なメンバシップ推論攻撃を行うための新しい統計的試験を設計する。 RMIAは、機械学習における実用的かつ正確なデータプライバシーリスク評価の基礎を成している。
論文参考訳（メタデータ） (2023-12-06T03:18:49Z)
From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)
Quality In / Quality Out: Data quality more relevant than model choice in anomaly detection with the UGR'16 [0.29998889086656577]
ベンチマークデータセットの比較的小さな変更は、考慮された特定のML手法よりも、モデルパフォーマンスに著しく影響することを示します。また、不正確なラベル付けの結果、測定されたモデル性能が不確かであることも示す。
論文参考訳（メタデータ） (2023-05-31T12:03:12Z)
Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文参考訳（メタデータ） (2023-05-23T12:05:09Z)
GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。 GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文参考訳（メタデータ） (2023-04-19T14:58:27Z)
A Targeted Accuracy Diagnostic for Variational Approximations [8.969208467611896]
変分推論(VI)はマルコフ・チェイン・モンテカルロ(MCMC)の魅力的な代替品である既存の方法は、全変分分布の品質を特徴付ける。配電近似精度(TADDAA)のためのTArgeted診断法を提案する。
論文参考訳（メタデータ） (2023-02-24T02:50:18Z)
Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文参考訳（メタデータ） (2022-01-11T23:01:12Z)
Scalable Marginal Likelihood Estimation for Model Selection in Deep Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文参考訳（メタデータ） (2021-04-11T09:50:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。