Fugu-MT 論文翻訳(概要): A Closer Look at AUROC and AUPRC under Class Imbalance

論文の概要: A Closer Look at AUROC and AUPRC under Class Imbalance

arxiv url: http://arxiv.org/abs/2401.06091v1
Date: Thu, 11 Jan 2024 18:11:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-12 13:07:53.727967
Title: A Closer Look at AUROC and AUPRC under Class Imbalance
Title（参考訳）: クラス不均衡下におけるAUROCとAUPRCの概観
Authors: Matthew B. A. McDermott (1), Lasse Hyldig Hansen (2), Haoran Zhang (3), Giovanni Angelotti (4), Jack Gallifant (3) ((1) Harvard Medical School, (2) Aarhus University, (3) Massachusetts Institute of Technology, (4) IRCCS Humanitas Research Hospital)
Abstract要約: 機械学習(ML)において、精度-リコール曲線(AUPRC)の下の領域は、クラス不均衡のバイナリ分類タスクにおいて、受信操作特性(AUROC)の下の領域とモデルの比較において優れた指標である。本稿では, AUROC と AUPRC が確率論的用語で簡潔に関連できることを示す, 新たな数学的解析を通じて, この概念に挑戦する。 AUPRCは、一般的な信念に反して、クラス不均衡の場合には優れておらず、また、より頻度の高い正のラベルを持つサブポピュレーションのモデル改善を不当に支持する傾向にあるため、有害な指標である可能性も示している。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In machine learning (ML), a widespread adage is that the area under the precision-recall curve (AUPRC) is a superior metric for model comparison to the area under the receiver operating characteristic (AUROC) for binary classification tasks with class imbalance. This paper challenges this notion through novel mathematical analysis, illustrating that AUROC and AUPRC can be concisely related in probabilistic terms. We demonstrate that AUPRC, contrary to popular belief, is not superior in cases of class imbalance and might even be a harmful metric, given its inclination to unduly favor model improvements in subpopulations with more frequent positive labels. This bias can inadvertently heighten algorithmic disparities. Prompted by these insights, a thorough review of existing ML literature was conducted, utilizing large language models to analyze over 1.5 million papers from arXiv. Our investigation focused on the prevalence and substantiation of the purported AUPRC superiority. The results expose a significant deficit in empirical backing and a trend of misattributions that have fuelled the widespread acceptance of AUPRC's supposed advantages. Our findings represent a dual contribution: a significant technical advancement in understanding metric behaviors and a stark warning about unchecked assumptions in the ML community. All experiments are accessible at https://github.com/mmcdermott/AUC_is_all_you_need.
Abstract（参考訳）: 機械学習(ML)において、精度-リコール曲線(AUPRC)の下の領域は、クラス不均衡のバイナリ分類タスクにおいて、受信操作特性(AUROC)の下の領域とモデルの比較において優れた指標である。本稿では, AUROC と AUPRC が確率論的用語で簡潔に関連できることを示す, 新たな数学的解析を通じて, この概念に挑戦する。 AUPRCは、一般的な信念に反して、クラス不均衡の場合には優れておらず、より頻繁に陽性なラベルを持つサブポピュレーションのモデル改善を不当に支持する傾向にあるため、有害な指標である可能性もある。このバイアスはアルゴリズムの格差を必然的に高めることができる。これらの知見から,大規模言語モデルを用いてarXivから150万以上の論文を分析し,既存のML文献の徹底的なレビューを行った。本研究は, AUPRC の優越性に関する有病率と実証に焦点をあてた。その結果、経験的支援の重大な欠陥と、AUPRCの持つ利点が広く受け入れられるきっかけとなった誤解の傾向が明らかになった。我々の発見は、計量行動の理解における重要な技術的進歩と、MLコミュニティにおける未確認仮定に対する厳しい警告という2つの貢献を表している。すべての実験はhttps://github.com/mmcdermott/auc_is_all_you_needから利用できる。

関連論文リスト

KLAAD: Refining Attention Mechanisms to Reduce Societal Bias in Generative Language Models [1.649505438157608]
大規模言語モデル(LLM)は、しばしばアウトプットに社会的偏見を示し、公正さと害に関する倫理的懸念を引き起こす。 KLAAD(KL-Attention Alignment Debiasing)は,ステレオタイプと反ステレオタイプ文ペア間の注意分布を暗黙的に整列する,注意に基づく脱バイアスフレームワークである。 KLAADの実験的評価は、BBQとBOLDのベンチマークにおけるバイアス軽減の改善を示し、言語モデリングの品質に最小限の影響を与える。
論文参考訳（メタデータ） (2025-07-26T14:24:19Z)
Obscured but Not Erased: Evaluating Nationality Bias in LLMs via Name-Based Bias Benchmarks [0.0]
大きな言語モデル(LLM)は、明示的な人口統計マーカーが存在しない場合でも、特定の国籍に対する潜在バイアスを示す。文化的に表象的な名前で明示的な国籍ラベルを置換することの影響を調査するために,新しい名称ベースのベンチマーク手法を導入する。私たちの実験では、小さなモデルの方が精度が低く、大きなモデルに比べてバイアスが大きいことが示されています。
論文参考訳（メタデータ） (2025-07-22T19:54:49Z)
Fair Deepfake Detectors Can Generalize [51.21167546843708]
共同設立者(データ分散とモデルキャパシティ)の制御により,公正な介入による一般化が向上することを示す。この知見を応用して, 逆正当性重み付けとサブグループワイド特徴正規化を併用し, 新たなアライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・インセンティブ・インターベンション・インベンション・インテクション(DAID)を提案する。 DAIDは、いくつかの最先端技術と比較して、公平性と一般化の両方において一貫して優れた性能を達成する
論文参考訳（メタデータ） (2025-07-03T14:10:02Z)
Generalization or Hallucination? Understanding Out-of-Context Reasoning in Transformers [76.42159902257677]
我々は、両方の行動は、アウト・オブ・コンテクスト推論(OCR)として知られる単一のメカニズムに由来すると論じる。 OCRは、関連する概念が因果関係であるかによって、一般化と幻覚の両方を駆動する。我々の研究は、OCR現象を理解するための理論的基盤を提供し、知識注入から望ましくない行動を分析し緩和するための新しいレンズを提供する。
論文参考訳（メタデータ） (2025-06-12T16:50:45Z)
Reward Modeling with Ordinal Feedback: Wisdom of the Crowd [9.034189257088762]
人間の好みから報酬モデル(RM)を学ぶことは、大きな言語モデルを調整する上で重要な要素である。順序フィードバックの下でRMを学習するためのフレームワークを提案する。我々は,Rademacher複雑性の低減の観点から,順序フィードバックの統計的利点を証明した。
論文参考訳（メタデータ） (2024-11-19T20:17:04Z)
Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文参考訳（メタデータ） (2024-06-28T20:06:30Z)
A Theory for Token-Level Harmonization in Retrieval-Augmented Generation [76.75124161306795]
Retrieval-augmented Generation (RAG)は、検索したテキストを利用して大規模言語モデル(LLM)を強化する。本稿では,RAGの利益と有害性を説明するための理論を提供する。提案手法は,本理論に基づいて,純粋LLMとRAGの協調生成を実現する実用的手法であるTok-RAGを提案する。
論文参考訳（メタデータ） (2024-06-03T02:56:14Z)
On Fairness of Low-Rank Adaptation of Large Models [14.522061948788863]
大規模モデルの低ランク適応、特にLoRAは、その計算効率のために勢いを増している。 LoRAが実用性、キャリブレーション、および異なるサブグループ間でのメンバシップ推論に対する抵抗に未検討の影響があるかどうかを問う。
論文参考訳（メタデータ） (2024-05-27T07:37:43Z)
Intrinsic Fairness-Accuracy Tradeoffs under Equalized Odds [8.471466670802817]
等化確率の統計的概念の下で、公正性と精度のトレードオフについて検討する。フェアネス予算の関数として, 精度の新たな上限を提示する。以上の結果から,低バイアス群に対する高い精度の達成は,グループ間の統計的格差に基づいて根本的に制限される可能性が示唆された。
論文参考訳（メタデータ） (2024-05-12T23:15:21Z)
Towards Understanding Dual BN In Hybrid Adversarial Training [79.92394747290905]
モデルトレーニングにおけるアフィンパラメータのアンタングリングよりも,アンタングリング統計がより少ない役割を担っていることを示す。本稿では,ハイブリッドAT改善のための実証的基礎と統一的なフレームワークとして機能する2タスク仮説を提案する。
論文参考訳（メタデータ） (2024-03-28T05:08:25Z)
Beyond RMSE and MAE: Introducing EAUC to unmask hidden bias and unfairness in dyadic regression models [5.336076422485076]
非均一な観測値分布が、最先端のモデルに深刻なバイアスをもたらすことを示す。我々は、すべての研究領域とモデルでそれを定量化できる新しい指標として、Eccentricity-Area Under the Curve (EAUC)を紹介した。
論文参考訳（メタデータ） (2024-01-19T13:41:08Z)
Class-Imbalanced Graph Learning without Class Rebalancing [62.1368829847041]
クラス不均衡は実世界のノード分類タスクでよく見られ、グラフ学習モデルには大きな課題がある。本研究では、トポロジカルパラダイムからクラス不均衡バイアスの根本原因にアプローチする。我々は,クラス再バランスを伴わずにクラス不均衡バイアスを軽減するために,軽量なトポロジカル拡張フレームワークであるBATを考案した。
論文参考訳（メタデータ） (2023-08-27T19:01:29Z)
Learning for Counterfactual Fairness from Observational Data [62.43249746968616]
公正な機械学習は、人種、性別、年齢などの特定の保護された(感受性のある)属性によって記述されるある種のサブグループに対して、学習モデルのバイアスを取り除くことを目的としている。カウンターファクトフェアネスを達成するための既存の手法の前提条件は、データに対する因果モデルの事前の人間の知識である。本研究では,新しいフレームワークCLAIREを提案することにより,因果関係を付与せずに観測データから対実的に公正な予測を行う問題に対処する。
論文参考訳（メタデータ） (2023-07-17T04:08:29Z)
BLEURT Has Universal Translations: An Analysis of Automatic Metrics by Minimum Risk Training [64.37683359609308]
本研究では,機械翻訳システムの学習指導の観点から,各種の主流および最先端の自動測定値について分析する。 BLEURT や BARTScore における普遍的逆変換の存在など,ある種の指標は堅牢性欠陥を示す。詳細な分析では、これらのロバスト性障害の主な原因は、トレーニングデータセットにおける分布バイアスと、メートル法パラダイムの傾向である。
論文参考訳（メタデータ） (2023-07-06T16:59:30Z)
Parametric Classification for Generalized Category Discovery: A Baseline Study [70.73212959385387]
Generalized Category Discovery (GCD)は、ラベル付きサンプルから学習した知識を用いて、ラベルなしデータセットで新しいカテゴリを発見することを目的としている。パラメトリック分類器の故障を調査し,高品質な監視が可能であった場合の過去の設計選択の有効性を検証し,信頼性の低い疑似ラベルを重要課題として同定する。エントロピー正規化の利点を生かし、複数のGCDベンチマークにおける最先端性能を実現し、未知のクラス数に対して強いロバスト性を示す、単純で効果的なパラメトリック分類法を提案する。
論文参考訳（メタデータ） (2022-11-21T18:47:11Z)
On Causality in Domain Adaptation and Semi-Supervised Learning: an Information-Theoretic Analysis for Parametric Models [40.97750409326622]
対象領域における予測の学習性能を情報理論の観点から検討する。因果学習では、ソースとターゲットドメイン間のラベリング分布が変化しない場合のみ、ソースサンプルのサイズに$O(frac1m)$で依存することを示した。反因果学習では、非競合データが通常$O(frac1n)$の速度で性能を支配していることを示す。
論文参考訳（メタデータ） (2022-05-10T03:18:48Z)
Few-shot Instruction Prompts for Pretrained Language Models to Detect Social Biases [55.45617404586874]
我々は、事前訓練された言語モデル(LM)を誘導する数ショットの命令ベース手法を提案する。大規模なLMは、微調整モデルとよく似た精度で、異なる種類の細粒度バイアスを検出できることを示す。
論文参考訳（メタデータ） (2021-12-15T04:19:52Z)
Divide-and-Conquer Hard-thresholding Rules in High-dimensional Imbalanced Classification [1.0312968200748118]
高次元の線形判別分析(LDA)における不均衡クラスサイズの影響について検討した。マイノリティ・クラスと呼ばれる1つのクラスのデータの不足により、LDAはマイノリティ・クラスを無視し、最大誤分類率を得ることを示す。そこで本研究では,不等式化率の大きな差を低減させる分割・対数法に基づくハードコンカレンスルールの新たな構成法を提案する。
論文参考訳（メタデータ） (2021-11-05T07:44:28Z)
Tree-based local explanations of machine learning model predictions, AraucanaXAI [2.9660372210786563]
パフォーマンスと知性の間のトレードオフは、特に医学のような高度な応用において、しばしば直面する。本稿では,ジェネリックMLモデルの予測に関する説明を生成するための新しい手法を提案する。
論文参考訳（メタデータ） (2021-10-15T17:39:19Z)
Measure Twice, Cut Once: Quantifying Bias and Fairness in Deep Neural Networks [7.763173131630868]
本稿では,2つのモデルのクラスワイドバイアスを定量的に評価する2つの指標を提案する。これらの新しいメトリクスのパフォーマンスを評価し、その実践的応用を実証することにより、公平性だけでなくバイアスも測定できることを示す。
論文参考訳（メタデータ） (2021-10-08T22:35:34Z)
Learning with Multiclass AUC: Theory and Algorithms [141.63211412386283]
ROC曲線 (AUC) の下の領域は、不均衡学習やレコメンダシステムといった問題に対するよく知られたランキング基準である。本稿では,マルチクラスAUCメトリクスを最適化することで,多クラススコアリング関数を学習する問題について検討する。
論文参考訳（メタデータ） (2021-07-28T05:18:10Z)
Towards Fair Knowledge Transfer for Imbalanced Domain Adaptation [61.317911756566126]
本研究では,不均衡なドメイン間学習における公平性問題に対処するTowards Fair Knowledge Transferフレームワークを提案する。具体的には、新規なクロスドメインミックスアップ生成を利用して、ターゲット情報でマイノリティソースセットを増強し、公正性を高める。本モデルでは,2つのベンチマークで全体の精度を20%以上向上させる。
論文参考訳（メタデータ） (2020-10-23T06:29:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。