論文の概要: Forest vs Tree: The $(N, K)$ Trade-off in Reproducible ML Evaluation
- arxiv url: http://arxiv.org/abs/2508.03663v1
- Date: Tue, 05 Aug 2025 17:18:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:56.097257
- Title: Forest vs Tree: The $(N, K)$ Trade-off in Reproducible ML Evaluation
- Title(参考訳): Forest vs Tree:$(N, K)$ Trade-off in Reproducible ML Evaluation
- Authors: Deepak Pandita, Flip Korn, Chris Welty, Christopher M. Homan,
- Abstract要約: 信頼性の高い機械学習評価に必要なアイテム数(N$)とアイテムあたりのレスポンス数(K$)のトレードオフについて検討する。
人間の不一致の原因は、少なくとも1つのメトリクスでテストされたデータセットに対して、1000ドル以下で、N倍のK$が伴う可能性がある。
- 参考スコア(独自算出の注目度): 5.506095201822833
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reproducibility is a cornerstone of scientific validation and of the authority it confers on its results. Reproducibility in machine learning evaluations leads to greater trust, confidence, and value. However, the ground truth responses used in machine learning often necessarily come from humans, among whom disagreement is prevalent, and surprisingly little research has studied the impact of effectively ignoring disagreement in these responses, as is typically the case. One reason for the lack of research is that budgets for collecting human-annotated evaluation data are limited, and obtaining more samples from multiple annotators for each example greatly increases the per-item annotation costs. We investigate the trade-off between the number of items ($N$) and the number of responses per item ($K$) needed for reliable machine learning evaluation. We analyze a diverse collection of categorical datasets for which multiple annotations per item exist, and simulated distributions fit to these datasets, to determine the optimal $(N, K)$ configuration, given a fixed budget ($N \times K$), for collecting evaluation data and reliably comparing the performance of machine learning models. Our findings show, first, that accounting for human disagreement may come with $N \times K$ at no more than 1000 (and often much lower) for every dataset tested on at least one metric. Moreover, this minimal $N \times K$ almost always occurred for $K > 10$. Furthermore, the nature of the tradeoff between $K$ and $N$ -- or if one even existed -- depends on the evaluation metric, with metrics that are more sensitive to the full distribution of responses performing better at higher levels of $K$. Our methods can be used to help ML practitioners get more effective test data by finding the optimal metrics and number of items and annotations per item to collect to get the most reliability for their budget.
- Abstract(参考訳): 再現性(reproducibility)は、科学的検証の基盤であり、その結果に言及する権威である。
機械学習の評価における再現性は、より信頼、信頼、価値をもたらす。
しかし、機械学習で使用される基礎的な真理反応は、しばしば人間から来るものであり、そのなかには意見の不一致が一般的であり、こうした意見の不一致を効果的に無視する研究はほとんど行われていない。
研究の欠如の1つとして、人手による評価データ収集の予算が限られており、例ごとに複数のアノテータからより多くのサンプルを取得することで、アノテーション毎のコストが大幅に増大している。
信頼性の高い機械学習評価に必要なアイテム数(N$)とアイテム毎のレスポンス数(K$)のトレードオフについて検討する。
評価データを収集し、機械学習モデルの性能を確実に比較するために、最適な$(N, K)$設定を決定するために、各項目に複数のアノテーションが存在する多種多様な分類データセットを解析し、これらのデータセットに適合する分布をシミュレートし、最適な$(N, K)$設定を決定する。
まず、人間の不一致を説明するために、少なくとも1つの指標でテストされたデータセットに対して、1000ドル以下(そして多くの場合、より低い)で1000ドル(約1万2000円)の費用がかかる可能性があることを示しました。
さらに、この最小の$N \times K$は、ほぼ常に$K > 10$で発生した。
さらに、$K$と$N$のトレードオフの性質は、もし存在していたとしても、評価基準に依存する。
我々の手法は、ML実践者が最適なメトリクスとアイテム数、アノテーションを見つけ出してより効果的なテストデータを得るのに役立つ。
関連論文リスト
- DUPRE: Data Utility Prediction for Efficient Data Valuation [49.60564885180563]
Data Shapleyのような協調ゲーム理論に基づくデータ評価では、データユーティリティを評価し、複数のデータサブセットに対してMLモデルを再トレーニングする必要がある。
我々のフレームワークである textttDUPRE は、モデル再学習による評価ではなく、データユーティリティを予測することによって、サブセット評価当たりのコストを削減できる代替手法を採用しています。
具体的には、いくつかのデータサブセットのデータユーティリティを評価すると、textttDUPREは、他のすべてのデータサブセットの有用性を予測するために、emphGaussianプロセス(GP)回帰モデルに適合する。
論文 参考訳(メタデータ) (2025-02-22T08:53:39Z) - How to Select Datapoints for Efficient Human Evaluation of NLG Models? [57.60407340254572]
我々は,人間の評価に最も有用なデータポイントを得るために,セレクタスイートを開発し,分析する。
本研究では,自動測定値の分散に基づくセレクタ,モデル出力の多様性,項目応答理論がランダム選択より優れていることを示す。
特に,情報源に基づく推定手法を導入し,情報源のテキストに基づいて人体評価に有用な項目を推定する。
論文 参考訳(メタデータ) (2025-01-30T10:33:26Z) - Is $F_1$ Score Suboptimal for Cybersecurity Models? Introducing $C_{score}$, a Cost-Aware Alternative for Model Assessment [1.747623282473278]
偽陽性と偽陰性は等しくなく、応用に依存している。
サイバーセキュリティアプリケーションでは、攻撃を検知しないコストは、攻撃として良心的な活動をマークすることとは大きく異なる。
我々は、精度とリコールに基づいて、新しいコスト対応メトリックである$C_score$を提案する。
論文 参考訳(メタデータ) (2024-07-19T21:01:19Z) - Scalable Learning of Item Response Theory Models [48.91265296134559]
項目応答理論(IRT)モデルは、分類データから、$m$テスト項目の遅延困難特性とともに、$n$試験の潜時能力を評価することを目的としている。
我々はこれらのモデルの類似性をロジスティック回帰に利用し、コアセットと呼ばれる小さな重み付き部分集合を用いて正確に近似することができる。
論文 参考訳(メタデータ) (2024-03-01T17:12:53Z) - USB: A Unified Summarization Benchmark Across Tasks and Domains [68.82726887802856]
ウィキペディア由来のベンチマークを導入し、クラウドソースアノテーションの豊富なセットを補完し、8ドルの相互関連タスクをサポートする。
このベンチマークで様々な手法を比較し、複数のタスクにおいて、中程度の大きさの微調整されたモデルが、より大きな数発の言語モデルよりも一貫して優れていることを発見した。
論文 参考訳(メタデータ) (2023-05-23T17:39:54Z) - More Communication Does Not Result in Smaller Generalization Error in
Federated Learning [9.00236182523638]
フェデレーテッド・ラーニング・セッティングにおける統計的学習モデルの一般化誤差について検討する。
モデル集約の多重(mathbb N*$の$R)ラウンドについて検討し、最終的な集約モデルの一般化誤差に対する$R$の効果について検討する。
論文 参考訳(メタデータ) (2023-04-24T15:56:11Z) - You can't pick your neighbors, or can you? When and how to rely on
retrieval in the $k$NN-LM [65.74934004876914]
Retrieval-enhanced Language Model (LM) は、大規模な外部データストアから取得したテキストにそれらの予測を条件付ける。
そのようなアプローチの1つ、$k$NN-LMは、既存のLMの予測を$k$-nearest近くのモデルの出力と補間する。
本研究では,2つの英語モデルデータセットに対するアプローチの有効性を実証的に測定する。
論文 参考訳(メタデータ) (2022-10-28T02:57:40Z) - Deconstructing Distributions: A Pointwise Framework of Learning [15.517383696434162]
テスト分布におけるモデルの平均性能と、この個々の点におけるポイントワイズ性能の関係について調べる。
プロファイルは、モデルとデータの構造 -- 分布の内外 -- に新しい洞察を与えることができる。
論文 参考訳(メタデータ) (2022-02-20T23:25:28Z) - How to distribute data across tasks for meta-learning? [59.608652082495624]
タスクごとのデータポイントの最適な数は予算に依存しますが、それは大きな予算のためのユニークな一定の値に収束します。
この結果から,データ収集の簡便かつ効率的な手順が示唆された。
論文 参考訳(メタデータ) (2021-03-15T15:38:47Z) - Best-item Learning in Random Utility Models with Subset Choices [40.17224226373741]
我々は、$k$アイテムのサブセットの逐次的かつ適応的に選択されたプレイを用いて、$n$アイテムのプールから最も価値のあるアイテムをPACで学習する問題を考察する。
そのようなRUMの新たな性質を最小限の利点と呼び、アイテムのペアを分離する複雑さを特徴づけるのに役立つ。
一般RUMの学習アルゴリズムとして,アイテムの相対的な数と階層的除去と,新しいPACサンプルの複雑性保証を併用した学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-19T03:57:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。