論文の概要: Evaluating the Evaluators: Are Current Few-Shot Learning Benchmarks Fit
for Purpose?
- arxiv url: http://arxiv.org/abs/2307.02732v1
- Date: Thu, 6 Jul 2023 02:31:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-07 15:23:29.052280
- Title: Evaluating the Evaluators: Are Current Few-Shot Learning Benchmarks Fit
for Purpose?
- Title(参考訳): evaluatorsの評価: 現在の少数の学習ベンチマークは目的に合っているか?
- Authors: Lu\'isa Shimabucoro, Timothy Hospedales, Henry Gouk
- Abstract要約: 本稿では,タスクレベル評価に関する最初の研究について述べる。
数ショット設定における性能推定器の精度を測定した。
評価者の失敗の理由を, 多くの場合, 頑健であると考えられる理由について検討する。
- 参考スコア(独自算出の注目度): 11.451691772914055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Numerous benchmarks for Few-Shot Learning have been proposed in the last
decade. However all of these benchmarks focus on performance averaged over many
tasks, and the question of how to reliably evaluate and tune models trained for
individual tasks in this regime has not been addressed. This paper presents the
first investigation into task-level evaluation -- a fundamental step when
deploying a model. We measure the accuracy of performance estimators in the
few-shot setting, consider strategies for model selection, and examine the
reasons for the failure of evaluators usually thought of as being robust. We
conclude that cross-validation with a low number of folds is the best choice
for directly estimating the performance of a model, whereas using bootstrapping
or cross validation with a large number of folds is better for model selection
purposes. Overall, we find that existing benchmarks for few-shot learning are
not designed in such a way that one can get a reliable picture of how
effectively methods can be used on individual tasks.
- Abstract(参考訳): Few-Shot Learningのための多くのベンチマークがここ10年間提案されている。
しかし、これらのベンチマークはすべて多くのタスクでパフォーマンスに重点を置いており、個々のタスクのためにトレーニングされたモデルをどのように確実に評価しチューニングするかという問題は解決されていない。
本稿では,タスクレベルの評価 - モデルをデプロイする上での基本的なステップについて,最初の調査を行う。
提案手法は,数ショット設定における性能推定器の精度を計測し,モデル選択の戦略を検討し,通常ロバストであると考えられる評価器の故障の原因を考察する。
また,多数の折り畳みを持つブートストラップやクロスバリデーションを用いることで,モデル選択の目的に適しており,モデルの性能を直接推定する上では,クロスバリデーションが最適である,という結論を得た。
全体として、既存の数ショット学習のベンチマークは、個々のタスクでメソッドがいかに効果的に使えるかの信頼性の高い図を得られるように設計されていない。
関連論文リスト
- Self-Taught Evaluators [77.92610887220594]
本稿では,人工的なトレーニングデータのみを用いて,人間のアノテーションを使わずに即興で証明することを目的としたアプローチを提案する。
我々の自己学習評価器は、RewardBench上で75.4から88.3までの強いLDMを改善することができる。
論文 参考訳(メタデータ) (2024-08-05T17:57:02Z) - When is an Embedding Model More Promising than Another? [33.540506562970776]
埋め込みは機械学習において中心的な役割を担い、あらゆるオブジェクトを数値表現に投影し、様々な下流タスクを実行するために利用することができる。
埋め込みモデルの評価は一般にドメイン固有の経験的アプローチに依存する。
本稿では, 組込み器の評価を統一的に行い, 充足性と情報性の概念を考察する。
論文 参考訳(メタデータ) (2024-06-11T18:13:46Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - Evaluating Representations with Readout Model Switching [19.907607374144167]
本稿では,最小記述長(MDL)の原理を用いて評価指標を考案する。
我々は、読み出しモデルのためのハイブリッド離散および連続値モデル空間を設計し、それらの予測を組み合わせるために切替戦略を用いる。
提案手法はオンライン手法で効率的に計算でき,様々なアーキテクチャの事前学習された視覚エンコーダに対する結果を示す。
論文 参考訳(メタデータ) (2023-02-19T14:08:01Z) - Effective Robustness against Natural Distribution Shifts for Models with
Different Training Data [113.21868839569]
効果的ロバスト性」は、分配内(ID)性能から予測できる以上の余分な分配外ロバスト性を測定する。
異なるデータに基づいてトレーニングされたモデルの有効ロバスト性を評価・比較するための新しい評価指標を提案する。
論文 参考訳(メタデータ) (2023-02-02T19:28:41Z) - Multi-Objective Model Selection for Time Series Forecasting [9.473440847947492]
44のデータセット上で7つの古典的および6つのディープラーニング予測手法を評価する。
ベンチマーク評価を利用して、精度やレイテンシといった複数の目標を考慮した優れたデフォルトを学習します。
予測モデルから性能指標へのマッピングを学習することにより,提案手法のPARETOSELECTが正確にモデルを選択することができることを示す。
論文 参考訳(メタデータ) (2022-02-17T07:40:15Z) - Post-hoc Models for Performance Estimation of Machine Learning Inference [22.977047604404884]
さまざまなシナリオにおいて、推論中に機械学習モデルがどれだけうまく機能するかを推定することが重要である。
性能評価をさまざまなメトリクスやシナリオに体系的に一般化する。
提案したポストホックモデルは標準信頼ベースラインを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2021-10-06T02:20:37Z) - Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual
Model-Based Reinforcement Learning [109.74041512359476]
視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討する。
潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。
我々は,この現象が探索とどのように関係しているか,および標準ベンチマークにおける下位スコーリングモデルのいくつかが,同じトレーニングデータでトレーニングされた場合のベストパフォーマンスモデルと同等の性能を発揮するかを示す。
論文 参考訳(メタデータ) (2020-12-08T18:03:21Z) - Document Ranking with a Pretrained Sequence-to-Sequence Model [56.44269917346376]
関連ラベルを「ターゲット語」として生成するためにシーケンス・ツー・シーケンス・モデルをどのように訓練するかを示す。
提案手法は,データポーラ方式におけるエンコーダのみのモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2020-03-14T22:29:50Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。