論文の概要: Towards More Fine-grained and Reliable NLP Performance Prediction
- arxiv url: http://arxiv.org/abs/2102.05486v1
- Date: Wed, 10 Feb 2021 15:23:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-11 14:49:39.719334
- Title: Towards More Fine-grained and Reliable NLP Performance Prediction
- Title(参考訳): より微細で信頼性の高いNLP性能予測に向けて
- Authors: Zihuiwen Ye, Pengfei Liu, Jinlan Fu, Graham Neubig
- Abstract要約: NLPタスクのパフォーマンス予測の改善に2つの貢献をしている。
まず,F1やBLEUのような総合的な精度測定のための性能予測器について検討する。
次に,信頼区間とキャリブレーションの2つの角度から性能予測モデルの信頼性を理解する手法を提案する。
- 参考スコア(独自算出の注目度): 85.78131503006193
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Performance prediction, the task of estimating a system's performance without
performing experiments, allows us to reduce the experimental burden caused by
the combinatorial explosion of different datasets, languages, tasks, and
models. In this paper, we make two contributions to improving performance
prediction for NLP tasks. First, we examine performance predictors not only for
holistic measures of accuracy like F1 or BLEU but also fine-grained performance
measures such as accuracy over individual classes of examples. Second, we
propose methods to understand the reliability of a performance prediction model
from two angles: confidence intervals and calibration. We perform an analysis
of four types of NLP tasks, and both demonstrate the feasibility of
fine-grained performance prediction and the necessity to perform reliability
analysis for performance prediction methods in the future. We make our code
publicly available: \url{https://github.com/neulab/Reliable-NLPPP}
- Abstract(参考訳): 実験をせずにシステムのパフォーマンスを推定するタスクであるパフォーマンス予測は、異なるデータセット、言語、タスク、モデルの組み合わせ爆発によって引き起こされる実験負荷を減らすことができます。
本稿では,NLPタスクの性能予測の改善に2つの貢献をする。
まず,F1 や BLEU のような総合的な精度測定だけでなく,個々のクラスに対する精度などの細かな性能測定も行う。
次に,信頼区間とキャリブレーションの2つの角度から性能予測モデルの信頼性を理解する手法を提案する。
本稿では,4種類のnlpタスクの分析を行い,両タスクとも細粒度性能予測の実現可能性と性能予測手法の信頼性解析の必要性を実証する。
コードを公開します。 \url{https://github.com/neulab/Reliable-NLPPP}
関連論文リスト
- Can We Predict Performance of Large Models across Vision-Language Tasks? [34.27319941609499]
本稿では,他のLVLMやタスクの観測結果に基づいて,未知のパフォーマンススコアを予測する新しいフレームワークを提案する。
スパースなパフォーマンスマトリックス$boldsymbolR$を使用します。各エントリ$R_mn$は、$n$-thデータセット上の$m$-thモデルのパフォーマンススコアを表します。
本研究では,未知のスコアの予測におけるPMFの精度,評価の順序付けにおける不確実性推定の信頼性,スパースデータ処理における拡張の有効性を示す。
論文 参考訳(メタデータ) (2024-10-14T03:00:12Z) - Scaling Laws for Predicting Downstream Performance in LLMs [75.28559015477137]
この研究は、性能評価のためのより効率的な指標として、事前学習損失に焦点を当てている。
我々は、データソース間のFLOPに基づいて、ドメイン固有の事前学習損失を予測するために、電力法解析関数を拡張した。
我々は2層ニューラルネットワークを用いて、複数のドメイン固有の損失と下流性能の非線形関係をモデル化する。
論文 参考訳(メタデータ) (2024-10-11T04:57:48Z) - Forecast-PEFT: Parameter-Efficient Fine-Tuning for Pre-trained Motion Forecasting Models [68.23649978697027]
Forecast-PEFTは、モデルのパラメータの大部分を凍結し、新しく導入されたプロンプトとアダプタの調整に集中する微調整戦略である。
実験の結果,Forecast-PEFTは動作予測タスクにおいて従来のフルチューニング手法よりも優れていた。
Forecast-FTは予測性能をさらに改善し、従来のベースライン法よりも最大9.6%向上した。
論文 参考訳(メタデータ) (2024-07-28T19:18:59Z) - Uncertainty-Aware Performance Prediction for Highly Configurable
Software Systems via Bayesian Neural Networks [12.607426130997336]
本稿では,予測モデルに不確実性を組み込むベイズ深層学習手法BDLPerfを提案する。
本研究では,ベイズ予測モデルにより生じる信頼区間の信頼性を確保するために,新しい不確実性校正手法を開発した。
実世界の10のシステムに対する実験結果から,BDLPerfは既存の手法よりも精度が高いことがわかった。
論文 参考訳(メタデータ) (2022-12-27T04:39:26Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Probabilistic Gradient Boosting Machines for Large-Scale Probabilistic
Regression [51.770998056563094]
PGBM(Probabilistic Gradient Boosting Machines)は、確率的予測を生成する手法である。
既存の最先端手法と比較してPGBMの利点を実証的に示す。
論文 参考訳(メタデータ) (2021-06-03T08:32:13Z) - Learning Prediction Intervals for Model Performance [1.433758865948252]
モデル性能の予測間隔を計算する手法を提案する。
我々は,幅広いドリフト条件におけるアプローチを評価し,競合ベースラインよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2020-12-15T21:32:03Z) - Towards Improving Selective Prediction Ability of NLP Systems [24.774450633678125]
本稿では,予測信頼度とインスタンスの難易度を用いてモデルを校正することにより,モデルの確率推定を改善する手法を提案する。
In-Domain (IID) と Out-of-Domain (OOD) の2つの設定で評価を行う。
論文 参考訳(メタデータ) (2020-08-21T08:46:36Z) - Robust Validation: Confident Predictions Even When Distributions Shift [19.327409270934474]
本稿では,モデルが点予測ではなく,その予測に対して不確実な推定を行うような,頑健な予測推論の手順について述べる。
本稿では, トレーニング集団の周囲に$f$-divergence のボールを用いて, 任意のテスト分布に対して適切なカバレッジレベルを与える予測セットを生成する手法を提案する。
私たちの方法論の重要な構成要素は、将来のデータシフトの量を見積り、それに対する堅牢性を構築することです。
論文 参考訳(メタデータ) (2020-08-10T17:09:16Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。