論文の概要: Predicting Performance for Natural Language Processing Tasks
- arxiv url: http://arxiv.org/abs/2005.00870v1
- Date: Sat, 2 May 2020 16:02:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 12:33:01.466403
- Title: Predicting Performance for Natural Language Processing Tasks
- Title(参考訳): 自然言語処理タスクの性能予測
- Authors: Mengzhou Xia, Antonios Anastasopoulos, Ruochen Xu, Yiming Yang, Graham
Neubig
- Abstract要約: 実験条件を入力として,NLP実験の評価スコアを予測する回帰モデルを構築した。
9つの異なるNLPタスクを実験した結果、予測器は目に見えない言語や異なるモデリングアーキテクチャに対して有意義な予測を生成できることがわかった。
- 参考スコア(独自算出の注目度): 128.34208911925424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given the complexity of combinations of tasks, languages, and domains in
natural language processing (NLP) research, it is computationally prohibitive
to exhaustively test newly proposed models on each possible experimental
setting. In this work, we attempt to explore the possibility of gaining
plausible judgments of how well an NLP model can perform under an experimental
setting, without actually training or testing the model. To do so, we build
regression models to predict the evaluation score of an NLP experiment given
the experimental settings as input. Experimenting on 9 different NLP tasks, we
find that our predictors can produce meaningful predictions over unseen
languages and different modeling architectures, outperforming reasonable
baselines as well as human experts. Going further, we outline how our predictor
can be used to find a small subset of representative experiments that should be
run in order to obtain plausible predictions for all other experimental
settings.
- Abstract(参考訳): 自然言語処理(NLP)研究におけるタスク、言語、ドメインの組み合わせの複雑さを考えると、可能な実験環境で新たに提案されたモデルを徹底的にテストすることは、計算的に禁止される。
本研究では,NLPモデルが実際にモデルを訓練したり,テストしたりすることなく,実験条件下でのNLPモデルの性能を評価できる可能性を検討する。
そこで我々は,実験条件を入力として,NLP実験の評価スコアを予測する回帰モデルを構築した。
9つの異なるNLPタスクを実験した結果、予測器は未知の言語や異なるモデリングアーキテクチャに対して有意義な予測を生成できることがわかった。
さらに、我々は、我々の予測器を使って、他のすべての実験的な設定に対して妥当な予測を得るために実行すべき代表的な実験の小さなサブセットを見つける方法を概説する。
関連論文リスト
- Prediction-Guided Active Experiments [18.494123886098215]
予測誘導能動実験(PGAE)のための新しいフレームワークについて紹介する。
PGAEは、既存の機械学習モデルからの予測を活用して、サンプリングと実験をガイドする。
我々は、PGAEが効率的であり続け、一定の正則性仮定の下で同じ半パラメトリック境界を得ることを示す。
論文 参考訳(メタデータ) (2024-11-18T20:16:24Z) - Evaluating Alternative Training Interventions Using Personalized Computational Models of Learning [0.0]
最高の学習成果を生み出すための異なるトレーニング介入を評価することは、インストラクショナルデザイナーが直面する主な課題の1つです。
モデルを自動的に特定の個人に調整するアプローチを提案し、パーソナライズされたモデルが、一般的なモデルよりも生徒の行動をより良く予測することを示す。
我々のアプローチでは、過去の人間の発見と一致した予測と、将来の人間の実験で評価される可能性のある検証可能な予測を行う。
論文 参考訳(メタデータ) (2024-08-24T22:51:57Z) - Doing Experiments and Revising Rules with Natural Language and Probabilistic Reasoning [6.230721646014307]
実験によって自然言語規則を推論する方法のモデルを提供する。
このモデルは、確率的推論のためにLarge Language Models (LLM)とMonte Carloアルゴリズムを統合する。
論文 参考訳(メタデータ) (2024-02-08T19:57:29Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - How Predictable Are Large Language Model Capabilities? A Case Study on
BIG-bench [52.11481619456093]
実験記録におけるBIGベンチの性能予測問題について検討する。
95%以上のR2$スコアは、実験記録の中に学習可能なパターンが存在することを示している。
BIG-bench Hardのように新しいモデルファミリーを評価できるサブセットが3倍程度小さくなっています。
論文 参考訳(メタデータ) (2023-05-24T09:35:34Z) - Online simulator-based experimental design for cognitive model selection [74.76661199843284]
本稿では,抽出可能な確率を伴わない計算モデルを選択する実験設計手法BOSMOSを提案する。
シミュレーション実験では,提案手法により,既存のLFI手法に比べて最大2桁の精度でモデルを選択することができることを示した。
論文 参考訳(メタデータ) (2023-03-03T21:41:01Z) - On the Importance of Application-Grounded Experimental Design for
Evaluating Explainable ML Methods [20.2027063607352]
本稿では,事前説明可能なML評価実験を拡張し,設定を配置設定に近づける実験を行った。
私たちの経験的研究は、以前の研究と劇的に異なる結論を導き、一見自明な実験的な設計選択が、いかに誤解を招く結果をもたらすかを浮き彫りにしています。
この研究は、任意のMLメソッドの評価をシチュレートし、意図されたデプロイメントコンテキストに合わせて適切なタスク、データ、ユーザ、メトリクスを選択する必要性についての教訓を持っていると信じています。
論文 参考訳(メタデータ) (2022-06-24T14:46:19Z) - Towards More Fine-grained and Reliable NLP Performance Prediction [85.78131503006193]
NLPタスクのパフォーマンス予測の改善に2つの貢献をしている。
まず,F1やBLEUのような総合的な精度測定のための性能予測器について検討する。
次に,信頼区間とキャリブレーションの2つの角度から性能予測モデルの信頼性を理解する手法を提案する。
論文 参考訳(メタデータ) (2021-02-10T15:23:20Z) - Efficient Adaptive Experimental Design for Average Treatment Effect
Estimation [18.027128141189355]
本研究では, 依存サンプルから構築した推定器を用いた効率的な実験法を提案する。
提案手法を正当化するために,有限および無限サンプル解析を行う。
論文 参考訳(メタデータ) (2020-02-13T02:04:17Z) - Parameter Space Factorization for Zero-Shot Learning across Tasks and
Languages [112.65994041398481]
本稿では,ニューラルパラメータの空間に対するベイズ生成モデルを提案する。
タスク言語の組み合わせから得られたデータに基づいて、そのような潜伏変数よりも後部を推測する。
我々のモデルは、最先端のゼロショットの言語間転送手法よりも、同等か良い結果が得られる。
論文 参考訳(メタデータ) (2020-01-30T16:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。