論文の概要: Predicting Fine-Tuning Performance with Probing
- arxiv url: http://arxiv.org/abs/2210.07352v1
- Date: Thu, 13 Oct 2022 20:58:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 14:48:08.734141
- Title: Predicting Fine-Tuning Performance with Probing
- Title(参考訳): 探究による微調整性能の予測
- Authors: Zining Zhu, Soroosh Shahtalebi, Frank Rudzicz
- Abstract要約: 本稿では,モデル開発に広く用いられているプロキシ信号を抽出するために,深部NLPモデルの探索の有用性について検討する。
基準値よりも40%$ -80%$小さい精度で微調整性能を予測するために,たった3つの試行テストの精度を利用することが可能であることが判明した。
- 参考スコア(独自算出の注目度): 18.129450295108423
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large NLP models have recently shown impressive performance in language
understanding tasks, typically evaluated by their fine-tuned performance.
Alternatively, probing has received increasing attention as being a lightweight
method for interpreting the intrinsic mechanisms of large NLP models. In
probing, post-hoc classifiers are trained on "out-of-domain" datasets that
diagnose specific abilities. While probing the language models has led to
insightful findings, they appear disjointed from the development of models.
This paper explores the utility of probing deep NLP models to extract a proxy
signal widely used in model development -- the fine-tuning performance. We find
that it is possible to use the accuracies of only three probing tests to
predict the fine-tuning performance with errors $40\%$ - $80\%$ smaller than
baselines. We further discuss possible avenues where probing can empower the
development of deep NLP models.
- Abstract(参考訳): 大規模なNLPモデルは、言語理解タスクにおいて印象的なパフォーマンスを示しており、典型的には微調整されたパフォーマンスによって評価されている。
あるいは、大規模NLPモデルの本質的なメカニズムを解釈するための軽量な方法として、探索が注目されている。
探索では、ポストホック分類器は特定の能力を診断する"ドメイン外"データセットで訓練される。
言語モデルの探索は洞察に富んだ発見をもたらしたが、それらはモデルの開発とは無関係に見えた。
本稿では,モデル開発に広く用いられているプロキシ信号(微調整性能)を抽出するために,深部NLPモデルを提案する。
基準値よりも40 %$ - 80 %$小さい誤差で微調整性能を予測するために、3 つの試行テストの精度を利用することが可能である。
我々はさらに,深層nlpモデルの開発を促進できる道筋について検討する。
関連論文リスト
- Large Language Models as Annotators: Enhancing Generalization of NLP
Models at Minimal Cost [6.662800021628275]
入力のアノテートやNLPモデルの一般化のための大言語モデル(LLM)について検討する。
ベースモデルと微調整NLPモデルとの予測スコアの差に基づくサンプリング戦略を提案する。
論文 参考訳(メタデータ) (2023-06-27T19:29:55Z) - SPARSEFIT: Few-shot Prompting with Sparse Fine-tuning for Jointly Generating Predictions and Natural Language Explanations [17.972111965568384]
命令型学習と組み合わせた微調整事前学習言語モデル(PLM)は,近年,有望な結果を示している。
我々は、離散的なプロンプトを利用して予測とNLEを共同生成する数ショットの微調整戦略であるSparseFitを提案する。
モデルパラメータの6.8%のみを微調整することで,タスク性能と生成したNLEの品質の両面での競争結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-05-22T17:06:41Z) - Prompt-Augmented Linear Probing: Scaling beyond the Limit of Few-shot
In-Context Learners [25.262774179224945]
本稿では,線形探索とインコンテクスト学習のハイブリッドであるPALP(Properced-augmented linear probing)を提案する。
PALPは、データハングリーシナリオにおけるICL間のギャップを閉じる入力表現と、トレーニングオーバーヘッドの少ないデータバウンダントシナリオにおける微調整を大幅に強化する。
論文 参考訳(メタデータ) (2022-12-21T09:37:05Z) - A Kernel-Based View of Language Model Fine-Tuning [94.75146965041131]
ニューラル・タンジェント・カーネル(NTK)が事前学習したLMの微調整を記述しているかどうかを検討する。
本稿では,ダウンストリームタスクを暗黙の単語予測問題として定式化することで,微調整中にカーネルベースのダイナミクスをしばしば引き起こすことを示す。
論文 参考訳(メタデータ) (2022-10-11T17:34:32Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - Improving the Adversarial Robustness of NLP Models by Information
Bottleneck [112.44039792098579]
非破壊機能は敵によって容易に操作でき、NLPモデルを騙すことができる。
本研究では,情報ボトルネック理論を用いて,タスク固有のロバストな特徴を捕捉し,非ロバストな特徴を除去する可能性を検討する。
情報ボトルネックに基づく手法を用いてトレーニングしたモデルでは,ロバストな精度で大幅な改善が達成できることを示す。
論文 参考訳(メタデータ) (2022-06-11T12:12:20Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - NoiER: An Approach for Training more Reliable Fine-TunedDownstream Task
Models [54.184609286094044]
補助モデルと付加データなしで問題を解くための学習パラダイムとして,ノイズエントロピー正規化(NoiER)を提案する。
提案手法は,従来の微調整モデルと比較して平均55%改善した。
論文 参考訳(メタデータ) (2021-08-29T06:58:28Z) - Evaluating the Robustness of Neural Language Models to Input
Perturbations [7.064032374579076]
本研究では,雑音の多い入力テキストをシミュレートするために,文字レベルおよび単語レベルの摂動法を設計し,実装する。
本稿では,BERT,XLNet,RoBERTa,ELMoなどの高性能言語モデルを用いて,入力摂動の異なるタイプの処理能力について検討する。
その結果, 言語モデルは入力摂動に敏感であり, 小さな変化が生じても性能が低下することが示唆された。
論文 参考訳(メタデータ) (2021-08-27T12:31:17Z) - Explaining and Improving Model Behavior with k Nearest Neighbor
Representations [107.24850861390196]
モデルの予測に責任のあるトレーニング例を特定するために, k 近傍表現を提案する。
我々は,kNN表現が学習した素因関係を明らかにするのに有効であることを示す。
以上の結果から,kNN手法により,直交モデルが逆入力に対してより堅牢であることが示唆された。
論文 参考訳(メタデータ) (2020-10-18T16:55:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。