論文の概要: Large Language Models as Annotators: Enhancing Generalization of NLP
Models at Minimal Cost
- arxiv url: http://arxiv.org/abs/2306.15766v1
- Date: Tue, 27 Jun 2023 19:29:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-29 16:43:53.998433
- Title: Large Language Models as Annotators: Enhancing Generalization of NLP
Models at Minimal Cost
- Title(参考訳): アノテーションとしての大規模言語モデル:最小コストでのNLPモデルの一般化の促進
- Authors: Parikshit Bansal, Amit Sharma
- Abstract要約: 入力のアノテートやNLPモデルの一般化のための大言語モデル(LLM)について検討する。
ベースモデルと微調整NLPモデルとの予測スコアの差に基づくサンプリング戦略を提案する。
- 参考スコア(独自算出の注目度): 6.662800021628275
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art supervised NLP models achieve high accuracy but are also
susceptible to failures on inputs from low-data regimes, such as domains that
are not represented in training data. As an approximation to collecting
ground-truth labels for the specific domain, we study the use of large language
models (LLMs) for annotating inputs and improving the generalization of NLP
models. Specifically, given a budget for LLM annotations, we present an
algorithm for sampling the most informative inputs to annotate and retrain the
NLP model. We find that popular active learning strategies such as
uncertainty-based sampling do not work well. Instead, we propose a sampling
strategy based on the difference in prediction scores between the base model
and the finetuned NLP model, utilizing the fact that most NLP models are
finetuned from a base model. Experiments with classification (semantic
similarity) and ranking (semantic search) tasks show that our sampling strategy
leads to significant gains in accuracy for both the training and target
domains.
- Abstract(参考訳): 最先端の教師付きNLPモデルは高い精度を達成できるが、トレーニングデータに表現されていないドメインのような低データ状態からの入力の失敗にも影響を受けやすい。
特定の領域に対する接地ラベルの収集の近似として,入力の注釈付けとnlpモデルの一般化のための大規模言語モデル(llms)の使用について検討した。
具体的には、LPMアノテーションの予算を考慮し、最も情報に富んだ入力をサンプリングし、NLPモデルの注釈と再訓練を行うアルゴリズムを提案する。
不確実性に基づくサンプリングのような一般的なアクティブな学習戦略はうまく機能しない。
その代わり、ベースモデルと微調整NLPモデルとの予測スコアの差に基づくサンプリング戦略を提案し、ほとんどのNLPモデルがベースモデルから微調整されているという事実を利用する。
分類 (semantic similarity) とランキング (semantic search) タスクを用いた実験により, 学習領域と対象領域の両方において, サンプリング戦略が有意な精度向上をもたらすことが示された。
関連論文リスト
- Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Preference Learning Algorithms Do Not Learn Preference Rankings [62.335733662381884]
選好学習は、好ましくない出力よりも、好ましくない出力により高い確率を割り当てるようにモデルを訓練する、という従来の知恵を考察する。
多くの最先端の選好調整モデルでは、一般的な選好データセットでは60%未満のランキング精度が得られている。
論文 参考訳(メタデータ) (2024-05-29T21:29:44Z) - Querying Easily Flip-flopped Samples for Deep Active Learning [63.62397322172216]
アクティブラーニング(英: Active Learning)は、ラベルのないデータを戦略的に選択してクエリすることで、モデルの性能を向上させることを目的とした機械学習パラダイムである。
効果的な選択戦略の1つはモデルの予測の不確実性に基づくもので、サンプルがどの程度情報的であるかの尺度として解釈できる。
本稿では,予測されたラベルの不一致の最小確率として,最小不一致距離(LDM)を提案する。
論文 参考訳(メタデータ) (2024-01-18T08:12:23Z) - Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。
CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。
単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:28:29Z) - Learning New Tasks from a Few Examples with Soft-Label Prototypes [18.363177410917597]
ソフトラベルのプロトタイプ(SLP)に基づく新しい数ショット学習手法を提案する。
これまでにないNLPタスク(4,8,16)の学習に重点を置いている。
このデータ・リーン・セッティングにおけるテスト作業の大部分において,本手法が優れた性能を発揮することを実験的に実証した。
論文 参考訳(メタデータ) (2022-10-31T16:06:48Z) - Predicting Fine-Tuning Performance with Probing [18.129450295108423]
本稿では,モデル開発に広く用いられているプロキシ信号を抽出するために,深部NLPモデルの探索の有用性について検討する。
基準値よりも40%$ -80%$小さい精度で微調整性能を予測するために,たった3つの試行テストの精度を利用することが可能であることが判明した。
論文 参考訳(メタデータ) (2022-10-13T20:58:14Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - Evaluating the Robustness of Neural Language Models to Input
Perturbations [7.064032374579076]
本研究では,雑音の多い入力テキストをシミュレートするために,文字レベルおよび単語レベルの摂動法を設計し,実装する。
本稿では,BERT,XLNet,RoBERTa,ELMoなどの高性能言語モデルを用いて,入力摂動の異なるタイプの処理能力について検討する。
その結果, 言語モデルは入力摂動に敏感であり, 小さな変化が生じても性能が低下することが示唆された。
論文 参考訳(メタデータ) (2021-08-27T12:31:17Z) - Model Explainability in Deep Learning Based Natural Language Processing [0.0]
我々は、一般的な機械学習モデル説明可能性方法論をレビューし、比較した。
NLP分類モデルにNLP説明可能性手法の1つを適用した。
我々は,NLPモデルの特質から,いくつかの共通点を明らかにした。
論文 参考訳(メタデータ) (2021-06-14T13:23:20Z) - Bayesian Active Learning with Pretrained Language Models [9.161353418331245]
Active Learning (AL)は、ラベルなしデータのプールからアノテーションのためのデータを反復的に選択する手法である。
以前のALアプローチは、イテレーションごとにゼロからトレーニングされるタスク固有のモデルに制限されている。
BALM;Bayesian Active Learning with pretrained language modelを紹介します。
論文 参考訳(メタデータ) (2021-04-16T19:07:31Z) - Explaining and Improving Model Behavior with k Nearest Neighbor
Representations [107.24850861390196]
モデルの予測に責任のあるトレーニング例を特定するために, k 近傍表現を提案する。
我々は,kNN表現が学習した素因関係を明らかにするのに有効であることを示す。
以上の結果から,kNN手法により,直交モデルが逆入力に対してより堅牢であることが示唆された。
論文 参考訳(メタデータ) (2020-10-18T16:55:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。