論文の概要: Fine-Tuning, Prompting, In-Context Learning and Instruction-Tuning: How
Many Labelled Samples Do We Need?
- arxiv url: http://arxiv.org/abs/2402.12819v1
- Date: Tue, 20 Feb 2024 08:38:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 16:37:34.505250
- Title: Fine-Tuning, Prompting, In-Context Learning and Instruction-Tuning: How
Many Labelled Samples Do We Need?
- Title(参考訳): 微調整、プロンプト、インコンテキスト学習、インストラクションチューニング:ラベル付きサンプルはいくつ必要か?
- Authors: Branislav Pecher, Ivan Srba, Maria Bielikova
- Abstract要約: 本研究は, 優れた性能を実現するために, 特化モデルに必要なラベル付きサンプル数について検討する。
専門化されたモデルでは、一般的なモデルと同等かそれ以上のサンプル(100~1000ドル)しか必要としないことが多い。
同時に、必要なラベル付きデータの量は、タスクの複雑さと結果のばらつきに強く依存する。
- 参考スコア(独自算出の注目度): 5.630038762653309
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When solving a task with limited labelled data, researchers can either use a
general large language model without further update, or use the few examples to
tune a specialised smaller model. When enough labels are available, the
specialised models outperform the general ones on many NLP tasks. In this work,
we aim to investigate how many labelled samples are required for the
specialised models to achieve this superior performance, while taking the
results variance into consideration. Observing the behaviour of prompting,
in-context learning, fine-tuning and instruction-tuning, identifying their
break-even points when increasing number of labelled training samples across
three tasks of varying complexity, we find that the specialised models often
need only few samples ($100-1000$) to be on par or better than the general
ones. At the same time, the amount of required labelled data strongly depends
on the task complexity and results variance.
- Abstract(参考訳): 限られたラベル付きデータでタスクを解く場合、研究者は、さらなる更新なしに一般的な大きな言語モデルを使用するか、いくつかの例を使用して、特別な小さなモデルをチューニングすることができる。
十分なラベルが利用できる場合、特殊化されたモデルは、多くのNLPタスクにおいて一般的なラベルよりも優れる。
本研究では,この優れた性能を実現するために,特殊モデルのラベル付きサンプル数について検討し,結果のばらつきを考慮しながら検討する。
複雑度の異なる3つのタスクに対してラベル付きトレーニングサンプルの数が増加すると、学習の促進、文脈内学習、微調整、指導の調整といった動作を観察すると、一般的なモデルよりも適当かそれ以上のサンプルが必要とされる場合が多い(100-1000$)。
同時に、必要なラベル付きデータの量は、タスクの複雑さと結果のばらつきに大きく依存する。
関連論文リスト
- A General Model for Aggregating Annotations Across Simple, Complex, and
Multi-Object Annotation Tasks [51.14185612418977]
ラベルの品質を改善するための戦略は、複数のアノテータに同じ項目にラベルを付け、ラベルを集約するように求めることである。
特定のタスクに対して様々なbespokeモデルが提案されているが、様々な複雑なタスクを一般化するアグリゲーションメソッドを導入するのはこれが初めてである。
本論では,3つの新たな研究課題について検討し,今後の課題を概説する。
論文 参考訳(メタデータ) (2023-12-20T21:28:35Z) - GistScore: Learning Better Representations for In-Context Example
Selection with Gist Bottlenecks [3.9638110494107095]
In-context Learning(ICL)は、大規模言語モデル(LLM)がプロンプトで条件付きで新しいタスクを実行する機能である。
本稿では,教師付き微調整によるサンプルエンコーダの学習手法であるサンプルギストリングを提案する。
我々の微調整モデルでは、既成のレトリバーよりも20%以上向上し、最先端のICL性能が得られている。
論文 参考訳(メタデータ) (2023-11-16T06:28:05Z) - Few-shot learning approaches for classifying low resource domain
specific software requirements [1.1470070927586016]
少ないショットラーニング(Few-shot learning)は、いくつかの注釈付きサンプルを使用するディープラーニングの一種である。
我々の実験は、BOSCH自動車ドメインテキストソフトウェア要件を3つのカテゴリに分類することに焦点を当てた。
SciBERTとDeBERTaベースのモデルは15のトレーニングサンプルが最も正確である傾向にあるが、注記サンプルの数がシームズやT5ベースのモデルと比較して50に増加するにつれて、その性能向上は最小限に抑えられる。
論文 参考訳(メタデータ) (2023-02-14T10:19:23Z) - Learning to Imagine: Diversify Memory for Incremental Learning using
Unlabeled Data [69.30452751012568]
本研究では,多様な特徴を適応的に生成することで,経験を多様化する学習可能な特徴生成装置を開発する。
生成したサンプルを前例とセマンティックに整合させるために,意味的コントラスト学習を導入する。
提案手法は, 余分な推論コストを伴わず, 2つのベンチマークで最先端の手法より優れている。
論文 参考訳(メタデータ) (2022-04-19T15:15:18Z) - Trace norm regularization for multi-task learning with scarce data [20.085733305266572]
この研究は、タスク毎のサンプル数が少ない場合に、トレースノルム正規化推定器にバウンドされた最初の推定誤差を提供する。
データスカースタスクの学習におけるトレースノルム正規化の利点はメタラーニングにまで拡張され、人工データセット上で経験的に確認される。
論文 参考訳(メタデータ) (2022-02-14T14:18:31Z) - Multi-Task Self-Training for Learning General Representations [97.01728635294879]
マルチタスク・セルフトレーニング(MuST)は、独立した専門教師モデルにおける知識を活用して、一人の一般学生モデルを訓練する。
MuSTはラベルなしまたは部分的にラベル付けされたデータセットでスケーラブルで、大規模データセットのトレーニングにおいて、特別な教師付きモデルとセルフ教師付きモデルの両方を上回っている。
論文 参考訳(メタデータ) (2021-08-25T17:20:50Z) - Generate, Annotate, and Learn: Generative Models Advance Self-Training
and Knowledge Distillation [58.64720318755764]
Semi-Supervised Learning (SSL)は多くのアプリケーションドメインで成功している。
知識蒸留(KD)により、深層ネットワークとアンサンブルの圧縮が可能となり、新しいタスク固有の未ラベルの例について知識を蒸留する際に最良の結果が得られる。
我々は、非条件生成モデルを用いて、ドメイン内の未ラベルデータを合成する「生成、注釈、学習(GAL)」と呼ばれる一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-11T05:01:24Z) - Combat Data Shift in Few-shot Learning with Knowledge Graph [42.59886121530736]
現実世界のアプリケーションでは、少数ショットの学習パラダイムはデータシフトに悩まされることが多い。
既存の少数ショット学習アプローチのほとんどは、データシフトを考慮して設計されていない。
本稿では,タスク固有表現とタスク共有表現を抽出するメタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-27T12:35:18Z) - Low Resource Multi-Task Sequence Tagging -- Revisiting Dynamic
Conditional Random Fields [67.51177964010967]
異なるタスクに対するラベルシーケンス間の依存関係を利用する低リソースマルチタスクシーケンスタグの異なるモデルを比較した。
タスク予測間の相互依存性の明示的モデリングは、通常のマルチタスクモデルと同様にシングルタスクよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-05-01T07:11:34Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。