論文の概要: Fine-Tuning, Prompting, In-Context Learning and Instruction-Tuning: How
Many Labelled Samples Do We Need?
- arxiv url: http://arxiv.org/abs/2402.12819v1
- Date: Tue, 20 Feb 2024 08:38:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-02-21 16:37:34.505250
- Title: Fine-Tuning, Prompting, In-Context Learning and Instruction-Tuning: How
Many Labelled Samples Do We Need?
- Title(参考訳): 微調整、プロンプト、インコンテキスト学習、インストラクションチューニング:ラベル付きサンプルはいくつ必要か?
- Authors: Branislav Pecher, Ivan Srba, Maria Bielikova
- Abstract要約: 本研究は, 優れた性能を実現するために, 特化モデルに必要なラベル付きサンプル数について検討する。
専門化されたモデルでは、一般的なモデルと同等かそれ以上のサンプル(100~1000ドル)しか必要としないことが多い。
同時に、必要なラベル付きデータの量は、タスクの複雑さと結果のばらつきに強く依存する。
- 参考スコア(独自算出の注目度): 5.630038762653309
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When solving a task with limited labelled data, researchers can either use a
general large language model without further update, or use the few examples to
tune a specialised smaller model. When enough labels are available, the
specialised models outperform the general ones on many NLP tasks. In this work,
we aim to investigate how many labelled samples are required for the
specialised models to achieve this superior performance, while taking the
results variance into consideration. Observing the behaviour of prompting,
in-context learning, fine-tuning and instruction-tuning, identifying their
break-even points when increasing number of labelled training samples across
three tasks of varying complexity, we find that the specialised models often
need only few samples ($100-1000$) to be on par or better than the general
ones. At the same time, the amount of required labelled data strongly depends
on the task complexity and results variance.
- Abstract(参考訳): 限られたラベル付きデータでタスクを解く場合、研究者は、さらなる更新なしに一般的な大きな言語モデルを使用するか、いくつかの例を使用して、特別な小さなモデルをチューニングすることができる。
十分なラベルが利用できる場合、特殊化されたモデルは、多くのNLPタスクにおいて一般的なラベルよりも優れる。
本研究では,この優れた性能を実現するために,特殊モデルのラベル付きサンプル数について検討し,結果のばらつきを考慮しながら検討する。
複雑度の異なる3つのタスクに対してラベル付きトレーニングサンプルの数が増加すると、学習の促進、文脈内学習、微調整、指導の調整といった動作を観察すると、一般的なモデルよりも適当かそれ以上のサンプルが必要とされる場合が多い(100-1000$)。
同時に、必要なラベル付きデータの量は、タスクの複雑さと結果のばらつきに大きく依存する。
関連論文リスト
- Large Language Models in the Task of Automatic Validation of Text Classifier Predictions [55.2480439325792]
テキスト分類のための機械学習モデルは、与えられたテキストのクラスを予測するために訓練される。
これを行うには、トレーニングと検証のサンプルを用意し、各テキストにクラスを割り当てる必要がある。
人間のアノテーションは通常、特定の分類タスクによって異なる専門レベルを持つ人間のアノテーションによって割り当てられる。
本稿では,人間のアノテータを大規模言語モデルに置き換えるためのいくつかのアプローチを提案する。
論文 参考訳(メタデータ) (2025-05-24T13:19:03Z) - Prompt Tuning Vision Language Models with Margin Regularizer for Few-Shot Learning under Distribution Shifts [13.21626568246313]
視覚言語基礎モデルが、分布やクラスが全く異なるデータセットに適応できるかどうかを解析する。
本稿では,少数のサンプルに対して,このような大規模VLMを直接適用するための新しいプロンプトチューニング手法であるPromptMarginを提案する。
PromptMarginは、このタスクのテキストと視覚的なプロンプトを効果的に調整し、2つのメインモジュールを持っている。
論文 参考訳(メタデータ) (2025-05-21T13:26:56Z) - Adapt-$\infty$: Scalable Continual Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、生涯のインストラクションチューニングのための、新しいマルチウェイおよびアダプティブなデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
このデータセレクタは、トレーニングのために各スキルクラスタから最も重要なサンプルのサブセットをサンプリングする。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - Task-Adaptive Pretrained Language Models via Clustered-Importance Sampling [21.762562172089236]
代わりに、大規模なジェネラリストのトレーニングセットからスペシャリストモデルを構築します。
我々は、限られたドメイン固有データからのガイダンスにより、ジェネリストデータのトレーニング分布を調整する。
スケーラブルで、事前トレーニングと継続事前トレーニングに適しており、マルチタスク設定でうまく機能する。
論文 参考訳(メタデータ) (2024-09-30T20:49:54Z) - Target-Aware Language Modeling via Granular Data Sampling [25.957424920194914]
言語モデルの事前訓練は、一般的に幅広いユースケースをターゲットにし、多様なソースからのデータを取り込む。
コスト効率が高く簡単なアプローチは、低次元のデータ特徴をサンプリングすることである。
事前学習したモデルはRefinedWebの全データと同等に動作し、125Mから1.5Bまでのモデルサイズに対してランダムに選択されたサンプルより優れた性能を示す。
論文 参考訳(メタデータ) (2024-09-23T04:52:17Z) - Large Language Monkeys: Scaling Inference Compute with Repeated Sampling [81.34900892130929]
モデルから候補解を繰り返しサンプリングする簡単な手法を用いて、推論計算をスケーリングのための別の軸として検討する。
複数のタスクやモデルにまたがって、カバレッジは4桁以上のサンプル数でスケールする。
コードや形式的証明のようなドメインでは、回答が自動的に検証されるので、カバレッジの増加は直接的にパフォーマンスの向上につながります。
論文 参考訳(メタデータ) (2024-07-31T17:57:25Z) - The ALCHEmist: Automated Labeling 500x CHEaper Than LLM Data Annotators [11.056579191156498]
大規模な事前訓練されたモデルは、アノテータとして使用することができ、クラウドワーカーを置き換えたり拡張したりするのに役立ちます。
最上位モデルを採用する場合、APIコールに数千ドルを支払わなければならない場合が多い。
事前訓練されたモデルからラベルを直接クエリする代わりに、ラベルを生成するプログラムを生成するようにモデルをタスクする。
論文 参考訳(メタデータ) (2024-06-25T17:58:26Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - A General Model for Aggregating Annotations Across Simple, Complex, and
Multi-Object Annotation Tasks [51.14185612418977]
ラベルの品質を改善するための戦略は、複数のアノテータに同じ項目にラベルを付け、ラベルを集約するように求めることである。
特定のタスクに対して様々なbespokeモデルが提案されているが、様々な複雑なタスクを一般化するアグリゲーションメソッドを導入するのはこれが初めてである。
本論では,3つの新たな研究課題について検討し,今後の課題を概説する。
論文 参考訳(メタデータ) (2023-12-20T21:28:35Z) - GistScore: Learning Better Representations for In-Context Example
Selection with Gist Bottlenecks [3.9638110494107095]
In-context Learning(ICL)は、大規模言語モデル(LLM)がプロンプトで条件付きで新しいタスクを実行する機能である。
本稿では,教師付き微調整によるサンプルエンコーダの学習手法であるサンプルギストリングを提案する。
我々の微調整モデルでは、既成のレトリバーよりも20%以上向上し、最先端のICL性能が得られている。
論文 参考訳(メタデータ) (2023-11-16T06:28:05Z) - Anchor Points: Benchmarking Models with Much Fewer Examples [88.02417913161356]
6つの人気のある言語分類ベンチマークでは、多数の点の正しいクラスに対するモデル信頼度はモデル間で強く相関している。
Anchor Point Selectionは,データセット全体にわたるモデル動作をキャプチャする,データセットの小さなサブセットを選択する手法である。
平均絶対誤差が低いデータセットの他のすべての点について、クラスごとの予測モデルを推定するために、いくつかのアンカーポイントを使用することができる。
論文 参考訳(メタデータ) (2023-09-14T17:45:51Z) - USB: A Unified Summarization Benchmark Across Tasks and Domains [68.82726887802856]
ウィキペディア由来のベンチマークを導入し、クラウドソースアノテーションの豊富なセットを補完し、8ドルの相互関連タスクをサポートする。
このベンチマークで様々な手法を比較し、複数のタスクにおいて、中程度の大きさの微調整されたモデルが、より大きな数発の言語モデルよりも一貫して優れていることを発見した。
論文 参考訳(メタデータ) (2023-05-23T17:39:54Z) - Few-shot learning approaches for classifying low resource domain
specific software requirements [1.1470070927586016]
少ないショットラーニング(Few-shot learning)は、いくつかの注釈付きサンプルを使用するディープラーニングの一種である。
我々の実験は、BOSCH自動車ドメインテキストソフトウェア要件を3つのカテゴリに分類することに焦点を当てた。
SciBERTとDeBERTaベースのモデルは15のトレーニングサンプルが最も正確である傾向にあるが、注記サンプルの数がシームズやT5ベースのモデルと比較して50に増加するにつれて、その性能向上は最小限に抑えられる。
論文 参考訳(メタデータ) (2023-02-14T10:19:23Z) - Simplicity Bias Leads to Amplified Performance Disparities [8.60453031364566]
SGDで訓練されたモデルは、単純さに偏りがあることを示し、多数派の学習を優先させる。
モデルは、単純なデータセットのクラスやグループを優先順位付けし、複雑なものを見つけることを犠牲にすることができる。
論文 参考訳(メタデータ) (2022-12-13T15:24:41Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - How to distribute data across tasks for meta-learning? [59.608652082495624]
タスクごとのデータポイントの最適な数は予算に依存しますが、それは大きな予算のためのユニークな一定の値に収束します。
この結果から,データ収集の簡便かつ効率的な手順が示唆された。
論文 参考訳(メタデータ) (2021-03-15T15:38:47Z) - Low Resource Multi-Task Sequence Tagging -- Revisiting Dynamic
Conditional Random Fields [67.51177964010967]
異なるタスクに対するラベルシーケンス間の依存関係を利用する低リソースマルチタスクシーケンスタグの異なるモデルを比較した。
タスク予測間の相互依存性の明示的モデリングは、通常のマルチタスクモデルと同様にシングルタスクよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-05-01T07:11:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。