論文の概要: Comparing Specialised Small and General Large Language Models on Text Classification: 100 Labelled Samples to Achieve Break-Even Performance
- arxiv url: http://arxiv.org/abs/2402.12819v3
- Date: Mon, 19 May 2025 12:04:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.12149
- Title: Comparing Specialised Small and General Large Language Models on Text Classification: 100 Labelled Samples to Achieve Break-Even Performance
- Title(参考訳): テキスト分類における特殊小・一般大言語モデルの比較:ブレーク・イヴ・パフォーマンス向上のための100個のラベレードサンプル
- Authors: Branislav Pecher, Ivan Srba, Maria Bielikova,
- Abstract要約: 特殊化モデルでは、一般的なモデルと同等かそれ以上のサンプル(平均100ドル)をほとんど必要としない場合が多い。
パフォーマンスのばらつきを考慮すると、必要なラベルの数は平均100 - 200%$に増加する。
4ビットの量子化は無視できる影響を持つため、より大規模なモデルでは、パフォーマンスの向上と分散の低下に一貫して結びつくわけではない。
- 参考スコア(独自算出の注目度): 5.009377915313077
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When solving NLP tasks with limited labelled data, researchers typically either use a general large language model without further update, or use a small number of labelled samples to tune a specialised smaller model. In this work, we answer an important question -- how many labelled samples are required for the specialised small models to outperform general large models, while taking the performance variance into consideration. By observing the behaviour of fine-tuning, instruction-tuning, prompting and in-context learning on 8 language models, we identify such performance break-even points across 8 representative text classification tasks of varying characteristics. We show that the specialised models often need only few samples (on average $100$) to be on par or better than the general ones. At the same time, the number of required labels strongly depends on the dataset or task characteristics, with fine-tuning on binary datasets requiring significantly more samples. When performance variance is taken into consideration, the number of required labels increases on average by $100 - 200\%$. Finally, larger models do not consistently lead to better performance and lower variance, with 4-bit quantisation having negligible impact.
- Abstract(参考訳): 限られたラベル付きデータでNLPタスクを解く場合、研究者は通常、さらなる更新を行わずに一般的な大きな言語モデルを使用するか、少数のラベル付きサンプルを使用して特別な小さなモデルをチューニングする。
本研究は, 性能のばらつきを考慮に入れつつ, 一般の大規模モデルよりも優れた性能を示すために, ラベル付きサンプルがいくつ必要かという重要な疑問に答える。
本研究では,8つの言語モデル上での微調整,命令チューニング,プロンプト,テキスト内学習の振る舞いを観察することにより,特徴の異なる8つのテキスト分類タスクにまたがる性能の欠落点を同定する。
特殊化モデルでは、一般的なモデルと同等かそれ以上のサンプル(平均100ドル)をほとんど必要としない場合が多い。
同時に、必要なラベルの数は、データセットやタスク特性に強く依存しており、バイナリデータセットの微調整は、はるかに多くのサンプルを必要とする。
性能のばらつきを考慮すると、必要なラベルの数は平均100 - 200\%$に増加する。
最後に、4ビットの量子化は無視できる影響を持つため、より大きなモデルはパフォーマンスと分散の低下を一貫して導くわけではない。
関連論文リスト
- Adapt-$\infty$: Scalable Continual Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、生涯のインストラクションチューニングのための、新しいマルチウェイおよびアダプティブなデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
このデータセレクタは、トレーニングのために各スキルクラスタから最も重要なサンプルのサブセットをサンプリングする。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - Task-Adaptive Pretrained Language Models via Clustered-Importance Sampling [21.762562172089236]
代わりに、大規模なジェネラリストのトレーニングセットからスペシャリストモデルを構築します。
我々は、限られたドメイン固有データからのガイダンスにより、ジェネリストデータのトレーニング分布を調整する。
スケーラブルで、事前トレーニングと継続事前トレーニングに適しており、マルチタスク設定でうまく機能する。
論文 参考訳(メタデータ) (2024-09-30T20:49:54Z) - Target-Aware Language Modeling via Granular Data Sampling [25.957424920194914]
言語モデルの事前訓練は、一般的に幅広いユースケースをターゲットにし、多様なソースからのデータを取り込む。
コスト効率が高く簡単なアプローチは、低次元のデータ特徴をサンプリングすることである。
事前学習したモデルはRefinedWebの全データと同等に動作し、125Mから1.5Bまでのモデルサイズに対してランダムに選択されたサンプルより優れた性能を示す。
論文 参考訳(メタデータ) (2024-09-23T04:52:17Z) - The ALCHEmist: Automated Labeling 500x CHEaper Than LLM Data Annotators [11.056579191156498]
大規模な事前訓練されたモデルは、アノテータとして使用することができ、クラウドワーカーを置き換えたり拡張したりするのに役立ちます。
最上位モデルを採用する場合、APIコールに数千ドルを支払わなければならない場合が多い。
事前訓練されたモデルからラベルを直接クエリする代わりに、ラベルを生成するプログラムを生成するようにモデルをタスクする。
論文 参考訳(メタデータ) (2024-06-25T17:58:26Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - A General Model for Aggregating Annotations Across Simple, Complex, and
Multi-Object Annotation Tasks [51.14185612418977]
ラベルの品質を改善するための戦略は、複数のアノテータに同じ項目にラベルを付け、ラベルを集約するように求めることである。
特定のタスクに対して様々なbespokeモデルが提案されているが、様々な複雑なタスクを一般化するアグリゲーションメソッドを導入するのはこれが初めてである。
本論では,3つの新たな研究課題について検討し,今後の課題を概説する。
論文 参考訳(メタデータ) (2023-12-20T21:28:35Z) - GistScore: Learning Better Representations for In-Context Example
Selection with Gist Bottlenecks [3.9638110494107095]
In-context Learning(ICL)は、大規模言語モデル(LLM)がプロンプトで条件付きで新しいタスクを実行する機能である。
本稿では,教師付き微調整によるサンプルエンコーダの学習手法であるサンプルギストリングを提案する。
我々の微調整モデルでは、既成のレトリバーよりも20%以上向上し、最先端のICL性能が得られている。
論文 参考訳(メタデータ) (2023-11-16T06:28:05Z) - Anchor Points: Benchmarking Models with Much Fewer Examples [88.02417913161356]
6つの人気のある言語分類ベンチマークでは、多数の点の正しいクラスに対するモデル信頼度はモデル間で強く相関している。
Anchor Point Selectionは,データセット全体にわたるモデル動作をキャプチャする,データセットの小さなサブセットを選択する手法である。
平均絶対誤差が低いデータセットの他のすべての点について、クラスごとの予測モデルを推定するために、いくつかのアンカーポイントを使用することができる。
論文 参考訳(メタデータ) (2023-09-14T17:45:51Z) - USB: A Unified Summarization Benchmark Across Tasks and Domains [68.82726887802856]
ウィキペディア由来のベンチマークを導入し、クラウドソースアノテーションの豊富なセットを補完し、8ドルの相互関連タスクをサポートする。
このベンチマークで様々な手法を比較し、複数のタスクにおいて、中程度の大きさの微調整されたモデルが、より大きな数発の言語モデルよりも一貫して優れていることを発見した。
論文 参考訳(メタデータ) (2023-05-23T17:39:54Z) - Few-shot learning approaches for classifying low resource domain
specific software requirements [1.1470070927586016]
少ないショットラーニング(Few-shot learning)は、いくつかの注釈付きサンプルを使用するディープラーニングの一種である。
我々の実験は、BOSCH自動車ドメインテキストソフトウェア要件を3つのカテゴリに分類することに焦点を当てた。
SciBERTとDeBERTaベースのモデルは15のトレーニングサンプルが最も正確である傾向にあるが、注記サンプルの数がシームズやT5ベースのモデルと比較して50に増加するにつれて、その性能向上は最小限に抑えられる。
論文 参考訳(メタデータ) (2023-02-14T10:19:23Z) - How to distribute data across tasks for meta-learning? [59.608652082495624]
タスクごとのデータポイントの最適な数は予算に依存しますが、それは大きな予算のためのユニークな一定の値に収束します。
この結果から,データ収集の簡便かつ効率的な手順が示唆された。
論文 参考訳(メタデータ) (2021-03-15T15:38:47Z) - Low Resource Multi-Task Sequence Tagging -- Revisiting Dynamic
Conditional Random Fields [67.51177964010967]
異なるタスクに対するラベルシーケンス間の依存関係を利用する低リソースマルチタスクシーケンスタグの異なるモデルを比較した。
タスク予測間の相互依存性の明示的モデリングは、通常のマルチタスクモデルと同様にシングルタスクよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-05-01T07:11:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。