Fugu-MT 論文翻訳(概要): Comparing Specialised Small and General Large Language Models on Text Classification: 100 Labelled Samples to Achieve Break-Even Performance

論文の概要: Comparing Specialised Small and General Large Language Models on Text Classification: 100 Labelled Samples to Achieve Break-Even Performance

arxiv url: http://arxiv.org/abs/2402.12819v2
Date: Fri, 26 Apr 2024 08:20:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-29 17:28:28.568612
Title: Comparing Specialised Small and General Large Language Models on Text Classification: 100 Labelled Samples to Achieve Break-Even Performance
Title（参考訳）: テキスト分類における特殊小・一般大言語モデルの比較:ブレーク・イヴ・パフォーマンス向上のための100個のラベレードサンプル
Authors: Branislav Pecher, Ivan Srba, Maria Bielikova,
Abstract要約: この研究は、一般の大規模モデルよりも優れた特殊化された小型モデルにおいて、ラベル付きサンプルがいくつ必要かという研究ギャップに対処する。特殊化されたモデルでは、一般的なモデルと同等かそれ以上のサンプル(平均10～1000ドル)をほとんど必要としないことが多い。パフォーマンスのばらつきを考慮すると、必要なラベルの数は平均100 - 200%$、特定のケースでは1500%$まで増加する。
参考スコア（独自算出の注目度）: 5.009377915313077
License: http://creativecommons.org/licenses/by/4.0/
Abstract: When solving NLP tasks with limited labelled data, researchers can either use a general large language model without further update, or use a small number of labelled examples to tune a specialised smaller model. In this work, we address the research gap of how many labelled samples are required for the specialised small models to outperform general large models, while taking the performance variance into consideration. By observing the behaviour of fine-tuning, instruction-tuning, prompting and in-context learning on 7 language models, we identify such performance break-even points across 8 representative text classification tasks of varying characteristics. We show that the specialised models often need only few samples (on average $10 - 1000$) to be on par or better than the general ones. At the same time, the number of required labels strongly depends on the dataset or task characteristics, with this number being significantly lower on multi-class datasets (up to $100$) than on binary datasets (up to $5000$). When performance variance is taken into consideration, the number of required labels increases on average by $100 - 200\%$ and even up to $1500\%$ in specific cases.
Abstract（参考訳）: 限られたラベル付きデータでNLPタスクを解く場合、研究者は、さらなる更新なしに一般的な大きな言語モデルを使用するか、少数のラベル付きサンプルを使用して、特別な小さなモデルをチューニングすることができる。本研究は, 小型モデルにおいて, 性能のばらつきを考慮しつつ, 一般大規模モデルよりも優れた性能を示すために, ラベル付きサンプルがいくつ必要かという研究ギャップに対処するものである。 7つの言語モデル上での微調整,命令チューニング,プロンプト,テキスト内学習の振る舞いを観察することにより,特徴の異なる8つの代表的なテキスト分類タスクにまたがる,パフォーマンスの欠落点を同定する。特殊化されたモデルでは、一般的なモデルと同等かそれ以上のサンプル(平均10～1000ドル)をほとんど必要としないことが多い。同時に、必要なラベルの数は、データセットやタスクの特性に強く依存しており、この数は、バイナリデータセット(最大5000ドル)よりも、マルチクラスデータセット(最大100ドル)で著しく低い。パフォーマンスのばらつきを考慮すると、必要なラベルの数は平均100 - 200 %$、特定のケースでは1500 %$まで増加する。

関連論文リスト

Evaluating Robustness of Large Language Models in Enterprise Applications: Benchmarks for Perturbation Consistency Across Formats and Languages [0.8895014147059547]
小さな急激な変化でさえ、出力にかなりの違いをもたらす可能性がある。複数の摂動型にまたがるロバスト性を評価するベンチマークスイートを提案する。マイナーな摂動は、主要な企業メトリクスの最大40パーセントのパフォーマンスを低下させることに気付きました。
論文参考訳（メタデータ） (2026-01-09T22:26:31Z)
Large Language Models in the Task of Automatic Validation of Text Classifier Predictions [55.2480439325792]
テキスト分類のための機械学習モデルは、与えられたテキストのクラスを予測するために訓練される。これを行うには、トレーニングと検証のサンプルを用意し、各テキストにクラスを割り当てる必要がある。人間のアノテーションは通常、特定の分類タスクによって異なる専門レベルを持つ人間のアノテーションによって割り当てられる。本稿では,人間のアノテータを大規模言語モデルに置き換えるためのいくつかのアプローチを提案する。
論文参考訳（メタデータ） (2025-05-24T13:19:03Z)
Prompt Tuning Vision Language Models with Margin Regularizer for Few-Shot Learning under Distribution Shifts [13.21626568246313]
視覚言語基礎モデルが、分布やクラスが全く異なるデータセットに適応できるかどうかを解析する。本稿では,少数のサンプルに対して,このような大規模VLMを直接適用するための新しいプロンプトチューニング手法であるPromptMarginを提案する。 PromptMarginは、このタスクのテキストと視覚的なプロンプトを効果的に調整し、2つのメインモジュールを持っている。
論文参考訳（メタデータ） (2025-05-21T13:26:56Z)
Adapt-$\infty$: Scalable Continual Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、生涯のインストラクションチューニングのための、新しいマルチウェイおよびアダプティブなデータ選択アプローチである。勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。このデータセレクタは、トレーニングのために各スキルクラスタから最も重要なサンプルのサブセットをサンプリングする。
論文参考訳（メタデータ） (2024-10-14T15:48:09Z)
Task-Adaptive Pretrained Language Models via Clustered-Importance Sampling [21.762562172089236]
代わりに、大規模なジェネラリストのトレーニングセットからスペシャリストモデルを構築します。我々は、限られたドメイン固有データからのガイダンスにより、ジェネリストデータのトレーニング分布を調整する。スケーラブルで、事前トレーニングと継続事前トレーニングに適しており、マルチタスク設定でうまく機能する。
論文参考訳（メタデータ） (2024-09-30T20:49:54Z)
Target-Aware Language Modeling via Granular Data Sampling [25.957424920194914]
言語モデルの事前訓練は、一般的に幅広いユースケースをターゲットにし、多様なソースからのデータを取り込む。コスト効率が高く簡単なアプローチは、低次元のデータ特徴をサンプリングすることである。事前学習したモデルはRefinedWebの全データと同等に動作し、125Mから1.5Bまでのモデルサイズに対してランダムに選択されたサンプルより優れた性能を示す。
論文参考訳（メタデータ） (2024-09-23T04:52:17Z)
Large Language Monkeys: Scaling Inference Compute with Repeated Sampling [81.34900892130929]
モデルから候補解を繰り返しサンプリングする簡単な手法を用いて、推論計算をスケーリングのための別の軸として検討する。複数のタスクやモデルにまたがって、カバレッジは4桁以上のサンプル数でスケールする。コードや形式的証明のようなドメインでは、回答が自動的に検証されるので、カバレッジの増加は直接的にパフォーマンスの向上につながります。
論文参考訳（メタデータ） (2024-07-31T17:57:25Z)
The ALCHEmist: Automated Labeling 500x CHEaper Than LLM Data Annotators [11.056579191156498]
大規模な事前訓練されたモデルは、アノテータとして使用することができ、クラウドワーカーを置き換えたり拡張したりするのに役立ちます。最上位モデルを採用する場合、APIコールに数千ドルを支払わなければならない場合が多い。事前訓練されたモデルからラベルを直接クエリする代わりに、ラベルを生成するプログラムを生成するようにモデルをタスクする。
論文参考訳（メタデータ） (2024-06-25T17:58:26Z)
Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文参考訳（メタデータ） (2024-03-26T12:47:39Z)
A General Model for Aggregating Annotations Across Simple, Complex, and Multi-Object Annotation Tasks [51.14185612418977]
ラベルの品質を改善するための戦略は、複数のアノテータに同じ項目にラベルを付け、ラベルを集約するように求めることである。特定のタスクに対して様々なbespokeモデルが提案されているが、様々な複雑なタスクを一般化するアグリゲーションメソッドを導入するのはこれが初めてである。本論では,3つの新たな研究課題について検討し,今後の課題を概説する。
論文参考訳（メタデータ） (2023-12-20T21:28:35Z)
GistScore: Learning Better Representations for In-Context Example Selection with Gist Bottlenecks [3.9638110494107095]
In-context Learning(ICL)は、大規模言語モデル(LLM)がプロンプトで条件付きで新しいタスクを実行する機能である。本稿では,教師付き微調整によるサンプルエンコーダの学習手法であるサンプルギストリングを提案する。我々の微調整モデルでは、既成のレトリバーよりも20%以上向上し、最先端のICL性能が得られている。
論文参考訳（メタデータ） (2023-11-16T06:28:05Z)
Anchor Points: Benchmarking Models with Much Fewer Examples [88.02417913161356]
6つの人気のある言語分類ベンチマークでは、多数の点の正しいクラスに対するモデル信頼度はモデル間で強く相関している。 Anchor Point Selectionは,データセット全体にわたるモデル動作をキャプチャする,データセットの小さなサブセットを選択する手法である。平均絶対誤差が低いデータセットの他のすべての点について、クラスごとの予測モデルを推定するために、いくつかのアンカーポイントを使用することができる。
論文参考訳（メタデータ） (2023-09-14T17:45:51Z)
USB: A Unified Summarization Benchmark Across Tasks and Domains [68.82726887802856]
ウィキペディア由来のベンチマークを導入し、クラウドソースアノテーションの豊富なセットを補完し、8ドルの相互関連タスクをサポートする。このベンチマークで様々な手法を比較し、複数のタスクにおいて、中程度の大きさの微調整されたモデルが、より大きな数発の言語モデルよりも一貫して優れていることを発見した。
論文参考訳（メタデータ） (2023-05-23T17:39:54Z)
Few-shot learning approaches for classifying low resource domain specific software requirements [1.1470070927586016]
少ないショットラーニング(Few-shot learning)は、いくつかの注釈付きサンプルを使用するディープラーニングの一種である。我々の実験は、BOSCH自動車ドメインテキストソフトウェア要件を3つのカテゴリに分類することに焦点を当てた。 SciBERTとDeBERTaベースのモデルは15のトレーニングサンプルが最も正確である傾向にあるが、注記サンプルの数がシームズやT5ベースのモデルと比較して50に増加するにつれて、その性能向上は最小限に抑えられる。
論文参考訳（メタデータ） (2023-02-14T10:19:23Z)
Simplicity Bias Leads to Amplified Performance Disparities [8.60453031364566]
SGDで訓練されたモデルは、単純さに偏りがあることを示し、多数派の学習を優先させる。モデルは、単純なデータセットのクラスやグループを優先順位付けし、複雑なものを見つけることを犠牲にすることができる。
論文参考訳（メタデータ） (2022-12-13T15:24:41Z)
Selecting the suitable resampling strategy for imbalanced data classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文参考訳（メタデータ） (2021-12-15T18:56:39Z)
Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。 Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文参考訳（メタデータ） (2021-06-01T22:33:53Z)
How to distribute data across tasks for meta-learning? [59.608652082495624]
タスクごとのデータポイントの最適な数は予算に依存しますが、それは大きな予算のためのユニークな一定の値に収束します。この結果から,データ収集の簡便かつ効率的な手順が示唆された。
論文参考訳（メタデータ） (2021-03-15T15:38:47Z)
One for More: Selecting Generalizable Samples for Generalizable ReID Model [92.40951770273972]
本稿では,選択したサンプルを損失関数として一般化する1対3の学習目標を提案する。提案した1対3のサンプルは,ReIDトレーニングフレームワークにシームレスに統合できる。
論文参考訳（メタデータ） (2020-12-10T06:37:09Z)
Low Resource Multi-Task Sequence Tagging -- Revisiting Dynamic Conditional Random Fields [67.51177964010967]
異なるタスクに対するラベルシーケンス間の依存関係を利用する低リソースマルチタスクシーケンスタグの異なるモデルを比較した。タスク予測間の相互依存性の明示的モデリングは、通常のマルチタスクモデルと同様にシングルタスクよりも優れていることがわかった。
論文参考訳（メタデータ） (2020-05-01T07:11:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。