論文の概要: When LLMs are Unfit Use FastFit: Fast and Effective Text Classification with Many Classes
- arxiv url: http://arxiv.org/abs/2404.12365v1
- Date: Thu, 18 Apr 2024 17:48:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 18:42:29.779485
- Title: When LLMs are Unfit Use FastFit: Fast and Effective Text Classification with Many Classes
- Title(参考訳): LLMがFastFitに適さない場合: 多くのクラスで高速で効果的なテキスト分類
- Authors: Asaf Yehudai, Elron Bendel,
- Abstract要約: 我々はFastFitを提案する。FastFitは、高速で正確な数ショット分類を提供するためのメソッドであり、Pythonパッケージ設計である。
FastFitは、バッチコントラスト学習とトークンレベルの類似度スコアを組み合わせた、新しいアプローチを採用している。
パッケージはGitHubとPyPiで公開されており、NLP実践者向けのユーザフレンドリなソリューションを提供している。
- 参考スコア(独自算出の注目度): 1.1740209335673082
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present FastFit, a method, and a Python package design to provide fast and accurate few-shot classification, especially for scenarios with many semantically similar classes. FastFit utilizes a novel approach integrating batch contrastive learning and token-level similarity score. Compared to existing few-shot learning packages, such as SetFit, Transformers, or few-shot prompting of large language models via API calls, FastFit significantly improves multiclass classification performance in speed and accuracy across FewMany, our newly curated English benchmark, and Multilingual datasets. FastFit demonstrates a 3-20x improvement in training speed, completing training in just a few seconds. The FastFit package is now available on GitHub and PyPi, presenting a user-friendly solution for NLP practitioners.
- Abstract(参考訳): 我々はFastFit、メソッド、およびPythonパッケージデザインを提案し、特に多くの意味論的に類似したクラスを持つシナリオに対して、高速で正確な数ショットの分類を提供する。
FastFitは、バッチコントラスト学習とトークンレベルの類似度スコアを組み合わせた、新しいアプローチを採用している。
SetFitやTransformerといった既存の数発の学習パッケージや、API呼び出しによる大規模言語モデルのプロンプトと比べ、FastFitはFewMany、新しくキュレーションされた英語ベンチマーク、マルチリンガルデータセットなど、スピードと正確性において、マルチクラスの分類性能を大幅に改善します。
FastFitはトレーニング速度を3~20倍改善し、わずか数秒でトレーニングを完了する。
FastFitパッケージはGitHubとPyPiで利用可能で、NLP実践者向けのユーザフレンドリなソリューションを提供する。
関連論文リスト
- Embracing Language Inclusivity and Diversity in CLIP through Continual
Language Learning [58.92843729869586]
視覚言語事前学習モデル (VL-PTMs) は近年、先進的なマルチモーダル研究を行っているが、英語のようないくつかの言語での習得は、より広いコミュニティにおける適用性を制限している。
我々は,連続言語学習(CLL)によってVL-PTMの言語能力を拡張することを提案する。
我々は,MSCOCOおよびXM3600データセットに基づく36言語をカバーするCLLベンチマークを構築し,多言語画像テキスト検索性能を評価する。
論文 参考訳(メタデータ) (2024-01-30T17:14:05Z) - T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text
Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。
本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:33:22Z) - Improving Few-Shot Performance of Language Models via Nearest Neighbor
Calibration [12.334422701057674]
In-context Learning のための近辺校正フレームワークを提案する。
インコンテキスト学習パラダイムは、トレーニングインスタンスを推論する際に誤ったラベルを生成するという現象にインスパイアされている。
テキスト分類タスクの多種多様な実験により,本手法はテキスト内学習を大幅に改善することが示された。
論文 参考訳(メタデータ) (2022-12-05T12:49:41Z) - LASP: Text-to-Text Optimization for Language-Aware Soft Prompting of
Vision & Language Models [67.19124099815645]
ベースクラスオーバーフィットを軽減するために,Language-Aware Soft Prompting (LASP) 学習手法を提案する。
LASPは本質的に、トレーニング中に仮想クラス、すなわちビジュアルサンプルが使用できないクラス名を含むことができる。
LASPは、手作りのプロンプトとCLIPによる11のテストデータセットのうち8つの新しいクラスの精度が初めて一致し、上回っている。
論文 参考訳(メタデータ) (2022-10-03T17:56:35Z) - Efficient Few-Shot Learning Without Prompts [9.658946815501938]
文変換器(ST)の少数ショット微調整のための効率的なフレームワークであるSetFitを提案する。
SetFitは、少数のテキストペアで事前訓練されたSTを、対照的なシームズ方式で微調整することで機能する。
実験の結果,SetFit は PEFT および PET 技術と同等の結果を得た。
論文 参考訳(メタデータ) (2022-09-22T14:48:11Z) - Probing Structured Pruning on Multilingual Pre-trained Models: Settings,
Algorithms, and Efficiency [62.0887259003594]
本研究では,多言語事前学習言語モデルにおける構造化プルーニングの3つの側面について検討する。
9つの下流タスクの実験は、いくつかの反直観的な現象を示している。
モデルを一度トレーニングし、推論時に異なるモデルサイズに適応できるシンプルなアプローチであるDynamic Sparsificationを紹介します。
論文 参考訳(メタデータ) (2022-04-06T06:29:52Z) - A Closer Look at Few-Shot Video Classification: A New Baseline and
Benchmark [33.86872697028233]
本研究は,3つのコントリビューションを生かした映像分類の詳細な研究である。
まず,既存のメートル法を一貫した比較研究を行い,表現学習の限界を明らかにする。
第2に,新しいアクションクラスとImageNetオブジェクトクラスとの間には高い相関関係があることが判明した。
第3に,事前学習をせずに将来的な数ショットビデオ分類を容易にするため,より多くのベースデータを持つ新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2021-10-24T06:01:46Z) - Simpler is Better: Few-shot Semantic Segmentation with Classifier Weight
Transformer [112.95747173442754]
数ショットのセマンティックセグメンテーションモデルは典型的にはCNNエンコーダ、CNNデコーダ、単純な分類器から構成される。
既存のほとんどのメソッドは、新しいクラスに迅速に適応するために、3つのモデルコンポーネント全てをメタ学習する。
本稿では,最も単純なコンポーネントである分類器にのみ焦点をあてて,メタ学習タスクの簡略化を提案する。
論文 参考訳(メタデータ) (2021-08-06T10:20:08Z) - Small-Text: Active Learning for Text Classification in Python [23.87081733039124]
small-textはPython用の使いやすいアクティブラーニングライブラリである。
シングルラベルとマルチラベルのテキスト分類のためのプールベースのアクティブラーニングを提供する。
論文 参考訳(メタデータ) (2021-07-21T19:23:56Z) - LightPAFF: A Two-Stage Distillation Framework for Pre-training and
Fine-tuning [146.51221523793342]
LightPAFFは、2段階の知識蒸留を使用して、大きな教師モデルから軽量の学生モデルに知識を伝達する。
LightPAFFはモデルサイズを5倍近く削減し、オンライン推論速度を5倍-7倍改善する。
論文 参考訳(メタデータ) (2020-04-27T14:00:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。