論文の概要: Improving Classification Performance With Human Feedback: Label a few,
we label the rest
- arxiv url: http://arxiv.org/abs/2401.09555v1
- Date: Wed, 17 Jan 2024 19:13:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-19 18:45:47.091554
- Title: Improving Classification Performance With Human Feedback: Label a few,
we label the rest
- Title(参考訳): 人的フィードバックによる分類性能の向上: ラベルを付け、残りをラベル付けする
- Authors: Natan Vidra, Thomas Clifford, Katherine Jijo, Eden Chung, Liang Zhang
- Abstract要約: 本稿では,連続フィードバックループがモデルをどのように洗練し,精度,リコール,精度を向上させるかを理解することに焦点を当てる。
このアプローチをFinancial Phrasebank, Banking, Craigslist, Trec, Amazon Reviewsのデータセットでベンチマークし、ラベル付き例をいくつか挙げただけで、ゼロショットの大規模言語モデルの精度を上回ります。
- 参考スコア(独自算出の注目度): 2.7386128680964408
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the realm of artificial intelligence, where a vast majority of data is
unstructured, obtaining substantial amounts of labeled data to train supervised
machine learning models poses a significant challenge. To address this, we
delve into few-shot and active learning, where are goal is to improve AI models
with human feedback on a few labeled examples. This paper focuses on
understanding how a continuous feedback loop can refine models, thereby
enhancing their accuracy, recall, and precision through incremental human
input. By employing Large Language Models (LLMs) such as GPT-3.5, BERT, and
SetFit, we aim to analyze the efficacy of using a limited number of labeled
examples to substantially improve model accuracy. We benchmark this approach on
the Financial Phrasebank, Banking, Craigslist, Trec, Amazon Reviews datasets to
prove that with just a few labeled examples, we are able to surpass the
accuracy of zero shot large language models to provide enhanced text
classification performance. We demonstrate that rather than needing to manually
label millions of rows of data, we just need to label a few and the model can
effectively predict the rest.
- Abstract(参考訳): 大部分のデータが構造化されていない人工知能の領域では、教師付き機械学習モデルのトレーニングのために大量のラベル付きデータを取得することが大きな課題となる。
そこでは、ラベル付きのいくつかの例について、人間のフィードバックでAIモデルを改善することが目標です。
本稿では,連続フィードバックループがモデルを洗練し,人間のインクリメンタル入力による精度,リコール,精度を向上させる方法について述べる。
GPT-3.5,BERT,SetFitなどのLarge Language Models (LLMs) を用いることで,限られたラベル付き例を用いてモデル精度を大幅に向上させる効果を解析することを目指す。
このアプローチをFinancial Phrasebank, Banking, Craigslist, Trec, Amazon Reviewsのデータセットでベンチマークし、ラベル付き例をいくつか挙げただけで、ゼロショットの大規模言語モデルの精度を超え、テキスト分類のパフォーマンスを向上させることができることを証明しています。
数百万行のデータを手動でラベル付けする必要はなく、数行のラベルを付けるだけで、モデルを効果的に予測できることを実証しています。
関連論文リスト
- Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - Language Models in the Loop: Incorporating Prompting into Weak
Supervision [11.10422546502386]
本稿では,ラベル付きトレーニングデータに制限がある場合に,大規模事前学習言語モデルを新しいタスクに適用するための新しい戦略を提案する。
典型的にゼロショットや少数ショットの方法でモデルを適用する代わりに、弱い監督フレームワークにおける関数のラベル付けの基盤としてモデルを扱います。
論文 参考訳(メタデータ) (2022-05-04T20:42:40Z) - Fortunately, Discourse Markers Can Enhance Language Models for Sentiment
Analysis [13.149482582098429]
本稿では、感情伝達型談話マーカーを利用して、大規模に弱いラベル付きデータを生成することを提案する。
ファイナンスドメインを含むさまざまなベンチマークデータセットにアプローチの価値を示す。
論文 参考訳(メタデータ) (2022-01-06T12:33:47Z) - Few-shot Instruction Prompts for Pretrained Language Models to Detect
Social Biases [55.45617404586874]
我々は、事前訓練された言語モデル(LM)を誘導する数ショットの命令ベース手法を提案する。
大規模なLMは、微調整モデルとよく似た精度で、異なる種類の細粒度バイアスを検出できることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:19:52Z) - Complementary Ensemble Learning [1.90365714903665]
我々は最先端のディープラーニングモデルの性能向上手法を考案した。
具体的には、最先端モデルの不確実性を補完できる補助モデルを訓練する。
論文 参考訳(メタデータ) (2021-11-09T03:23:05Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - A Systematic Evaluation of Transfer Learning and Pseudo-labeling with
BERT-based Ranking Models [2.0498977512661267]
BERTに基づく5つの英語データセット間のニューラルランキングモデルの転送性を評価する。
各コレクションには膨大な数のクエリがあり、フルショット評価モードを可能にします。
擬似ラベルのトレーニングは、転送学習と比較して、競争力や優れたモデルを生み出すことができる。
論文 参考訳(メタデータ) (2021-03-04T21:08:06Z) - Uncertainty-aware Self-training for Text Classification with Few Labels [54.13279574908808]
本研究は,アノテーションのボトルネックを軽減するための半教師あり学習手法の1つとして,自己学習について研究する。
本稿では,基礎となるニューラルネットワークの不確実性推定を取り入れて,自己学習を改善する手法を提案する。
本手法では,クラス毎に20~30個のラベル付きサンプルをトレーニングに利用し,完全教師付き事前学習言語モデルの3%以内で検証を行う。
論文 参考訳(メタデータ) (2020-06-27T08:13:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。