論文の概要: Knowledge Distillation in Automated Annotation: Supervised Text Classification with LLM-Generated Training Labels
- arxiv url: http://arxiv.org/abs/2406.17633v1
- Date: Tue, 25 Jun 2024 15:20:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 14:00:49.079661
- Title: Knowledge Distillation in Automated Annotation: Supervised Text Classification with LLM-Generated Training Labels
- Title(参考訳): 自動アノテーションにおける知識蒸留:LLM生成学習ラベルを用いた教師付きテキスト分類
- Authors: Nicholas Pangakis, Samuel Wolken,
- Abstract要約: 大規模言語モデル(LLMs)のサロゲート学習ラベルによる人為的なトレーニングデータの拡張や置き換えの可能性を評価する。
我々は,最近のCSS記事から英語テキスト分類データセットの新たなコーパスをハイインパクトジャーナルに採用している。
各タスクについて,GPT-4ラベルを用いて微調整した教師付き分類器と,人間のアノテーションで微調整した分類器と,数ショットのインコンテキスト学習によるGPT-4とMistral-7Bのラベルを比較した。
以上の結果から, LLMラベルを微調整した教師付き分類モデルは, 人間のラベルを微調整したモデルと相容れないことが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computational social science (CSS) practitioners often rely on human-labeled data to fine-tune supervised text classifiers. We assess the potential for researchers to augment or replace human-generated training data with surrogate training labels from generative large language models (LLMs). We introduce a recommended workflow and test this LLM application by replicating 14 classification tasks and measuring performance. We employ a novel corpus of English-language text classification data sets from recent CSS articles in high-impact journals. Because these data sets are stored in password-protected archives, our analyses are less prone to issues of contamination. For each task, we compare supervised classifiers fine-tuned using GPT-4 labels against classifiers fine-tuned with human annotations and against labels from GPT-4 and Mistral-7B with few-shot in-context learning. Our findings indicate that supervised classification models fine-tuned on LLM-generated labels perform comparably to models fine-tuned with labels from human annotators. Fine-tuning models using LLM-generated labels can be a fast, efficient and cost-effective method of building supervised text classifiers.
- Abstract(参考訳): コンピュータ社会科学(CSS)の実践者は、微調整された教師付きテキスト分類器に人間のラベル付きデータを利用することが多い。
我々は,人為的なトレーニングデータを,生成型大規模言語モデル(LLMs)からサロゲートトレーニングラベルに拡張あるいは置き換える可能性を評価する。
推奨ワークフローを導入し、14の分類タスクを複製し、性能を測定することで、このLLMアプリケーションをテストする。
我々は,近年のCSS記事から英語のテキスト分類データセットをハイインパクトジャーナルに導入した。
これらのデータセットはパスワードで保護されたアーカイブに保存されているため、我々の分析は汚染の問題が少なくなる。
各タスクについて,GPT-4ラベルを用いて微調整した教師付き分類器と,人間のアノテーションで微調整した分類器と,数ショットのインコンテキスト学習によるGPT-4とMistral-7Bのラベルを比較した。
以上の結果から,LLMラベルを微調整した教師付き分類モデルは,ヒトアノテータのラベルを微調整したモデルと同等に機能することが示唆された。
LLMラベルを用いた微調整モデルは、教師付きテキスト分類器を構築するための高速で効率的で費用対効果の高い方法である。
関連論文リスト
- Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - Incubating Text Classifiers Following User Instruction with Nothing but LLM [37.92922713921964]
任意のクラス定義(ユーザ・インストラクション)を与えられたテキスト分類データを生成するフレームワークを提案する。
提案したインキュベータは、複雑で相互に依存したクラスを処理できる最初のフレームワークです。
論文 参考訳(メタデータ) (2024-04-16T19:53:35Z) - FRACTAL: Fine-Grained Scoring from Aggregate Text Labels [17.052047103156372]
大規模言語モデル(LLM)は、書き込み、ファクト検索、クエリ、推論といった複雑な生成タスクをパワーアップするように調整されている。
伝統的に、LLM性能の評価とチューニングのための人間またはモデルフィードバックが応答レベルで提供されてきた。
最近の研究は、文レベルのラベルがLLM最適化のためのより正確で解釈可能なフィードバックを提供する可能性を示唆している。
論文 参考訳(メタデータ) (2024-04-07T05:54:28Z) - TnT-LLM: Text Mining at Scale with Large Language Models [24.731544646232962]
大規模言語モデル(LLM)は、最小限の努力でエンドツーエンドのラベル生成と割り当てのプロセスを自動化する。
我々は,TnT-LLMが最先端のベースラインと比較した場合,より正確で関連性の高いラベルを生成することを示す。
また、現実のアプリケーションにおける大規模テキストマイニングにLLMを使うことの課題と機会に関する実践的経験と洞察を共有します。
論文 参考訳(メタデータ) (2024-03-18T18:45:28Z) - TELEClass: Taxonomy Enrichment and LLM-Enhanced Hierarchical Text Classification with Minimal Supervision [41.05874642535256]
階層的なテキスト分類は、ラベル分類における各文書を一連のクラスに分類することを目的としている。
初期の研究は、大量の人間の注釈付きデータを必要とする完全または半教師付き手法に重点を置いていた。
我々は、最小限の監督量で階層的なテキスト分類に取り組んでおり、各ノードのクラス名のみを唯一の監督として使用しています。
論文 参考訳(メタデータ) (2024-02-29T22:26:07Z) - Description-Enhanced Label Embedding Contrastive Learning for Text
Classification [65.01077813330559]
モデル学習プロセスにおける自己監督型学習(SSL)と新しい自己監督型関係関係(R2)分類タスクの設計
テキスト分類とR2分類を最適化対象として扱うテキスト分類のための関係学習ネットワーク(R2-Net)の関係について検討する。
ラベルセマンティックラーニングのためのマルチアスペクト記述を得るためのWordNetからの外部知識。
論文 参考訳(メタデータ) (2023-06-15T02:19:34Z) - Exploring Structured Semantic Prior for Multi Label Recognition with
Incomplete Labels [60.675714333081466]
不完全なラベルを持つマルチラベル認識(MLR)は非常に難しい。
最近の研究は、視覚言語モデルであるCLIPにおける画像とラベルの対応を探り、不十分なアノテーションを補うことを目指している。
我々は,MLRにおけるラベル管理の欠如を,構造化されたセマンティクスを導出することにより,不完全なラベルで修復することを提唱する。
論文 参考訳(メタデータ) (2023-03-23T12:39:20Z) - Binary Classification with Positive Labeling Sources [71.37692084951355]
WEAPOは、負のラベル付け源を使わずにトレーニングラベルを作成するための、シンプルで競争力のあるWS手法である。
We show WEAPO achieve the highest averaged performance on 10 benchmark datasets。
論文 参考訳(メタデータ) (2022-08-02T19:32:08Z) - Label Semantic Aware Pre-training for Few-shot Text Classification [53.80908620663974]
テキスト分類システムの一般化とデータ効率を向上させるために,ラベルセマンティック・アウェア事前学習(LSAP)を提案する。
LSAPは、ラベル付き文の2次事前学習を行うことにより、ラベルセマンティクスを事前学習された生成モデル(T5)に組み込む。
論文 参考訳(メタデータ) (2022-04-14T17:33:34Z) - Trustable Co-label Learning from Multiple Noisy Annotators [68.59187658490804]
監督されたディープラーニングは、大量の注釈付き例に依存している。
典型的な方法は、複数のノイズアノテータから学習することである。
本稿では,emphTrustable Co-label Learning (TCL)と呼ばれるデータ効率のよい手法を提案する。
論文 参考訳(メタデータ) (2022-03-08T16:57:00Z) - Improving Pretrained Models for Zero-shot Multi-label Text
Classification through Reinforced Label Hierarchy Reasoning [18.531022315325583]
ラベル階層の探索は、ゼロショットのマルチラベルテキスト分類問題に取り組むための有望なアプローチとなっている。
トレーニング中の階層内のラベル間の相互依存性を促進するために,RLHR(Reinforced Label Hierarchy Reasoning)アプローチを提案する。
論文 参考訳(メタデータ) (2021-04-04T19:14:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。