論文の概要: Clustering Algorithms and RAG Enhancing Semi-Supervised Text Classification with Large LLMs
- arxiv url: http://arxiv.org/abs/2411.06175v3
- Date: Thu, 26 Dec 2024 02:47:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:23:25.317169
- Title: Clustering Algorithms and RAG Enhancing Semi-Supervised Text Classification with Large LLMs
- Title(参考訳): 大規模LLMを用いたクラスタリングアルゴリズムとRAGによる半スーパービジョンテキスト分類
- Authors: Shan Zhong, Jiahao Zeng, Yongxin Yu, Bohong Lin,
- Abstract要約: 本稿では,セミスーパービジョンテキスト分類タスクの性能向上を目的としたクラスタリング,ラベル付け,拡張フレームワークを提案する。
従来のSSTCアプローチとは異なり、このフレームワークはクラスタリングを使用してラベリングの代表的な"ランドマーク"を選択する。
実験の結果,100以上のカテゴリを含む複雑な文書分類シナリオにおいても,Reutersデータセットでは95.41%,Web of Scienceデータセットでは82.43%の最先端の精度を達成した。
- 参考スコア(独自算出の注目度): 1.6575279044457722
- License:
- Abstract: This paper proposes a Clustering, Labeling, then Augmenting framework that significantly enhances performance in Semi-Supervised Text Classification (SSTC) tasks, effectively addressing the challenge of vast datasets with limited labeled examples. Unlike traditional SSTC approaches that rely on a predefined small set of labeled data to generate pseudo-labels for the unlabeled data, this framework innovatively employs clustering to select representative "landmarks" for labeling. These landmarks subsequently act as intermediaries in an ensemble of augmentation techniques, including Retrieval-Augmented Generation (RAG), Large Language Model (LLMs)-based rewriting, and synonym substitution, to generate synthetic labeled data without making pseudo-labels for the unlabeled data. Empirical results show that even in complex text document classification scenarios involving over 100 categories, our method achieves state-of-the-art accuracies of 95.41% on the Reuters dataset and 82.43% on the Web of Science dataset. Our approach significantly reduces the reliance on human labeling efforts and the associated expenses, while simultaneously ensuring high data quality and minimizing privacy risks. The finetuning results further show the efficiency of fine-tuning LLMs for text classification tasks, highlighting a robust solution for leveraging limited labeled data.
- Abstract(参考訳): 本稿では,Semi-Supervised Text Classification (SSTC)タスクのパフォーマンスを大幅に向上させるクラスタリング,ラベル付け,拡張フレームワークを提案する。
ラベル付けされていないデータの擬似ラベルを生成するためにラベル付きデータの小さなセットに依存する従来のSSTCアプローチとは異なり、このフレームワークはクラスタリングを革新的に使用してラベル付けの代表的な「ランドマーク」を選択する。
これらのランドマークはその後、Retrieval-Augmented Generation (RAG)、Large Language Model (LLMs)ベースの書き換え、および同義語置換を含む拡張技法の中間体として機能し、ラベルなしデータの擬似ラベルを作らずに合成ラベル付きデータを生成する。
実験の結果,100以上のカテゴリを含む複雑な文書分類シナリオにおいても,Reutersデータセットでは95.41%,Web of Scienceデータセットでは82.43%の最先端の精度を実現している。
我々のアプローチは、高いデータ品質を確保し、プライバシーリスクを最小限に抑えながら、人間のラベル付け努力と関連する費用への依存を著しく減らします。
微調整の結果,テキスト分類作業における微調整LDMの効率がさらに向上し,ラベル付き限られたデータを活用するための堅牢な解が浮かび上がった。
関連論文リスト
- Pseudo-label Refinement for Improving Self-Supervised Learning Systems [22.276126184466207]
自己教師付き学習システムは、人間のアノテーションを必要とせずに、クラスタリングベースの擬似ラベルを使用して監督する。
クラスタリング手法によって生じるこれらの擬似ラベルのノイズは、学習プロセスに難題となり、性能が劣化する。
本稿では,この問題に対処する擬似ラベル改良アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-18T07:47:59Z) - Scribbles for All: Benchmarking Scribble Supervised Segmentation Across Datasets [51.74296438621836]
Scribbles for Allは、スクリブルラベルに基づいて訓練されたセマンティックセグメンテーションのためのラベルおよびトレーニングデータ生成アルゴリズムである。
弱い監督の源泉としてのスクリブルの主な制限は、スクリブルセグメンテーションのための挑戦的なデータセットの欠如である。
Scribbles for Allは、いくつかの人気のあるセグメンテーションデータセットのスクリブルラベルを提供し、密集したアノテーションを持つデータセットのスクリブルラベルを自動的に生成するアルゴリズムを提供する。
論文 参考訳(メタデータ) (2024-08-22T15:29:08Z) - Dual-Decoupling Learning and Metric-Adaptive Thresholding for Semi-Supervised Multi-Label Learning [81.83013974171364]
半教師付きマルチラベル学習(SSMLL)は、正確なマルチラベルアノテーションを収集するコストを削減するために、ラベルのないデータを活用する強力なフレームワークである。
半教師付き学習とは異なり、インスタンスに含まれる複数のセマンティクスのため、SSMLLの擬似ラベルとして最も確率の高いラベルを選択することはできない。
本稿では,高品質な擬似ラベルを生成するための二重パースペクティブ手法を提案する。
論文 参考訳(メタデータ) (2024-07-26T09:33:53Z) - Prompt-based Pseudo-labeling Strategy for Sample-Efficient Semi-Supervised Extractive Summarization [12.582774521907227]
半教師付き学習(SSL)は、ラベル付きデータが不足し、ラベルなしデータが豊富であるシナリオで広く使われているテクニックである。
標準SSLメソッドは、まず分類モデルをトレーニングし、次に分類器の信頼性値を使用して擬似ラベルを選択するために教師-学生パラダイムに従う。
より正確な擬似ラベルでラベルなしのサンプルを抽出するLLMを用いたプロンプトベースの擬似ラベル方式を提案する。
論文 参考訳(メタデータ) (2023-11-16T04:29:41Z) - Generalized Category Discovery with Clustering Assignment Consistency [56.92546133591019]
一般化圏発見(GCD)は、最近提案されたオープンワールドタスクである。
クラスタリングの一貫性を促進するための協調学習ベースのフレームワークを提案する。
提案手法は,3つの総合的なベンチマークと3つのきめ細かい視覚認識データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-30T00:32:47Z) - Semi-Supervised Cascaded Clustering for Classification of Noisy Label
Data [0.3441021278275805]
教師付き分類技術の性能は、データがノイズのあるラベルを持つと劣化することが多い。
ノイズの多いラベルデータに対処するアプローチのほとんどは、分類タスクに巨大なデータセットを必要とするディープニューラルネットワーク(DNN)に依存している。
パターンを抽出し、そのようなデータセットのクラスをカスケード木として生成する半教師付きカスケードクラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-04T17:42:22Z) - Class-Aware Contrastive Semi-Supervised Learning [51.205844705156046]
本研究では,擬似ラベル品質を向上し,実環境におけるモデルの堅牢性を高めるため,CCSSL(Class-Aware Contrastive Semi-Supervised Learning)と呼ばれる一般的な手法を提案する。
提案するCCSSLは,標準データセットCIFAR100とSTL10の最先端SSLメソッドに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-03-04T12:18:23Z) - Semi-supervised Interactive Intent Labeling [6.99674326582747]
SDS開発者向けのインテントバルクラベルシステムを開発しました。
ユーザはラベルのない発話コーパスからのトレーニングデータをインタラクティブにラベル付けし、拡張することができる。
いくつかのデータセットでは,クラスタリング精度が10%以上向上している。
論文 参考訳(メタデータ) (2021-04-27T18:06:55Z) - Group-aware Label Transfer for Domain Adaptive Person Re-identification [179.816105255584]
Unsupervised Adaptive Domain (UDA) Person Re-identification (ReID) は、ラベル付きソースドメインデータセットで訓練されたモデルを、さらなるアノテーションなしでターゲットドメインデータセットに適応することを目的としている。
最も成功したUDA-ReIDアプローチは、クラスタリングに基づく擬似ラベル予測と表現学習を組み合わせて、2つのステップを交互に実行する。
疑似ラベル予測と表現学習のオンラインインタラクションと相互促進を可能にするグループ認識ラベル転送(GLT)アルゴリズムを提案します。
論文 参考訳(メタデータ) (2021-03-23T07:57:39Z) - PseudoSeg: Designing Pseudo Labels for Semantic Segmentation [78.35515004654553]
ラベルなしまたは弱いラベル付きデータを用いたトレーニングのための構造化された擬似ラベルを生成するための擬似ラベルの再設計を提案する。
提案手法の有効性を,低データと高データの両方において示す。
論文 参考訳(メタデータ) (2020-10-19T17:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。