論文の概要: Clustering Algorithms and RAG Enhancing Semi-Supervised Text Classification with Large LLMs
- arxiv url: http://arxiv.org/abs/2411.06175v2
- Date: Fri, 13 Dec 2024 10:11:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:01:02.087245
- Title: Clustering Algorithms and RAG Enhancing Semi-Supervised Text Classification with Large LLMs
- Title(参考訳): 大規模LLMを用いたクラスタリングアルゴリズムとRAGによる半スーパービジョンテキスト分類
- Authors: Shan Zhong, Jiahao Zeng, Yongxin Yu, Bohong Lin,
- Abstract要約: 本稿では,テキスト分類タスクに特化して設計された,新しい半教師付き学習フレームワークを提案する。
本手法は,ReutersとWeb of Scienceのデータセットでそれぞれ95.41%,82.43%の最先端の精度を実現している。
- 参考スコア(独自算出の注目度): 1.6575279044457722
- License:
- Abstract: This paper introduces a novel semi-supervised learning framework specifically designed for text classification tasks, effectively addressing the challenge of vast datasets with limited labeled examples. By integrating multi-level similarity based data augmentation techniques from Retrieval-Augmented Generation (RAG) to Large Language Model (LLM) rewriting and traditional word substitution-we constructed an intelligent augmentation pipeline. This framework innovatively employs the selection of representative landmarks through clustering, which serve as intermediaries in the retrieval and rewriting processes, ensuring that the augmented data maintains a distribution similar to the original dataset. Empirical results show that even in complex text document classification scenarios with over 100 categories, our method achieves state-of-the-art accuracies of 95.41% and 82.43% on the Reuters and Web of Science datasets, respectively. These findings highlight the effectiveness and broad applicability of our semi-supervised learning approach for text classification tasks.
- Abstract(参考訳): 本稿では,テキスト分類タスクに特化して設計された半教師付き学習フレームワークを提案する。
Retrieval-Augmented Generation (RAG) からLarge Language Model (LLM) への多レベル類似性に基づくデータ拡張技術を統合することにより、我々はインテリジェントな拡張パイプラインを構築した。
このフレームワークは、クラスタリングを通じて代表的ランドマークの選択を革新的に採用し、検索および書き換えプロセスの仲介役として機能し、拡張されたデータが元のデータセットに似た分布を維持することを保証する。
実験の結果,100以上のカテゴリを持つ複雑な文書分類シナリオにおいても,Reuters と Web of Science のデータセットでそれぞれ95.41%,82.43%の最先端の精度を実現していることがわかった。
本研究は,テキスト分類作業における半教師あり学習手法の有効性と適用性を明らかにするものである。
関連論文リスト
- Pseudo-label Refinement for Improving Self-Supervised Learning Systems [22.276126184466207]
自己教師付き学習システムは、人間のアノテーションを必要とせずに、クラスタリングベースの擬似ラベルを使用して監督する。
クラスタリング手法によって生じるこれらの擬似ラベルのノイズは、学習プロセスに難題となり、性能が劣化する。
本稿では,この問題に対処する擬似ラベル改良アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-18T07:47:59Z) - Scribbles for All: Benchmarking Scribble Supervised Segmentation Across Datasets [51.74296438621836]
Scribbles for Allは、スクリブルラベルに基づいて訓練されたセマンティックセグメンテーションのためのラベルおよびトレーニングデータ生成アルゴリズムである。
弱い監督の源泉としてのスクリブルの主な制限は、スクリブルセグメンテーションのための挑戦的なデータセットの欠如である。
Scribbles for Allは、いくつかの人気のあるセグメンテーションデータセットのスクリブルラベルを提供し、密集したアノテーションを持つデータセットのスクリブルラベルを自動的に生成するアルゴリズムを提供する。
論文 参考訳(メタデータ) (2024-08-22T15:29:08Z) - Dual-Decoupling Learning and Metric-Adaptive Thresholding for Semi-Supervised Multi-Label Learning [81.83013974171364]
半教師付きマルチラベル学習(SSMLL)は、正確なマルチラベルアノテーションを収集するコストを削減するために、ラベルのないデータを活用する強力なフレームワークである。
半教師付き学習とは異なり、インスタンスに含まれる複数のセマンティクスのため、SSMLLの擬似ラベルとして最も確率の高いラベルを選択することはできない。
本稿では,高品質な擬似ラベルを生成するための二重パースペクティブ手法を提案する。
論文 参考訳(メタデータ) (2024-07-26T09:33:53Z) - Prompt-based Pseudo-labeling Strategy for Sample-Efficient Semi-Supervised Extractive Summarization [12.582774521907227]
半教師付き学習(SSL)は、ラベル付きデータが不足し、ラベルなしデータが豊富であるシナリオで広く使われているテクニックである。
標準SSLメソッドは、まず分類モデルをトレーニングし、次に分類器の信頼性値を使用して擬似ラベルを選択するために教師-学生パラダイムに従う。
より正確な擬似ラベルでラベルなしのサンプルを抽出するLLMを用いたプロンプトベースの擬似ラベル方式を提案する。
論文 参考訳(メタデータ) (2023-11-16T04:29:41Z) - Generalized Category Discovery with Clustering Assignment Consistency [56.92546133591019]
一般化圏発見(GCD)は、最近提案されたオープンワールドタスクである。
クラスタリングの一貫性を促進するための協調学習ベースのフレームワークを提案する。
提案手法は,3つの総合的なベンチマークと3つのきめ細かい視覚認識データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-30T00:32:47Z) - Semi-Supervised Cascaded Clustering for Classification of Noisy Label
Data [0.3441021278275805]
教師付き分類技術の性能は、データがノイズのあるラベルを持つと劣化することが多い。
ノイズの多いラベルデータに対処するアプローチのほとんどは、分類タスクに巨大なデータセットを必要とするディープニューラルネットワーク(DNN)に依存している。
パターンを抽出し、そのようなデータセットのクラスをカスケード木として生成する半教師付きカスケードクラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-04T17:42:22Z) - Class-Aware Contrastive Semi-Supervised Learning [51.205844705156046]
本研究では,擬似ラベル品質を向上し,実環境におけるモデルの堅牢性を高めるため,CCSSL(Class-Aware Contrastive Semi-Supervised Learning)と呼ばれる一般的な手法を提案する。
提案するCCSSLは,標準データセットCIFAR100とSTL10の最先端SSLメソッドに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-03-04T12:18:23Z) - Semi-supervised Interactive Intent Labeling [6.99674326582747]
SDS開発者向けのインテントバルクラベルシステムを開発しました。
ユーザはラベルのない発話コーパスからのトレーニングデータをインタラクティブにラベル付けし、拡張することができる。
いくつかのデータセットでは,クラスタリング精度が10%以上向上している。
論文 参考訳(メタデータ) (2021-04-27T18:06:55Z) - Group-aware Label Transfer for Domain Adaptive Person Re-identification [179.816105255584]
Unsupervised Adaptive Domain (UDA) Person Re-identification (ReID) は、ラベル付きソースドメインデータセットで訓練されたモデルを、さらなるアノテーションなしでターゲットドメインデータセットに適応することを目的としている。
最も成功したUDA-ReIDアプローチは、クラスタリングに基づく擬似ラベル予測と表現学習を組み合わせて、2つのステップを交互に実行する。
疑似ラベル予測と表現学習のオンラインインタラクションと相互促進を可能にするグループ認識ラベル転送(GLT)アルゴリズムを提案します。
論文 参考訳(メタデータ) (2021-03-23T07:57:39Z) - PseudoSeg: Designing Pseudo Labels for Semantic Segmentation [78.35515004654553]
ラベルなしまたは弱いラベル付きデータを用いたトレーニングのための構造化された擬似ラベルを生成するための擬似ラベルの再設計を提案する。
提案手法の有効性を,低データと高データの両方において示す。
論文 参考訳(メタデータ) (2020-10-19T17:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。