Fugu-MT 論文翻訳(概要): Clustering Algorithms and RAG Enhancing Semi-Supervised Text Classification with Large LLMs

論文の概要: Clustering Algorithms and RAG Enhancing Semi-Supervised Text Classification with Large LLMs

arxiv url: http://arxiv.org/abs/2411.06175v2
Date: Fri, 13 Dec 2024 10:11:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-16 15:37:48.665643
Title: Clustering Algorithms and RAG Enhancing Semi-Supervised Text Classification with Large LLMs
Title（参考訳）: 大規模LLMを用いたクラスタリングアルゴリズムとRAGによる半スーパービジョンテキスト分類
Authors: Shan Zhong, Jiahao Zeng, Yongxin Yu, Bohong Lin,
Abstract要約: 本稿では,テキスト分類タスクに特化して設計された,新しい半教師付き学習フレームワークを提案する。本手法は,ReutersとWeb of Scienceのデータセットでそれぞれ95.41%,82.43%の最先端の精度を実現している。
参考スコア（独自算出の注目度）: 1.6575279044457722
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper introduces a novel semi-supervised learning framework specifically designed for text classification tasks, effectively addressing the challenge of vast datasets with limited labeled examples. By integrating multi-level similarity based data augmentation techniques from Retrieval-Augmented Generation (RAG) to Large Language Model (LLM) rewriting and traditional word substitution-we constructed an intelligent augmentation pipeline. This framework innovatively employs the selection of representative landmarks through clustering, which serve as intermediaries in the retrieval and rewriting processes, ensuring that the augmented data maintains a distribution similar to the original dataset. Empirical results show that even in complex text document classification scenarios with over 100 categories, our method achieves state-of-the-art accuracies of 95.41% and 82.43% on the Reuters and Web of Science datasets, respectively. These findings highlight the effectiveness and broad applicability of our semi-supervised learning approach for text classification tasks.
Abstract（参考訳）: 本稿では,テキスト分類タスクに特化して設計された半教師付き学習フレームワークを提案する。 Retrieval-Augmented Generation (RAG) からLarge Language Model (LLM) への多レベル類似性に基づくデータ拡張技術を統合することにより、我々はインテリジェントな拡張パイプラインを構築した。このフレームワークは、クラスタリングを通じて代表的ランドマークの選択を革新的に採用し、検索および書き換えプロセスの仲介役として機能し、拡張されたデータが元のデータセットに似た分布を維持することを保証する。実験の結果,100以上のカテゴリを持つ複雑な文書分類シナリオにおいても,Reuters と Web of Science のデータセットでそれぞれ95.41%,82.43%の最先端の精度を実現していることがわかった。本研究は,テキスト分類作業における半教師あり学習手法の有効性と適用性を明らかにするものである。

関連論文リスト

ConformalSAM: Unlocking the Potential of Foundational Segmentation Models in Semi-Supervised Semantic Segmentation with Conformal Prediction [57.930531826380836]
本研究は,未ラベル画像のアノテータとして画素レベルの視覚課題におけるラベル不足に,基礎的セグメンテーションモデルが対処できるかどうかを考察する。 ConformalSAMは,まず対象ドメインのラベル付きデータを用いて基礎モデルを校正し,ラベルなしデータの信頼できないピクセルラベルをフィルタリングする新しいSSSSフレームワークである。
論文参考訳（メタデータ） (2025-07-21T17:02:57Z)
Evaluating LLM Prompts for Data Augmentation in Multi-label Classification of Ecological Texts [1.565361244756411]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて重要な役割を果たす。本研究では,ロシアのソーシャルメディアにおけるグリーンプラクティスの言及を検出するために,プロンプトベースのデータ拡張を適用した。
論文参考訳（メタデータ） (2024-11-22T12:37:41Z)
Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文参考訳（メタデータ） (2024-10-29T04:14:32Z)
Pseudo-label Refinement for Improving Self-Supervised Learning Systems [22.276126184466207]
自己教師付き学習システムは、人間のアノテーションを必要とせずに、クラスタリングベースの擬似ラベルを使用して監督する。クラスタリング手法によって生じるこれらの擬似ラベルのノイズは、学習プロセスに難題となり、性能が劣化する。本稿では,この問題に対処する擬似ラベル改良アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-18T07:47:59Z)
Text Clustering as Classification with LLMs [6.030435811868953]
本研究では,大規模言語モデル(LLM)の文脈内学習能力を効果的に活用する,テキストクラスタリングのための新しいフレームワークを提案する。そこで本研究では,テキストクラスタリングをLLMによる分類タスクに変換することを提案する。我々のフレームワークは、最先端のクラスタリング手法に匹敵する、あるいは優れた性能を達成できることが実験的に証明されている。
論文参考訳（メタデータ） (2024-09-30T16:57:34Z)
Scribbles for All: Benchmarking Scribble Supervised Segmentation Across Datasets [51.74296438621836]
Scribbles for Allは、スクリブルラベルに基づいて訓練されたセマンティックセグメンテーションのためのラベルおよびトレーニングデータ生成アルゴリズムである。弱い監督の源泉としてのスクリブルの主な制限は、スクリブルセグメンテーションのための挑戦的なデータセットの欠如である。 Scribbles for Allは、いくつかの人気のあるセグメンテーションデータセットのスクリブルラベルを提供し、密集したアノテーションを持つデータセットのスクリブルラベルを自動的に生成するアルゴリズムを提供する。
論文参考訳（メタデータ） (2024-08-22T15:29:08Z)
Dual-Decoupling Learning and Metric-Adaptive Thresholding for Semi-Supervised Multi-Label Learning [81.83013974171364]
半教師付きマルチラベル学習(SSMLL)は、正確なマルチラベルアノテーションを収集するコストを削減するために、ラベルのないデータを活用する強力なフレームワークである。半教師付き学習とは異なり、インスタンスに含まれる複数のセマンティクスのため、SSMLLの擬似ラベルとして最も確率の高いラベルを選択することはできない。本稿では,高品質な擬似ラベルを生成するための二重パースペクティブ手法を提案する。
論文参考訳（メタデータ） (2024-07-26T09:33:53Z)
Enriched BERT Embeddings for Scholarly Publication Classification [0.13654846342364302]
NSLP 2024 FoRC Task Iは、競争として組織されたこの課題に対処する。目的は、ある論文に対する研究分野の分類法であるOpen Research Knowledge Graph (ORKG) から、123の事前定義されたクラスのうちの1つを予測することができる分類器を開発することである。
論文参考訳（メタデータ） (2024-05-07T09:05:20Z)
Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文参考訳（メタデータ） (2023-12-31T02:13:18Z)
Prompt-based Pseudo-labeling Strategy for Sample-Efficient Semi-Supervised Extractive Summarization [12.582774521907227]
半教師付き学習(SSL)は、ラベル付きデータが不足し、ラベルなしデータが豊富であるシナリオで広く使われているテクニックである。標準SSLメソッドは、まず分類モデルをトレーニングし、次に分類器の信頼性値を使用して擬似ラベルを選択するために教師-学生パラダイムに従う。より正確な擬似ラベルでラベルなしのサンプルを抽出するLLMを用いたプロンプトベースの擬似ラベル方式を提案する。
論文参考訳（メタデータ） (2023-11-16T04:29:41Z)
Generalized Category Discovery with Clustering Assignment Consistency [56.92546133591019]
一般化圏発見(GCD)は、最近提案されたオープンワールドタスクである。クラスタリングの一貫性を促進するための協調学習ベースのフレームワークを提案する。提案手法は,3つの総合的なベンチマークと3つのきめ細かい視覚認識データセット上での最先端性能を実現する。
論文参考訳（メタデータ） (2023-10-30T00:32:47Z)
Empower Text-Attributed Graphs Learning with Large Language Models (LLMs) [5.920353954082262]
本稿では,Large Language Models (LLMs) を用いたノード生成によるテキスト分散グラフの強化のためのプラグイン・アンド・プレイ手法を提案する。エッジ予測器を用いて、生のデータセットに固有の構造情報をキャプチャし、新たに生成されたサンプルを元のグラフに統合する。実験では、特に低ショットシナリオにおいて、提案したパラダイムの卓越した性能を示す。
論文参考訳（メタデータ） (2023-10-15T16:04:28Z)
Is margin all you need? An extensive empirical study of active learning on tabular data [66.18464006872345]
我々は,OpenML-CC18ベンチマークを用いて,69の実世界のデータセット上での各種能動学習アルゴリズムの性能を解析した。意外なことに、古典的なマージンサンプリング技術は、現在の最先端技術を含む、他のすべてのものよりも優れている。
論文参考訳（メタデータ） (2022-10-07T21:18:24Z)
Exploiting Diversity of Unlabeled Data for Label-Efficient Semi-Supervised Active Learning [57.436224561482966]
アクティブラーニング(英: Active Learning)は、ラベリングのための最も重要なサンプルを選択することで、高価なラベリングの問題に対処する研究分野である。アクティブな学習環境における初期ラベル付けのための最も情報性の高いサンプル群を選択するために,多様性に基づく新しい初期データセット選択アルゴリズムを提案する。また、一貫性に基づく埋め込みの多様性に基づくサンプリングを用いた、新しいアクティブな学習クエリ戦略を提案する。
論文参考訳（メタデータ） (2022-07-25T16:11:55Z)
Semi-Supervised Cascaded Clustering for Classification of Noisy Label Data [0.3441021278275805]
教師付き分類技術の性能は、データがノイズのあるラベルを持つと劣化することが多い。ノイズの多いラベルデータに対処するアプローチのほとんどは、分類タスクに巨大なデータセットを必要とするディープニューラルネットワーク(DNN)に依存している。パターンを抽出し、そのようなデータセットのクラスをカスケード木として生成する半教師付きカスケードクラスタリングアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-05-04T17:42:22Z)
Class-Aware Contrastive Semi-Supervised Learning [51.205844705156046]
本研究では,擬似ラベル品質を向上し,実環境におけるモデルの堅牢性を高めるため,CCSSL(Class-Aware Contrastive Semi-Supervised Learning)と呼ばれる一般的な手法を提案する。提案するCCSSLは,標準データセットCIFAR100とSTL10の最先端SSLメソッドに対して,大幅な性能向上を実現している。
論文参考訳（メタデータ） (2022-03-04T12:18:23Z)
Semi-supervised Interactive Intent Labeling [6.99674326582747]
SDS開発者向けのインテントバルクラベルシステムを開発しました。ユーザはラベルのない発話コーパスからのトレーニングデータをインタラクティブにラベル付けし、拡張することができる。いくつかのデータセットでは,クラスタリング精度が10%以上向上している。
論文参考訳（メタデータ） (2021-04-27T18:06:55Z)
Group-aware Label Transfer for Domain Adaptive Person Re-identification [179.816105255584]
Unsupervised Adaptive Domain (UDA) Person Re-identification (ReID) は、ラベル付きソースドメインデータセットで訓練されたモデルを、さらなるアノテーションなしでターゲットドメインデータセットに適応することを目的としている。最も成功したUDA-ReIDアプローチは、クラスタリングに基づく擬似ラベル予測と表現学習を組み合わせて、2つのステップを交互に実行する。疑似ラベル予測と表現学習のオンラインインタラクションと相互促進を可能にするグループ認識ラベル転送(GLT)アルゴリズムを提案します。
論文参考訳（メタデータ） (2021-03-23T07:57:39Z)
PseudoSeg: Designing Pseudo Labels for Semantic Segmentation [78.35515004654553]
ラベルなしまたは弱いラベル付きデータを用いたトレーニングのための構造化された擬似ラベルを生成するための擬似ラベルの再設計を提案する。提案手法の有効性を,低データと高データの両方において示す。
論文参考訳（メタデータ） (2020-10-19T17:59:30Z)
Revisiting LSTM Networks for Semi-Supervised Text Classification via Mixed Objective Function [106.69643619725652]
我々は,単純なBiLSTMモデルであっても,クロスエントロピー損失でトレーニングした場合に,競争的な結果が得られるようなトレーニング戦略を開発する。いくつかのベンチマークデータセット上で,テキスト分類タスクの最先端結果について報告する。
論文参考訳（メタデータ） (2020-09-08T21:55:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。