論文の概要: TnT-LLM: Text Mining at Scale with Large Language Models
- arxiv url: http://arxiv.org/abs/2403.12173v1
- Date: Mon, 18 Mar 2024 18:45:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 18:21:58.051111
- Title: TnT-LLM: Text Mining at Scale with Large Language Models
- Title(参考訳): TnT-LLM:大規模言語モデルを用いた大規模テキストマイニング
- Authors: Mengting Wan, Tara Safavi, Sujay Kumar Jauhar, Yujin Kim, Scott Counts, Jennifer Neville, Siddharth Suri, Chirag Shah, Ryen W White, Longqi Yang, Reid Andersen, Georg Buscher, Dhruv Joshi, Nagu Rangan,
- Abstract要約: 大規模言語モデル(LLM)は、最小限の努力でエンドツーエンドのラベル生成と割り当てのプロセスを自動化する。
我々は,TnT-LLMが最先端のベースラインと比較した場合,より正確で関連性の高いラベルを生成することを示す。
また、現実のアプリケーションにおける大規模テキストマイニングにLLMを使うことの課題と機会に関する実践的経験と洞察を共有します。
- 参考スコア(独自算出の注目度): 24.731544646232962
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Transforming unstructured text into structured and meaningful forms, organized by useful category labels, is a fundamental step in text mining for downstream analysis and application. However, most existing methods for producing label taxonomies and building text-based label classifiers still rely heavily on domain expertise and manual curation, making the process expensive and time-consuming. This is particularly challenging when the label space is under-specified and large-scale data annotations are unavailable. In this paper, we address these challenges with Large Language Models (LLMs), whose prompt-based interface facilitates the induction and use of large-scale pseudo labels. We propose TnT-LLM, a two-phase framework that employs LLMs to automate the process of end-to-end label generation and assignment with minimal human effort for any given use-case. In the first phase, we introduce a zero-shot, multi-stage reasoning approach which enables LLMs to produce and refine a label taxonomy iteratively. In the second phase, LLMs are used as data labelers that yield training samples so that lightweight supervised classifiers can be reliably built, deployed, and served at scale. We apply TnT-LLM to the analysis of user intent and conversational domain for Bing Copilot (formerly Bing Chat), an open-domain chat-based search engine. Extensive experiments using both human and automatic evaluation metrics demonstrate that TnT-LLM generates more accurate and relevant label taxonomies when compared against state-of-the-art baselines, and achieves a favorable balance between accuracy and efficiency for classification at scale. We also share our practical experiences and insights on the challenges and opportunities of using LLMs for large-scale text mining in real-world applications.
- Abstract(参考訳): 非構造化テキストを構造化され有意義な形式に変換し、有用なカテゴリラベルで整理することは、下流の分析と応用のためのテキストマイニングの基本的なステップである。
しかしながら、ラベル分類法やテキストベースのラベル分類器を構築するための既存の方法の多くは、ドメインの専門知識と手作業によるキュレーションに大きく依存しているため、そのプロセスは高価で時間を要する。
ラベル空間が不特定であり、大規模なデータアノテーションが利用できない場合、これは特に困難である。
本稿では,これらの課題を大規模言語モデル (LLM) を用いて解決する。
TnT-LLM は LLM を利用した2段階のフレームワークで,任意のユースケースに対して最小限の人的労力でラベル生成と割り当てのプロセスを自動化する。
第1フェーズでは,ラベル分類を反復的に生成・洗練するゼロショット多段階推論手法を導入する。
第2フェーズでは、LLMをトレーニングサンプルを生成するデータラベルとして使用し、軽量な教師付き分類器を確実に構築、デプロイ、大規模に提供できるようにします。
我々は、オープンドメインチャットベースの検索エンジンであるBing Copilot(旧Bing Chat)のユーザ意図と会話ドメインの分析にTnT-LLMを適用した。
TnT-LLMは、最先端のベースラインと比較すると、より正確で関連性の高いラベル分類を生成でき、大規模分類における精度と効率のバランスが良好であることを示す。
また、現実のアプリケーションにおける大規模テキストマイニングにLLMを使うことの課題と機会に関する実践的経験と洞察を共有します。
関連論文リスト
- Incubating Text Classifiers Following User Instruction with Nothing but LLM [37.92922713921964]
任意のクラス定義(ユーザ・インストラクション)を与えられたテキスト分類データを生成するフレームワークを提案する。
提案したインキュベータは、複雑で相互に依存したクラスを処理できる最初のフレームワークです。
論文 参考訳(メタデータ) (2024-04-16T19:53:35Z) - Large Language Models for Data Annotation: A Survey [58.454724454158814]
LLM(Advanced Large Language Models)の出現は、データアノテーションのプロセスに革命を起こし、自動化する前例のない機会を提供する。
この調査は、LLMベースのデータ、LLM生成アノテーションの評価、LLM生成アノテーションによる学習の3つの中核的な側面に貢献する。
重要なガイドとして、この調査は、研究者や実践者がデータアノテーションのための最新のLCMの可能性を探究することを目的としている。
論文 参考訳(メタデータ) (2024-02-21T00:44:04Z) - LLMaAA: Making Large Language Models as Active Annotators [32.57011151031332]
本稿では,大規模な言語モデルをアノテータとして利用し,それをアクティブな学習ループに配置して,アノテートを効率的に行うLLMaAAを提案する。
我々は、エンティティ認識と関係抽出という、2つの古典的NLPタスクの実験と分析を行う。
LLMaAAでは、LLM生成ラベルからトレーニングされたタスク固有のモデルが、数百の注釈付きサンプルで教師より優れている。
論文 参考訳(メタデータ) (2023-10-30T14:54:15Z) - Using Large Language Models to Generate, Validate, and Apply User Intent
Taxonomies [23.057240991673375]
大規模言語モデル(LLM)を用いた新しい解法を提案する。
LLMは、リッチで関連する概念、記述、ユーザ意図の例を生成することができる。
本稿では,LLMとHuman-in-the-loopを併用したエンドツーエンドパイプラインを用いて,ログデータにおけるユーザ意図分析のためのラベルの生成,精細化,適用を行う。
論文 参考訳(メタデータ) (2023-09-14T20:46:48Z) - GPT-NER: Named Entity Recognition via Large Language Models [58.609582116612934]
GPT-NERはシーケンスラベリングタスクを言語モデルで容易に適用可能な生成タスクに変換する。
GPT-NERは、トレーニングデータの量が極めて少ない場合、低リソースかつ少数ショットのセットアップにおいて、より優れた能力を示す。
これは、ラベル付きサンプルの数が限られている実世界のNERアプリケーションにおけるGPT-NERの機能を示す。
論文 参考訳(メタデータ) (2023-04-20T16:17:26Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - Exploring Structured Semantic Prior for Multi Label Recognition with
Incomplete Labels [60.675714333081466]
不完全なラベルを持つマルチラベル認識(MLR)は非常に難しい。
最近の研究は、視覚言語モデルであるCLIPにおける画像とラベルの対応を探り、不十分なアノテーションを補うことを目指している。
我々は,MLRにおけるラベル管理の欠如を,構造化されたセマンティクスを導出することにより,不完全なラベルで修復することを提唱する。
論文 参考訳(メタデータ) (2023-03-23T12:39:20Z) - Ground Truth Inference for Weakly Supervised Entity Matching [76.6732856489872]
弱監督タスクのための単純だが強力なラベル付けモデルを提案する。
次に、エンティティマッチングのタスクに特化してラベルモデルを調整します。
その結果,従来の手法よりもF1スコアが9%高い結果が得られた。
論文 参考訳(メタデータ) (2022-11-13T17:57:07Z) - Metadata-Induced Contrastive Learning for Zero-Shot Multi-Label Text
Classification [27.33039900612395]
大規模多ラベルテキスト分類のための新しいメタデータ誘導コントラスト学習法(MICoL)を提案する。
MICoLは、Web上で広く利用可能なドキュメントメタデータを利用して、同様のドキュメントとドキュメントのペアを導き出す。
我々は,MICoLが強いゼロショットテキスト分類と対照的な学習ベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2022-02-11T23:22:17Z) - An Empirical Study on Large-Scale Multi-Label Text Classification
Including Few and Zero-Shot Labels [49.036212158261215]
大規模なMulti-label Text Classification (LMTC) は、幅広い自然言語処理 (NLP) アプリケーションを持つ。
Label-Wise Attention Networks (LWANs) を用いた最新のLMTCモデル
確率的ラベル木(PLT)に基づく階層的手法がLWANより優れていることを示す。
BERTとLWANを組み合わせた最先端手法を提案する。
論文 参考訳(メタデータ) (2020-10-04T18:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。