論文の概要: TnT-LLM: Text Mining at Scale with Large Language Models
- arxiv url: http://arxiv.org/abs/2403.12173v1
- Date: Mon, 18 Mar 2024 18:45:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 18:21:58.051111
- Title: TnT-LLM: Text Mining at Scale with Large Language Models
- Title(参考訳): TnT-LLM:大規模言語モデルを用いた大規模テキストマイニング
- Authors: Mengting Wan, Tara Safavi, Sujay Kumar Jauhar, Yujin Kim, Scott Counts, Jennifer Neville, Siddharth Suri, Chirag Shah, Ryen W White, Longqi Yang, Reid Andersen, Georg Buscher, Dhruv Joshi, Nagu Rangan,
- Abstract要約: 大規模言語モデル(LLM)は、最小限の努力でエンドツーエンドのラベル生成と割り当てのプロセスを自動化する。
我々は,TnT-LLMが最先端のベースラインと比較した場合,より正確で関連性の高いラベルを生成することを示す。
また、現実のアプリケーションにおける大規模テキストマイニングにLLMを使うことの課題と機会に関する実践的経験と洞察を共有します。
- 参考スコア(独自算出の注目度): 24.731544646232962
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Transforming unstructured text into structured and meaningful forms, organized by useful category labels, is a fundamental step in text mining for downstream analysis and application. However, most existing methods for producing label taxonomies and building text-based label classifiers still rely heavily on domain expertise and manual curation, making the process expensive and time-consuming. This is particularly challenging when the label space is under-specified and large-scale data annotations are unavailable. In this paper, we address these challenges with Large Language Models (LLMs), whose prompt-based interface facilitates the induction and use of large-scale pseudo labels. We propose TnT-LLM, a two-phase framework that employs LLMs to automate the process of end-to-end label generation and assignment with minimal human effort for any given use-case. In the first phase, we introduce a zero-shot, multi-stage reasoning approach which enables LLMs to produce and refine a label taxonomy iteratively. In the second phase, LLMs are used as data labelers that yield training samples so that lightweight supervised classifiers can be reliably built, deployed, and served at scale. We apply TnT-LLM to the analysis of user intent and conversational domain for Bing Copilot (formerly Bing Chat), an open-domain chat-based search engine. Extensive experiments using both human and automatic evaluation metrics demonstrate that TnT-LLM generates more accurate and relevant label taxonomies when compared against state-of-the-art baselines, and achieves a favorable balance between accuracy and efficiency for classification at scale. We also share our practical experiences and insights on the challenges and opportunities of using LLMs for large-scale text mining in real-world applications.
- Abstract(参考訳): 非構造化テキストを構造化され有意義な形式に変換し、有用なカテゴリラベルで整理することは、下流の分析と応用のためのテキストマイニングの基本的なステップである。
しかしながら、ラベル分類法やテキストベースのラベル分類器を構築するための既存の方法の多くは、ドメインの専門知識と手作業によるキュレーションに大きく依存しているため、そのプロセスは高価で時間を要する。
ラベル空間が不特定であり、大規模なデータアノテーションが利用できない場合、これは特に困難である。
本稿では,これらの課題を大規模言語モデル (LLM) を用いて解決する。
TnT-LLM は LLM を利用した2段階のフレームワークで,任意のユースケースに対して最小限の人的労力でラベル生成と割り当てのプロセスを自動化する。
第1フェーズでは,ラベル分類を反復的に生成・洗練するゼロショット多段階推論手法を導入する。
第2フェーズでは、LLMをトレーニングサンプルを生成するデータラベルとして使用し、軽量な教師付き分類器を確実に構築、デプロイ、大規模に提供できるようにします。
我々は、オープンドメインチャットベースの検索エンジンであるBing Copilot(旧Bing Chat)のユーザ意図と会話ドメインの分析にTnT-LLMを適用した。
TnT-LLMは、最先端のベースラインと比較すると、より正確で関連性の高いラベル分類を生成でき、大規模分類における精度と効率のバランスが良好であることを示す。
また、現実のアプリケーションにおける大規模テキストマイニングにLLMを使うことの課題と機会に関する実践的経験と洞察を共有します。
関連論文リスト
- On Unsupervised Prompt Learning for Classification with Black-box Language Models [71.60563181678323]
大規模言語モデル(LLM)は、テキスト形式学習問題において顕著な成功を収めた。
LLMは、熟練した人間のアノテータよりも品質の高いデータセットをラベル付けすることができる。
本稿では,ブラックボックス LLM を用いた分類のための教師なしのプロンプト学習を提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z) - Zero-to-Strong Generalization: Eliciting Strong Capabilities of Large Language Models Iteratively without Gold Labels [75.77877889764073]
大規模言語モデル(LLM)は,ゴールドラベルを用いた教師付き微調整やテキスト内学習を通じて,顕著な性能を示した。
本研究では,ラベルのないデータのみを利用することで,強力なモデル機能を実現することができるかどうかを考察する。
ゼロ・ツー・ストロング一般化と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2024-09-19T02:59:44Z) - Scalable and Domain-General Abstractive Proposition Segmentation [20.532804009152255]
我々は、抽象命題セグメンテーション(APS)の課題に焦点を合わせ、テキストを単純で自己完結した、よく表現された文に変換する。
まず、タスクの評価基準を導入し、いくつかの品質の次元を計測する。
次に、スケーラブルで正確な命題セグメンテーションモデルを提案する。
論文 参考訳(メタデータ) (2024-06-28T10:24:31Z) - Knowledge Distillation in Automated Annotation: Supervised Text Classification with LLM-Generated Training Labels [0.0]
大規模言語モデル(LLMs)のサロゲート学習ラベルによる人為的なトレーニングデータの拡張や置き換えの可能性を評価する。
我々は,最近のCSS記事から英語テキスト分類データセットの新たなコーパスをハイインパクトジャーナルに採用している。
各タスクについて,GPT-4ラベルを用いて微調整した教師付き分類器と,人間のアノテーションで微調整した分類器と,数ショットのインコンテキスト学習によるGPT-4とMistral-7Bのラベルを比較した。
以上の結果から, LLMラベルを微調整した教師付き分類モデルは, 人間のラベルを微調整したモデルと相容れないことが示唆された。
論文 参考訳(メタデータ) (2024-06-25T15:20:25Z) - Entity Alignment with Noisy Annotations from Large Language Models [15.189701951003611]
我々は,大規模言語モデルをEAに効果的に活用するための統一フレームワーク LLM4EA を提案する。
具体的には、アノテーション空間を大幅に削減するために、新しいアクティブな学習ポリシーを設計する。
基本EAモデルからのフィードバックに基づいて、ポリシーを反復的に最適化します。
論文 参考訳(メタデータ) (2024-05-27T03:52:55Z) - LLMaAA: Making Large Language Models as Active Annotators [32.57011151031332]
本稿では,大規模な言語モデルをアノテータとして利用し,それをアクティブな学習ループに配置して,アノテートを効率的に行うLLMaAAを提案する。
我々は、エンティティ認識と関係抽出という、2つの古典的NLPタスクの実験と分析を行う。
LLMaAAでは、LLM生成ラベルからトレーニングされたタスク固有のモデルが、数百の注釈付きサンプルで教師より優れている。
論文 参考訳(メタデータ) (2023-10-30T14:54:15Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - Exploring Structured Semantic Prior for Multi Label Recognition with
Incomplete Labels [60.675714333081466]
不完全なラベルを持つマルチラベル認識(MLR)は非常に難しい。
最近の研究は、視覚言語モデルであるCLIPにおける画像とラベルの対応を探り、不十分なアノテーションを補うことを目指している。
我々は,MLRにおけるラベル管理の欠如を,構造化されたセマンティクスを導出することにより,不完全なラベルで修復することを提唱する。
論文 参考訳(メタデータ) (2023-03-23T12:39:20Z) - Ground Truth Inference for Weakly Supervised Entity Matching [76.6732856489872]
弱監督タスクのための単純だが強力なラベル付けモデルを提案する。
次に、エンティティマッチングのタスクに特化してラベルモデルを調整します。
その結果,従来の手法よりもF1スコアが9%高い結果が得られた。
論文 参考訳(メタデータ) (2022-11-13T17:57:07Z) - An Empirical Study on Large-Scale Multi-Label Text Classification
Including Few and Zero-Shot Labels [49.036212158261215]
大規模なMulti-label Text Classification (LMTC) は、幅広い自然言語処理 (NLP) アプリケーションを持つ。
Label-Wise Attention Networks (LWANs) を用いた最新のLMTCモデル
確率的ラベル木(PLT)に基づく階層的手法がLWANより優れていることを示す。
BERTとLWANを組み合わせた最先端手法を提案する。
論文 参考訳(メタデータ) (2020-10-04T18:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。