論文の概要: A Semi-Supervised Deep Clustering Pipeline for Mining Intentions From
Texts
- arxiv url: http://arxiv.org/abs/2202.00802v1
- Date: Tue, 1 Feb 2022 23:01:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-03 13:51:28.711009
- Title: A Semi-Supervised Deep Clustering Pipeline for Mining Intentions From
Texts
- Title(参考訳): テキストからの意図抽出のための半監督深層クラスタリングパイプライン
- Authors: Xinyu Chen and Ian Beaver
- Abstract要約: Verint Manager Intent(VIM)は、教師なしおよび半教師なしのアプローチを組み合わせた分析プラットフォームで、アナリストが会話テキストから関連するユーザの意図を素早く分析し整理するのに役立つ。
データの最初の探索には、ハイパフォーマンスな言語モデルの微調整を統合する、教師なしで半教師なしのパイプラインを使用します。
BERTはタスクデータの0.5%のラベル付きサブセットを使用して、より優れたタスク認識表現を生成する。
- 参考スコア(独自算出の注目度): 6.599344783327053
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mining the latent intentions from large volumes of natural language inputs is
a key step to help data analysts design and refine Intelligent Virtual
Assistants (IVAs) for customer service. To aid data analysts in this task we
present Verint Intent Manager (VIM), an analysis platform that combines
unsupervised and semi-supervised approaches to help analysts quickly surface
and organize relevant user intentions from conversational texts. For the
initial exploration of data we make use of a novel unsupervised and
semi-supervised pipeline that integrates the fine-tuning of high performing
language models, a distributed k-NN graph building method and community
detection techniques for mining the intentions and topics from texts. The
fine-tuning step is necessary because pre-trained language models cannot encode
texts to efficiently surface particular clustering structures when the target
texts are from an unseen domain or the clustering task is not topic detection.
For flexibility we deploy two clustering approaches: where the number of
clusters must be specified and where the number of clusters is detected
automatically with comparable clustering quality but at the expense of
additional computation time. We describe the application and deployment and
demonstrate its performance using BERT on three text mining tasks. Our
experiments show that BERT begins to produce better task-aware representations
using a labeled subset as small as 0.5% of the task data. The clustering
quality exceeds the state-of-the-art results when BERT is fine-tuned with
labeled subsets of only 2.5% of the task data. As deployed in the VIM
application, this flexible clustering pipeline produces high quality results,
improving the performance of data analysts and reducing the time it takes to
surface intentions from customer service data, thereby reducing the time it
takes to build and deploy IVAs in new domains.
- Abstract(参考訳): 大量の自然言語入力から潜伏する意図をマイニングすることは、データアナリストが顧客のサービス用にIntelligent Virtual Assistant(IVA)を設計および洗練するのを助ける重要なステップである。
このタスクでデータアナリストを支援するために、分析プラットフォームであるVerint Intent Manager(VIM)を紹介します。
データの最初の調査には、ハイパフォーマンス言語モデルの微調整、分散k-nnグラフ構築方法、テキストから意図やトピックをマイニングするためのコミュニティ検出技術を統合する、教師なしで半教師なしの新しいパイプラインを使用します。
事前訓練された言語モデルでは、対象のテキストが見えないドメインから、あるいはクラスタリングタスクがトピック検出でない場合に、特定のクラスタリング構造を効率的に表現できないため、微調整のステップが必要である。
クラスタ数を指定する必要がある場合と、クラスタ数を自動的に検出してクラスタ品質を比較できるが、計算時間を犠牲にしている場合の2つのクラスタリングアプローチをデプロイする。
アプリケーションとデプロイメントについて説明し,bertを用いて3つのテキストマイニングタスクでその性能を示す。
実験の結果,BERTはタスクデータの0.5%程度のラベル付きサブセットを用いて,より優れたタスク認識表現を創出し始めた。
タスクデータのわずか2.5%のラベル付きサブセットでbertが微調整された場合、クラスタリングの品質は最先端の結果を超える。
VIMアプリケーションにデプロイされるように、この柔軟なクラスタリングパイプラインは、高品質な結果をもたらし、データアナリストのパフォーマンスを改善し、カスタマサービスデータから意図を明らかにするのに要する時間を削減し、新たなドメインでのIVAの構築とデプロイに要する時間を削減します。
関連論文リスト
- Instance-Aware Graph Prompt Learning [71.26108600288308]
本稿では,インスタンス対応グラフプロンプト学習(IA-GPL)について紹介する。
このプロセスでは、軽量アーキテクチャを使用して各インスタンスの中間プロンプトを生成する。
複数のデータセットと設定で実施された実験は、最先端のベースラインと比較して、IA-GPLの優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-11-26T18:38:38Z) - Zero-shot prompt-based classification: topic labeling in times of foundation models in German Tweets [1.734165485480267]
そこで,本論文では,文章ガイドラインを用いてテキストを自動的に注釈付けするツールについて,トレーニングサンプルを提供することなく提案する。
提案手法は細調整されたBERTに匹敵するが,アノテートしたトレーニングデータはない。
本研究は,NLPランドスケープにおける進行中のパラダイムシフト,すなわち下流タスクの統一と事前ラベル付きトレーニングデータの必要性の排除を強調した。
論文 参考訳(メタデータ) (2024-06-26T10:44:02Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - A Flexible Clustering Pipeline for Mining Text Intentions [6.599344783327053]
Verint Intent Manager内にフレキシブルでスケーラブルなクラスタリングパイプラインを作成します。
言語モデルの微調整、高性能なk-NNライブラリ、コミュニティ検出技術を統合する。
VIMアプリケーションにデプロイされるように、このクラスタリングパイプラインは高品質な結果を生成する。
論文 参考訳(メタデータ) (2022-02-01T22:54:18Z) - SLUE: New Benchmark Tasks for Spoken Language Understanding Evaluation
on Natural Speech [44.68649535280397]
音声言語理解評価(SLUE)のための一連のベンチマークタスクを提案する。
SLUEは限定的なラベル付きトレーニングセットとそれに対応する評価セットで構成されている。
本稿では,SLUEベンチマークスイートの第1フェーズについて述べる。
本稿では,VoxCelebデータセットとVoxPopuliデータセットのサブセットに対する新たな書き起こしとアノテーション,ベースラインモデルの評価指標と結果,ベースラインを再現し,新しいモデルを評価するためのオープンソースツールキットを提供する。
論文 参考訳(メタデータ) (2021-11-19T18:59:23Z) - Generative Conversational Networks [67.13144697969501]
本稿では,対話エージェントが独自のラベル付き学習データを生成することを学習する,生成会話ネットワーク(Generative Conversational Networks)というフレームワークを提案する。
そこで本研究では,シードデータから学習したベースラインモデルに対して,意図検出が平均35%,スロットタグが平均21%向上したことを示す。
論文 参考訳(メタデータ) (2021-06-15T23:19:37Z) - X2Parser: Cross-Lingual and Cross-Domain Framework for Task-Oriented
Compositional Semantic Parsing [51.81533991497547]
タスク指向コンポジションセマンティックパーシング(TCSP)は複雑なネストされたユーザクエリを処理する。
本報告では,TCSPの変換可能なクロスランガルとクロスドメインを比較した。
本稿では,フラット化意図とスロット表現を別々に予測し,両方の予測タスクをシーケンスラベリング問題にキャストすることを提案する。
論文 参考訳(メタデータ) (2021-06-07T16:40:05Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。