論文の概要: A Flexible Clustering Pipeline for Mining Text Intentions
- arxiv url: http://arxiv.org/abs/2202.01211v1
- Date: Tue, 1 Feb 2022 22:54:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-04 13:32:42.838184
- Title: A Flexible Clustering Pipeline for Mining Text Intentions
- Title(参考訳): テキスト意図マイニングのための柔軟なクラスタリングパイプライン
- Authors: Xinyu Chen and Ian Beaver
- Abstract要約: Verint Intent Manager内にフレキシブルでスケーラブルなクラスタリングパイプラインを作成します。
言語モデルの微調整、高性能なk-NNライブラリ、コミュニティ検出技術を統合する。
VIMアプリケーションにデプロイされるように、このクラスタリングパイプラインは高品質な結果を生成する。
- 参考スコア(独自算出の注目度): 6.599344783327053
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mining the latent intentions from large volumes of natural language inputs is
a key step to help data analysts design and refine Intelligent Virtual
Assistants (IVAs) for customer service and sales support. We created a flexible
and scalable clustering pipeline within the Verint Intent Manager (VIM) that
integrates the fine-tuning of language models, a high performing k-NN library
and community detection techniques to help analysts quickly surface and
organize relevant user intentions from conversational texts. The fine-tuning
step is necessary because pre-trained language models cannot encode texts to
efficiently surface particular clustering structures when the target texts are
from an unseen domain or the clustering task is not topic detection. We
describe the pipeline and demonstrate its performance using BERT on three
real-world text mining tasks. As deployed in the VIM application, this
clustering pipeline produces high quality results, improving the performance of
data analysts and reducing the time it takes to surface intentions from
customer service data, thereby reducing the time it takes to build and deploy
IVAs in new domains.
- Abstract(参考訳): 大量の自然言語入力から潜伏する意図をマイニングすることは、データアナリストが顧客サービスとセールスサポートのためにIntelligent Virtual Assistants(IVA)を設計および洗練するための重要なステップである。
Verint Intent Manager(VIM)内にフレキシブルでスケーラブルなクラスタリングパイプラインを作成し、言語モデルの微調整、高性能なk-NNライブラリ、コミュニティ検出技術を統合して、アナリストが会話テキストから関連するユーザの意図を素早く把握し整理するのに役立つようにしました。
事前訓練された言語モデルでは、対象のテキストが見えないドメインから、あるいはクラスタリングタスクがトピック検出でない場合に、特定のクラスタリング構造を効率的に表現できないため、微調整のステップが必要である。
実世界の3つのテキストマイニングタスクにおいてBERTを用いてパイプラインを記述し,その性能を示す。
VIMアプリケーションにデプロイされるように、このクラスタリングパイプラインは、高品質な結果を生成し、データアナリストのパフォーマンスを改善し、カスタマサービスデータから意図を明らかにするのに要する時間を削減し、新たなドメインでのIVAの構築とデプロイに要する時間を削減します。
関連論文リスト
- Zero-shot prompt-based classification: topic labeling in times of foundation models in German Tweets [1.734165485480267]
そこで,本論文では,文章ガイドラインを用いてテキストを自動的に注釈付けするツールについて,トレーニングサンプルを提供することなく提案する。
提案手法は細調整されたBERTに匹敵するが,アノテートしたトレーニングデータはない。
本研究は,NLPランドスケープにおける進行中のパラダイムシフト,すなわち下流タスクの統一と事前ラベル付きトレーニングデータの必要性の排除を強調した。
論文 参考訳(メタデータ) (2024-06-26T10:44:02Z) - Semantic Parsing in Limited Resource Conditions [19.689433249830465]
この論文はセマンティック解析における課題を探求し、特に限られたデータと計算資源のシナリオに焦点を当てている。
自動データキュレーション、知識伝達、アクティブラーニング、継続的な学習といったテクニックを使ったソリューションを提供する。
論文 参考訳(メタデータ) (2023-09-14T05:03:09Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - GAIA Search: Hugging Face and Pyserini Interoperability for NLP Training
Data Exploration [97.68234051078997]
我々はPyseriniを、オープンソースのAIライブラリとアーティファクトのHugging Faceエコシステムに統合する方法について論じる。
Jupyter NotebookベースのウォークスルーがGitHubで公開されている。
GAIA Search - 前述した原則に従って構築された検索エンジンで、人気の高い4つの大規模テキストコレクションへのアクセスを提供する。
論文 参考訳(メタデータ) (2023-06-02T12:09:59Z) - Harnessing Explanations: LLM-to-LM Interpreter for Enhanced
Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。
提案手法は、確立されたTAGデータセットの最先端結果を実現する。
本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文 参考訳(メタデータ) (2023-05-31T03:18:03Z) - Structured Vision-Language Pretraining for Computational Cooking [54.0571416522547]
Vision-Language PretrainingとFoundationモデルは、一般的なベンチマークでSoTAのパフォーマンスを達成するためのゴーツーレシピです。
本稿では,これらの手法を構造化テキストベースの計算料理タスクに活用することを提案する。
論文 参考訳(メタデータ) (2022-12-08T13:37:17Z) - Annotated Dataset Creation through General Purpose Language Models for
non-English Medical NLP [0.5482532589225552]
我々の研究では、事前訓練された言語モデルをデータ取得のトレーニングに活用することを提案する。
我々は、ドイツのテキストであるGPTNERMEDの医療用NERモデルをトレーニングするために使用するカスタムデータセットを作成します。
論文 参考訳(メタデータ) (2022-08-30T18:42:55Z) - A Semi-Supervised Deep Clustering Pipeline for Mining Intentions From
Texts [6.599344783327053]
Verint Manager Intent(VIM)は、教師なしおよび半教師なしのアプローチを組み合わせた分析プラットフォームで、アナリストが会話テキストから関連するユーザの意図を素早く分析し整理するのに役立つ。
データの最初の探索には、ハイパフォーマンスな言語モデルの微調整を統合する、教師なしで半教師なしのパイプラインを使用します。
BERTはタスクデータの0.5%のラベル付きサブセットを使用して、より優れたタスク認識表現を生成する。
論文 参考訳(メタデータ) (2022-02-01T23:01:05Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - SLUE: New Benchmark Tasks for Spoken Language Understanding Evaluation
on Natural Speech [44.68649535280397]
音声言語理解評価(SLUE)のための一連のベンチマークタスクを提案する。
SLUEは限定的なラベル付きトレーニングセットとそれに対応する評価セットで構成されている。
本稿では,SLUEベンチマークスイートの第1フェーズについて述べる。
本稿では,VoxCelebデータセットとVoxPopuliデータセットのサブセットに対する新たな書き起こしとアノテーション,ベースラインモデルの評価指標と結果,ベースラインを再現し,新しいモデルを評価するためのオープンソースツールキットを提供する。
論文 参考訳(メタデータ) (2021-11-19T18:59:23Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。