論文の概要: Going beyond research datasets: Novel intent discovery in the industry
setting
- arxiv url: http://arxiv.org/abs/2305.05474v1
- Date: Tue, 9 May 2023 14:21:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-10 12:29:09.896719
- Title: Going beyond research datasets: Novel intent discovery in the industry
setting
- Title(参考訳): 研究データセットを超えて:業界における新しい意図の発見
- Authors: Aleksandra Chrabrowa, Tsimur Hadeliya, Dariusz Kajtoch, Robert
Mroczkowski, Piotr Rybak
- Abstract要約: 本稿では,大規模なeコマースプラットフォームに展開する意図発見パイプラインを改善する手法を提案する。
ドメイン内データに基づく事前学習型言語モデルの利点を示す。
また,クラスタリングタスクの微調整中に,実生活データセットの会話構造(質問と回答)を利用するための最善の方法も考案した。
- 参考スコア(独自算出の注目度): 60.90117614762879
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Novel intent discovery automates the process of grouping similar messages
(questions) to identify previously unknown intents. However, current research
focuses on publicly available datasets which have only the question field and
significantly differ from real-life datasets. This paper proposes methods to
improve the intent discovery pipeline deployed in a large e-commerce platform.
We show the benefit of pre-training language models on in-domain data: both
self-supervised and with weak supervision. We also devise the best method to
utilize the conversational structure (i.e., question and answer) of real-life
datasets during fine-tuning for clustering tasks, which we call Conv. All our
methods combined to fully utilize real-life datasets give up to 33pp
performance boost over state-of-the-art Constrained Deep Adaptive Clustering
(CDAC) model for question only. By comparison CDAC model for the question data
only gives only up to 13pp performance boost over the naive baseline.
- Abstract(参考訳): 新たな意図発見は、以前に未知の意図を識別するために類似したメッセージ(問い合わせ)をグループ化するプロセスを自動化する。
しかし、現在の研究は、疑問フィールドしか持たず、実際のデータセットとは大きく異なる公開データセットに焦点を当てている。
本稿では,大規模eコマースプラットフォームに展開するインテント発見パイプラインを改善する手法を提案する。
自己監督型と弱い監視型という,ドメイン内データによる言語モデルの事前学習のメリットを示す。
また,我々がconvと呼ぶクラスタリングタスクの微調整を行う際に,実生活データセットの会話構造(すなわち質問と回答)を利用するための最善の方法を考案する。
実生活データセットを完全に活用するために組み合わせられたすべての手法は、質問のみのための最先端のConstrained Deep Adaptive Clustering(CDAC)モデルに対して最大33ppのパフォーマンス向上を達成します。
比較すると、質問データに対するCDACモデルは、ナイーブベースラインよりも最大13ppの性能向上しか得られない。
関連論文リスト
- DST-Det: Simple Dynamic Self-Training for Open-Vocabulary Object Detection [72.25697820290502]
この研究は、ゼロショット分類によって潜在的に新しいクラスを特定するための単純かつ効率的な戦略を導入する。
このアプローチは、アノテーションやデータセット、再学習を必要とせずに、新しいクラスのリコールと精度を高めるセルフトレーニング戦略として言及する。
LVIS、V3Det、COCOを含む3つのデータセットに対する実証的な評価は、ベースラインのパフォーマンスを大幅に改善したことを示している。
論文 参考訳(メタデータ) (2023-10-02T17:52:24Z) - Contrastive Continual Multi-view Clustering with Filtered Structural
Fusion [57.193645780552565]
ビューが事前に収集されるアプリケーションでは、マルチビュークラスタリングが成功します。
データビューがシーケンシャルに収集されるシナリオ、すなわちリアルタイムデータを見落としている。
いくつかの方法が提案されているが、安定塑性ジレンマに閉じ込められている。
フィルタ構造融合を用いたコントラスト連続多視点クラスタリングを提案する。
論文 参考訳(メタデータ) (2023-09-26T14:18:29Z) - Revisit Few-shot Intent Classification with PLMs: Direct Fine-tuning vs. Continual Pre-training [20.98770732015944]
少量のラベル付きデータのみを使用して、基礎となる意図に基づいて発話を分類するために、深層学習モデルを訓練する。
この課題に対するPLMの過度な適合問題は、予想されるほど深刻ではないため、継続事前学習は必須ではない可能性がある。
限られた利用可能なデータの利用を最大化するために,コンテキスト拡張法を提案し,逐次自己蒸留を利用して性能を向上させる。
論文 参考訳(メタデータ) (2023-06-08T15:26:52Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - Dominant Set-based Active Learning for Text Classification and its
Application to Online Social Media [0.0]
本稿では,最小限のアノテーションコストで大規模未ラベルコーパスのトレーニングを行うための,プールベースのアクティブラーニング手法を提案する。
提案手法には調整すべきパラメータが一切ないため,データセットに依存しない。
本手法は,最先端のアクティブラーニング戦略と比較して高い性能を実現する。
論文 参考訳(メタデータ) (2022-01-28T19:19:03Z) - Towards General and Efficient Active Learning [20.888364610175987]
アクティブラーニングは、限られたアノテーション予算を利用するために最も有益なサンプルを選択することを目的としている。
本稿では,新しい汎用能動学習法(GEAL)を提案する。
提案手法は,同一モデルの単一パス推定を用いて,異なるデータセット上でデータ選択処理を行うことができる。
論文 参考訳(メタデータ) (2021-12-15T08:35:28Z) - Enhancing the Generalization for Intent Classification and Out-of-Domain
Detection in SLU [70.44344060176952]
インテント分類は、音声言語理解(SLU)における主要な課題である
近年の研究では、余分なデータやラベルを使用することで、OOD検出性能が向上することが示されている。
本稿では、IND意図分類とOOD検出の両方をサポートしながら、INDデータのみを用いてモデルを訓練することを提案する。
論文 参考訳(メタデータ) (2021-06-28T08:27:38Z) - The Surprising Performance of Simple Baselines for Misinformation
Detection [4.060731229044571]
我々は、現代のトランスフォーマーベースの言語モデルの広いセットのパフォーマンスを調べます。
誤情報検出の新たな手法の創出と評価のベースラインとして,本フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-14T16:25:22Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Self-Supervision based Task-Specific Image Collection Summarization [3.115375810642661]
本稿では,意味情報と自己スーパービジョンを用いたタスク固有画像コーパス要約手法を提案する。
特徴生成ネットワークとして,分類に基づくWasserstein generation adversarial Network (WGAN) を用いる。
モデルは、セマンティック埋め込み空間におけるK平均クラスタリングを用いて、推論時に要約を生成する。
論文 参考訳(メタデータ) (2020-12-19T10:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。