論文の概要: Semi-Supervised Clustering with Contrastive Learning for Discovering New
Intents
- arxiv url: http://arxiv.org/abs/2201.07604v1
- Date: Fri, 7 Jan 2022 09:58:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-23 18:15:42.438033
- Title: Semi-Supervised Clustering with Contrastive Learning for Discovering New
Intents
- Title(参考訳): 新しい意図発見のためのコントラスト学習による半教師付きクラスタリング
- Authors: Feng Wei, Zhenbo Chen, Zhenghong Hao, Fengxin Yang, Hua Wei, Bing Han,
Sheng Guo
- Abstract要約: 我々は,Deep Contrastive Semi-supervised Clustering (DCSC)を提案する。
DCSCは、テキストサンプルを半教師付きでクラスタリングし、スタッフにグループ化されたインテントを提供することを目的としている。
2つの公開データセットで実験を行い、我々のモデルをいくつかの一般的な手法と比較する。
- 参考スコア(独自算出の注目度): 10.634249106899304
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most dialogue systems in real world rely on predefined intents and answers
for QA service, so discovering potential intents from large corpus previously
is really important for building such dialogue services. Considering that most
scenarios have few intents known already and most intents waiting to be
discovered, we focus on semi-supervised text clustering and try to make the
proposed method benefit from labeled samples for better overall clustering
performance. In this paper, we propose Deep Contrastive Semi-supervised
Clustering (DCSC), which aims to cluster text samples in a semi-supervised way
and provide grouped intents to operation staff. To make DCSC fully utilize the
limited known intents, we propose a two-stage training procedure for DCSC, in
which DCSC will be trained on both labeled samples and unlabeled samples, and
achieve better text representation and clustering performance. We conduct
experiments on two public datasets to compare our model with several popular
methods, and the results show DCSC achieve best performance across all datasets
and circumstances, indicating the effect of the improvements in our work.
- Abstract(参考訳): 実世界のほとんどの対話システムは、事前定義された意図とQAサービスの回答に依存しているため、これまで大きなコーパスから潜在的意図を発見することは、そのような対話サービスを構築する上で非常に重要である。
ほとんどのシナリオには既知のインテントがほとんどなく、発見待ちのインテントもほとんどないので、私たちは半教師ありのテキストクラスタリングに注目して、全体的なクラスタリング性能を改善するためにラベル付きサンプルの利点を生かそうとしています。
本稿では,テキストサンプルを半教師付きでクラスタリングし,スタッフにグループ化された意図を提供することを目的とした,Deep Contrastive Semi-supervised Clustering (DCSC)を提案する。
そこで本研究では,DCSCをラベル付きサンプルとラベルなしサンプルの両方でトレーニングし,より優れたテキスト表現とクラスタリング性能を実現するための,DCSCの2段階トレーニング手順を提案する。
2つのパブリックデータセットで実験を行い,モデルといくつかの一般的な手法を比較した結果,dcscがすべてのデータセットと状況で最高の性能を達成し,改善の効果が示された。
関連論文リスト
- End-to-end Learnable Clustering for Intent Learning in Recommendation [61.29127008174193]
我々は、アンダーラインELCRecと呼ばれる新しい意図学習手法を提案する。
振る舞い表現学習をUnderlineEnd-to-end UnderlineLearnable UnderlineClusteringフレームワークに統合する。
1億3000万ページビューの産業レコメンデーションシステムに本手法をデプロイし,有望な結果を得る。
論文 参考訳(メタデータ) (2024-01-11T15:22:55Z) - Exploiting CLIP for Zero-shot HOI Detection Requires Knowledge
Distillation at Multiple Levels [52.50670006414656]
大規模事前学習型視覚言語モデルであるCLIPを,多段階の知識蒸留に利用した。
私たちのモデルをトレーニングするために、CLIPを使用して、グローバルイメージとローカルユニオン領域の両方のHOIスコアを生成する。
このモデルは、完全な教師付きおよび弱い教師付き手法に匹敵する強力な性能を達成する。
論文 参考訳(メタデータ) (2023-09-10T16:27:54Z) - CEIL: A General Classification-Enhanced Iterative Learning Framework for
Text Clustering [16.08402937918212]
短文クラスタリングのための新しい分類強化反復学習フレームワークを提案する。
各イテレーションにおいて、まず最初に言語モデルを採用して、初期テキスト表現を検索する。
厳密なデータフィルタリングと集約プロセスの後、クリーンなカテゴリラベルを持つサンプルが検索され、監督情報として機能する。
最後に、表現能力が改善された更新言語モデルを使用して、次のイテレーションでクラスタリングを強化する。
論文 参考訳(メタデータ) (2023-04-20T14:04:31Z) - A Clustering Framework for Unsupervised and Semi-supervised New Intent
Discovery [25.900661912504397]
我々は、教師なしおよび半教師なしの新しい意図発見のための新しいクラスタリングフレームワークUSNIDを提案する。
まず、教師なしまたは半教師なしのデータをフル活用して、浅いセマンティック類似性関係を抽出する。
第2に、クラスタ割り当ての不整合の問題に対処するために、セントロイド誘導クラスタリング機構を設計する。
第3に、教師なしまたは半教師付きデータの高レベルなセマンティクスをキャプチャして、きめ細かい意図的クラスタを見つける。
論文 参考訳(メタデータ) (2023-04-16T05:30:42Z) - Progressive Class Semantic Matching for Semi-supervised Text
Classification [26.794533973357403]
半教師付き学習と事前学習言語モデルとの結婚について検討する。
大規模な実験により,本手法がベースラインに顕著な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2022-05-20T13:59:03Z) - Dialog Intent Induction via Density-based Deep Clustering Ensemble [12.05997006407326]
リアルタイムアプリケーションでは,会話ログから新たな対話意図を誘導し,ユーザエクスペリエンスを向上させることが重要である。
ダイアログ意図誘導のための密度ベースDeep Clustering Ensemble (DDCE) 手法を提案する。
提案手法は,多数の外れ値が存在する実生活シナリオの処理に有効である。
論文 参考訳(メタデータ) (2022-01-18T04:13:26Z) - Trash to Treasure: Harvesting OOD Data with Cross-Modal Matching for
Open-Set Semi-Supervised Learning [101.28281124670647]
オープンセット半教師付き学習(Open-set SSL)では、ラベルなしデータにOOD(Out-of-distribution)サンプルを含む、難しいが実用的なシナリオを調査する。
我々は、OODデータの存在を効果的に活用し、特徴学習を増強する新しいトレーニングメカニズムを提案する。
我々のアプローチは、オープンセットSSLのパフォーマンスを大幅に向上させ、最先端技術よりも大きなマージンで性能を向上します。
論文 参考訳(メタデータ) (2021-08-12T09:14:44Z) - You Never Cluster Alone [150.94921340034688]
我々は、主流のコントラスト学習パラダイムをクラスタレベルのスキームに拡張し、同じクラスタに属するすべてのデータが統一された表現に寄与する。
分類変数の集合をクラスタ化代入信頼度として定義し、インスタンスレベルの学習トラックとクラスタレベルの学習トラックを関連付ける。
代入変数を再パラメータ化することで、TCCはエンドツーエンドでトレーニングされる。
論文 参考訳(メタデータ) (2021-06-03T14:59:59Z) - Self-supervised Text-independent Speaker Verification using Prototypical
Momentum Contrastive Learning [58.14807331265752]
モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。
自己監視フレームワークを、データのごく一部しかラベル付けされない半監視シナリオに一般化します。
論文 参考訳(メタデータ) (2020-12-13T23:23:39Z) - UniT: Unified Knowledge Transfer for Any-shot Object Detection and
Segmentation [52.487469544343305]
オブジェクト検出とセグメンテーションの方法は、トレーニングのための大規模インスタンスレベルのアノテーションに依存します。
本稿では,直感的かつ統一的な半教師付きモデルを提案する。
論文 参考訳(メタデータ) (2020-06-12T22:45:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。