論文の概要: Semi-Supervised Clustering with Contrastive Learning for Discovering New
Intents
- arxiv url: http://arxiv.org/abs/2201.07604v1
- Date: Fri, 7 Jan 2022 09:58:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-23 18:15:42.438033
- Title: Semi-Supervised Clustering with Contrastive Learning for Discovering New
Intents
- Title(参考訳): 新しい意図発見のためのコントラスト学習による半教師付きクラスタリング
- Authors: Feng Wei, Zhenbo Chen, Zhenghong Hao, Fengxin Yang, Hua Wei, Bing Han,
Sheng Guo
- Abstract要約: 我々は,Deep Contrastive Semi-supervised Clustering (DCSC)を提案する。
DCSCは、テキストサンプルを半教師付きでクラスタリングし、スタッフにグループ化されたインテントを提供することを目的としている。
2つの公開データセットで実験を行い、我々のモデルをいくつかの一般的な手法と比較する。
- 参考スコア(独自算出の注目度): 10.634249106899304
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most dialogue systems in real world rely on predefined intents and answers
for QA service, so discovering potential intents from large corpus previously
is really important for building such dialogue services. Considering that most
scenarios have few intents known already and most intents waiting to be
discovered, we focus on semi-supervised text clustering and try to make the
proposed method benefit from labeled samples for better overall clustering
performance. In this paper, we propose Deep Contrastive Semi-supervised
Clustering (DCSC), which aims to cluster text samples in a semi-supervised way
and provide grouped intents to operation staff. To make DCSC fully utilize the
limited known intents, we propose a two-stage training procedure for DCSC, in
which DCSC will be trained on both labeled samples and unlabeled samples, and
achieve better text representation and clustering performance. We conduct
experiments on two public datasets to compare our model with several popular
methods, and the results show DCSC achieve best performance across all datasets
and circumstances, indicating the effect of the improvements in our work.
- Abstract(参考訳): 実世界のほとんどの対話システムは、事前定義された意図とQAサービスの回答に依存しているため、これまで大きなコーパスから潜在的意図を発見することは、そのような対話サービスを構築する上で非常に重要である。
ほとんどのシナリオには既知のインテントがほとんどなく、発見待ちのインテントもほとんどないので、私たちは半教師ありのテキストクラスタリングに注目して、全体的なクラスタリング性能を改善するためにラベル付きサンプルの利点を生かそうとしています。
本稿では,テキストサンプルを半教師付きでクラスタリングし,スタッフにグループ化された意図を提供することを目的とした,Deep Contrastive Semi-supervised Clustering (DCSC)を提案する。
そこで本研究では,DCSCをラベル付きサンプルとラベルなしサンプルの両方でトレーニングし,より優れたテキスト表現とクラスタリング性能を実現するための,DCSCの2段階トレーニング手順を提案する。
2つのパブリックデータセットで実験を行い,モデルといくつかの一般的な手法を比較した結果,dcscがすべてのデータセットと状況で最高の性能を達成し,改善の効果が示された。
関連論文リスト
- Effective SAM Combination for Open-Vocabulary Semantic Segmentation [24.126307031048203]
Open-vocabulary semantic segmentationは、無制限のクラスにわたる画像にピクセルレベルのラベルを割り当てることを目的としている。
ESC-Netは、SAMデコーダブロックを利用してクラスに依存しないセグメンテーションを行う新しい1段オープン語彙セグメンテーションモデルである。
ESC-NetはADE20K、PASCAL-VOC、PASCAL-Contextなどの標準ベンチマークで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-11-22T04:36:12Z) - Pseudo-Label Enhanced Prototypical Contrastive Learning for Uniformed Intent Discovery [27.18799732585361]
Pseudo-Label enhanced Prototypeal Contrastive Learning (PLPCL) モデルを提案する。
擬似ラベルを用いて、表現とクラスタリングのギャップを埋めるコントラスト学習のための潜在的正・負のサンプルを探索する。
提案手法は,新たな意図を発見するための2つの異なる設定において有効であることが証明されている。
論文 参考訳(メタデータ) (2024-10-26T16:22:45Z) - Unsupervised Multimodal Clustering for Semantics Discovery in Multimodal Utterances [24.142013877384603]
本稿では,新しい教師なしマルチモーダルクラスタリング手法 (UMC) を提案する。
UMCは、マルチモーダルデータのための拡張ビューを構築するためのユニークなアプローチを導入し、事前トレーニングを実行するために使用される。
我々は、最先端の手法よりもクラスタリングメトリクスの2-6%のスコアが顕著に改善され、この領域で最初の成功例となった。
論文 参考訳(メタデータ) (2024-05-21T13:24:07Z) - Exploiting CLIP for Zero-shot HOI Detection Requires Knowledge
Distillation at Multiple Levels [52.50670006414656]
大規模事前学習型視覚言語モデルであるCLIPを,多段階の知識蒸留に利用した。
私たちのモデルをトレーニングするために、CLIPを使用して、グローバルイメージとローカルユニオン領域の両方のHOIスコアを生成する。
このモデルは、完全な教師付きおよび弱い教師付き手法に匹敵する強力な性能を達成する。
論文 参考訳(メタデータ) (2023-09-10T16:27:54Z) - CEIL: A General Classification-Enhanced Iterative Learning Framework for
Text Clustering [16.08402937918212]
短文クラスタリングのための新しい分類強化反復学習フレームワークを提案する。
各イテレーションにおいて、まず最初に言語モデルを採用して、初期テキスト表現を検索する。
厳密なデータフィルタリングと集約プロセスの後、クリーンなカテゴリラベルを持つサンプルが検索され、監督情報として機能する。
最後に、表現能力が改善された更新言語モデルを使用して、次のイテレーションでクラスタリングを強化する。
論文 参考訳(メタデータ) (2023-04-20T14:04:31Z) - Trash to Treasure: Harvesting OOD Data with Cross-Modal Matching for
Open-Set Semi-Supervised Learning [101.28281124670647]
オープンセット半教師付き学習(Open-set SSL)では、ラベルなしデータにOOD(Out-of-distribution)サンプルを含む、難しいが実用的なシナリオを調査する。
我々は、OODデータの存在を効果的に活用し、特徴学習を増強する新しいトレーニングメカニズムを提案する。
我々のアプローチは、オープンセットSSLのパフォーマンスを大幅に向上させ、最先端技術よりも大きなマージンで性能を向上します。
論文 参考訳(メタデータ) (2021-08-12T09:14:44Z) - You Never Cluster Alone [150.94921340034688]
我々は、主流のコントラスト学習パラダイムをクラスタレベルのスキームに拡張し、同じクラスタに属するすべてのデータが統一された表現に寄与する。
分類変数の集合をクラスタ化代入信頼度として定義し、インスタンスレベルの学習トラックとクラスタレベルの学習トラックを関連付ける。
代入変数を再パラメータ化することで、TCCはエンドツーエンドでトレーニングされる。
論文 参考訳(メタデータ) (2021-06-03T14:59:59Z) - Self-supervised Text-independent Speaker Verification using Prototypical
Momentum Contrastive Learning [58.14807331265752]
モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。
自己監視フレームワークを、データのごく一部しかラベル付けされない半監視シナリオに一般化します。
論文 参考訳(メタデータ) (2020-12-13T23:23:39Z) - UniT: Unified Knowledge Transfer for Any-shot Object Detection and
Segmentation [52.487469544343305]
オブジェクト検出とセグメンテーションの方法は、トレーニングのための大規模インスタンスレベルのアノテーションに依存します。
本稿では,直感的かつ統一的な半教師付きモデルを提案する。
論文 参考訳(メタデータ) (2020-06-12T22:45:47Z) - Gradient-Induced Co-Saliency Detection [81.54194063218216]
Co-SOD(Co-saliency Detection)は、一般的な唾液前景を関連画像のグループに分割することを目的としている。
本稿では,人間の行動にインスパイアされた,勾配誘導型共分散検出法を提案する。
論文 参考訳(メタデータ) (2020-04-28T08:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。