論文の概要: NILC: Discovering New Intents with LLM-assisted Clustering
- arxiv url: http://arxiv.org/abs/2511.05913v1
- Date: Sat, 08 Nov 2025 08:18:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.64788
- Title: NILC: Discovering New Intents with LLM-assisted Clustering
- Title(参考訳): NILC: LLMによるクラスタリングによる新しいインテントの発見
- Authors: Hongtao Wang, Renchi Yang, Wenqing Lin,
- Abstract要約: 新しい意図発見(NID)は、ラベルなしのユーザ発話から、新しい意図と既知の意図の両方を認識することを目指している。
本報告では,NIDに特化して機能する新しいクラスタリングフレームワークであるNILCを提案する。
- 参考スコア(独自算出の注目度): 15.077590298929719
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: New intent discovery (NID) seeks to recognize both new and known intents from unlabeled user utterances, which finds prevalent use in practical dialogue systems. Existing works towards NID mainly adopt a cascaded architecture, wherein the first stage focuses on encoding the utterances into informative text embeddings beforehand, while the latter is to group similar embeddings into clusters (i.e., intents), typically by K-Means. However, such a cascaded pipeline fails to leverage the feedback from both steps for mutual refinement, and, meanwhile, the embedding-only clustering overlooks nuanced textual semantics, leading to suboptimal performance. To bridge this gap, this paper proposes NILC, a novel clustering framework specially catered for effective NID. Particularly, NILC follows an iterative workflow, in which clustering assignments are judiciously updated by carefully refining cluster centroids and text embeddings of uncertain utterances with the aid of large language models (LLMs). Specifically, NILC first taps into LLMs to create additional semantic centroids for clusters, thereby enriching the contextual semantics of the Euclidean centroids of embeddings. Moreover, LLMs are then harnessed to augment hard samples (ambiguous or terse utterances) identified from clusters via rewriting for subsequent cluster correction. Further, we inject supervision signals through non-trivial techniques seeding and soft must links for more accurate NID in the semi-supervised setting. Extensive experiments comparing NILC against multiple recent baselines under both unsupervised and semi-supervised settings showcase that NILC can achieve significant performance improvements over six benchmark datasets of diverse domains consistently.
- Abstract(参考訳): 新しい意図発見(NID)は、未ラベルのユーザ発話から新しい意図と既知の意図の両方を認識することを目的としており、実際の対話システムで広く使われている。
既存のNIDへの取り組みは、主にカスケードアーキテクチャを採用しており、第1段階では、発話を事前に情報的なテキスト埋め込みにエンコードすることに焦点を当てており、第2段階では、K-Meansによって、類似の埋め込みをクラスタ(すなわちインテント)にグループ化する。
しかし、このようなカスケードパイプラインは、相互洗練のために両方のステップからのフィードバックを活用できず、一方、埋め込みのみのクラスタリングは、微妙なテキストセマンティクスを軽視し、最適なパフォーマンスをもたらす。
このギャップを埋めるために,本論文では,NIDに特化して機能する新しいクラスタリングフレームワークであるNILCを提案する。
特にNILCは、大規模言語モデル(LLM)の助けを借りて、クラスタセントロイドや不確実な発話のテキスト埋め込みを慎重に精査することで、クラスタリングの割り当てを任意に更新する反復的なワークフローに従っている。
具体的には、NILC はまず LLM をタップしてクラスタのセマンティックセントロイドを新たに生成し、ユークリッドセンセントロイドのコンテキストセマンティックスを豊かにする。
さらに、LCMは、その後のクラスタ修正のための書き換えによって、クラスタから特定されたハードサンプル(あいまいまたは簡潔な発話)を増強するために使用される。
さらに, 半教師設定において, より正確なNIDのために, 非自明なシード法とソフト・マスターリンクを用いて, 監視信号を注入する。
NILCと最近の複数のベースラインを比較した大規模な実験では、教師なし設定と半教師付き設定の両方で、NILCは、さまざまなドメインの6つのベンチマークデータセットに対して、一貫したパフォーマンス向上を達成できることを示した。
関連論文リスト
- Text Clustering as Classification with LLMs [9.128151647718251]
本稿では,大規模言語モデルの文脈内学習機能を活用することで,テキストクラスタリングを分類タスクとして再編成するフレームワークを提案する。
LLMの高度な自然言語理解と一般化機能を活用することで,人間の介入を最小限に抑えた効果的なクラスタリングを実現する。
多様なデータセットに対する実験結果から,我々のフレームワークは,最先端の組込みクラスタリング技術に匹敵する,あるいは優れた性能を達成できることが示された。
論文 参考訳(メタデータ) (2024-09-30T16:57:34Z) - OMH: Structured Sparsity via Optimally Matched Hierarchy for Unsupervised Semantic Segmentation [69.37484603556307]
Un Semantic segmenting (USS)は、事前に定義されたラベルに頼ることなく、イメージをセグメント化する。
上記の問題を同時に解決するために,OMH (Optimally Matched Hierarchy) という新しいアプローチを導入する。
我々のOMHは既存のUSS法と比較して教師なしセグメンテーション性能がよい。
論文 参考訳(メタデータ) (2024-03-11T09:46:41Z) - End-to-end Learnable Clustering for Intent Learning in Recommendation [54.157784572994316]
我々は、アンダーラインELCRecと呼ばれる新しい意図学習手法を提案する。
振る舞い表現学習をUnderlineEnd-to-end UnderlineLearnable UnderlineClusteringフレームワークに統合する。
1億3000万ページビューの産業レコメンデーションシステムに本手法をデプロイし,有望な結果を得る。
論文 参考訳(メタデータ) (2024-01-11T15:22:55Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - A Clustering Framework for Unsupervised and Semi-supervised New Intent
Discovery [25.900661912504397]
我々は、教師なしおよび半教師なしの新しい意図発見のための新しいクラスタリングフレームワークUSNIDを提案する。
まず、教師なしまたは半教師なしのデータをフル活用して、浅いセマンティック類似性関係を抽出する。
第2に、クラスタ割り当ての不整合の問題に対処するために、セントロイド誘導クラスタリング機構を設計する。
第3に、教師なしまたは半教師付きデータの高レベルなセマンティクスをキャプチャして、きめ細かい意図的クラスタを見つける。
論文 参考訳(メタデータ) (2023-04-16T05:30:42Z) - A Proposition-Level Clustering Approach for Multi-Document Summarization [82.4616498914049]
クラスタリングアプローチを再検討し、より正確な情報アライメントの提案をグループ化します。
提案手法は,有意な命題を検出し,それらをパラフラスティックなクラスタに分類し,その命題を融合して各クラスタの代表文を生成する。
DUC 2004 とTAC 2011 データセットでは,従来の最先端 MDS 法よりも要約法が優れている。
論文 参考訳(メタデータ) (2021-12-16T10:34:22Z) - A Classification-Based Approach to Semi-Supervised Clustering with
Pairwise Constraints [5.639904484784126]
対制約付き半教師付きクラスタリングのためのネットワークフレームワークを提案する。
既存のアプローチとは対照的に、SSCを2つの単純な分類タスク/ステージに分解する。
提案手法であるS3C2は、二項分類がマルチクラスクラスタリングよりも容易であるという観察から動機づけられている。
論文 参考訳(メタデータ) (2020-01-18T20:13:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。