論文の概要: KULCQ: An Unsupervised Keyword-based Utterance Level Clustering Quality Metric
- arxiv url: http://arxiv.org/abs/2411.09853v1
- Date: Fri, 15 Nov 2024 00:21:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-18 15:39:20.293343
- Title: KULCQ: An Unsupervised Keyword-based Utterance Level Clustering Quality Metric
- Title(参考訳): KULCQ: 教師なしのキーワードベースのUtterance Level Clustering Quality Metric
- Authors: Pranav Guruprasad, Negar Mokhberian, Nikhil Varghese, Chandra Khatri, Amol Kelkar,
- Abstract要約: キーワードベースのUtterance Level Clustering Quality (KULCQ)は、キーワード分析を利用してクラスタリングの品質を評価する教師なしメトリクスである。
その結果、KULCQは、幾何学的クラスタリング原理との整合性を保ちながら、会話データのセマンティックな関係をよりよく捉えていることがわかった。
- 参考スコア(独自算出の注目度): 0.5671051073036456
- License:
- Abstract: Intent discovery is crucial for both building new conversational agents and improving existing ones. While several approaches have been proposed for intent discovery, most rely on clustering to group similar utterances together. Traditional evaluation of these utterance clusters requires intent labels for each utterance, limiting scalability. Although some clustering quality metrics exist that do not require labeled data, they focus solely on cluster geometry while ignoring the linguistic nuances present in conversational transcripts. In this paper, we introduce Keyword-based Utterance Level Clustering Quality (KULCQ), an unsupervised metric that leverages keyword analysis to evaluate clustering quality. We demonstrate KULCQ's effectiveness by comparing it with existing unsupervised clustering metrics and validate its performance through comprehensive ablation studies. Our results show that KULCQ better captures semantic relationships in conversational data while maintaining consistency with geometric clustering principles.
- Abstract(参考訳): インテント発見は、新しい会話エージェントの構築と既存のエージェントの改善の両方に不可欠である。
意図発見のためのいくつかのアプローチが提案されているが、ほとんどの場合、類似した発話をまとめるためにクラスタリングに依存している。
これらの発話クラスタの従来の評価では、各発話に対して意図ラベルが必要であり、スケーラビリティが制限される。
ラベル付きデータを必要としないクラスタリングの品質指標は存在するが、会話の書き起こしにある言語的ニュアンスを無視しながら、クラスタ幾何学にのみ焦点をあてている。
本稿では、キーワード分析を利用してクラスタリング品質を評価する教師なしメトリクスであるKULCQ(Keyword-based Utterance Level Clustering Quality)を紹介する。
我々は、KULCQを既存の教師なしクラスタリングメトリクスと比較し、その性能を包括的アブレーション研究により検証することによって、KULCQの有効性を実証する。
その結果、KULCQは、幾何学的クラスタリング原理との整合性を保ちながら、会話データのセマンティックな関係をよりよく捉えていることがわかった。
関連論文リスト
- Dial-In LLM: Human-Aligned Dialogue Intent Clustering with LLM-in-the-loop [13.110146614092349]
我々は,大言語モデルの優れた言語理解能力を活用して,よりよい校正意図クラスタリングアルゴリズムを設計する。
本稿では,クラスタレベルの改善と高品質なクラスタの継続的な発見を容易にする反復クラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-12T08:19:01Z) - Categorical Data Clustering via Value Order Estimated Distance Metric Learning [31.851890008893847]
本稿では,属性値間の順序関係がクラスタリング精度の決定的要因であることを示す。
本稿では,クラスタと注文の協調学習を可能にする新しい学習パラダイムを提案する。
このアルゴリズムは収束保証によりより優れたクラスタリング精度を実現する。
論文 参考訳(メタデータ) (2024-11-19T08:23:25Z) - Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - ABCDE: Application-Based Cluster Diff Evals [49.1574468325115]
それは実用性を目指しており、アイテムはアプリケーション固有の重要な値を持つことができ、クラスタリングがどちらが優れているかを判断するときに人間の判断を使うのは粗悪であり、アイテムの任意のスライスのためのメトリクスを報告できる。
クラスタリング品質の差分を測定するアプローチは、高価な地平を前もって構築し、それに関して各クラスタリングを評価する代わりに、ABCDEはクラスタリング間の実際の差分に基づいて、判定のための質問をサンプリングする。
論文 参考訳(メタデータ) (2024-07-31T08:29:35Z) - Reinforcement Graph Clustering with Unknown Cluster Number [91.4861135742095]
本稿では,Reinforcement Graph Clusteringと呼ばれる新しいディープグラフクラスタリング手法を提案する。
提案手法では,クラスタ数決定と教師なし表現学習を統一的なフレームワークに統合する。
フィードバック動作を行うために、クラスタリング指向の報酬関数を提案し、同一クラスタの凝集を高め、異なるクラスタを分離する。
論文 参考訳(メタデータ) (2023-08-13T18:12:28Z) - Using Representation Expressiveness and Learnability to Evaluate
Self-Supervised Learning Methods [61.49061000562676]
本稿では,学習可能性を評価するためにCluster Learnability (CL)を導入する。
CLは、K-meansで表現をクラスタリングすることによって得られたラベルを予測するために訓練されたKNNのパフォーマンスで測定される。
CLは、他の競合する評価手法よりも分布内モデルの性能と相関することがわかった。
論文 参考訳(メタデータ) (2022-06-02T19:05:13Z) - You Never Cluster Alone [150.94921340034688]
我々は、主流のコントラスト学習パラダイムをクラスタレベルのスキームに拡張し、同じクラスタに属するすべてのデータが統一された表現に寄与する。
分類変数の集合をクラスタ化代入信頼度として定義し、インスタンスレベルの学習トラックとクラスタレベルの学習トラックを関連付ける。
代入変数を再パラメータ化することで、TCCはエンドツーエンドでトレーニングされる。
論文 参考訳(メタデータ) (2021-06-03T14:59:59Z) - Neural Text Classification by Jointly Learning to Cluster and Align [5.969960391685054]
我々は、潜在変数モデルを介してクラスタセンターを誘導し、分散単語の埋め込みと相互作用することで、ニューラルネットワークによるクラスタリングアプローチをテキスト分類タスクに拡張する。
提案手法は,単語クラスタリングセンタロイドとクラスタリングトーケンアライメントを共同で学習し,複数のベンチマークデータセット上で技術結果の状態を達成している。
論文 参考訳(メタデータ) (2020-11-24T16:07:18Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。