論文の概要: Intent Clustering with Shared Pseudo-Labels
- arxiv url: http://arxiv.org/abs/2510.14640v1
- Date: Thu, 16 Oct 2025 12:54:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.859928
- Title: Intent Clustering with Shared Pseudo-Labels
- Title(参考訳): 擬似ラベル共有によるインテントクラスタリング
- Authors: I-Fan Lin, Faegheh Hasibi, Suzan Verberne,
- Abstract要約: インテントクラスタリングのための直感的で,トレーニングのない,ラベルのない手法を提案する。
提案手法は,同一クラスタに属するテキストがより多くのラベルを共有できるという仮説に基づいている。
4つのベンチマークセットに対する評価は,本手法が最近のベースラインに匹敵する結果が得られることを示している。
- 参考スコア(独自算出の注目度): 18.746184073913813
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose an intuitive, training-free and label-free method for intent clustering that makes minimal assumptions using lightweight and open-source LLMs. Many current approaches rely on commercial LLMs, which are costly, and offer limited transparency. Additionally, their methods often explicitly depend on knowing the number of clusters in advance, which is often not the case in realistic settings. To address these challenges, instead of asking the LLM to match similar text directly, we first ask it to generate pseudo-labels for each text, and then perform multi-label classification in this pseudo-label set for each text. This approach is based on the hypothesis that texts belonging to the same cluster will share more labels, and will therefore be closer when encoded into embeddings. These pseudo-labels are more human-readable than direct similarity matches. Our evaluation on four benchmark sets shows that our approach achieves results comparable to and better than recent baselines, while remaining simple and computationally efficient. Our findings indicate that our method can be applied in low-resource scenarios and is stable across multiple models and datasets.
- Abstract(参考訳): 本稿では,軽量かつオープンソースのLCMを用いて最小限の仮定を行うインテントクラスタリングのための,直感的でトレーニング不要かつラベルフリーな手法を提案する。
現在の多くのアプローチは、コストがかかり、透明性が制限された商用LLMに依存している。
さらに、これらの手法は、事前にクラスタの数を知ることに依存することが多いが、現実的な設定ではそうではないことが多い。
これらの課題に対処するために、LLMに類似したテキストを直接一致させる代わりに、まず、各テキストに対して擬似ラベルを生成し、その後、各テキストに対して擬似ラベルセットで多重ラベル分類を実行するように要求する。
このアプローチは、同一クラスタに属するテキストがより多くのラベルを共有するため、埋め込みにエンコードされるとより近くなるという仮説に基づいている。
これらの擬似ラベルは、直接の類似性マッチングよりも人間的な可読性が高い。
4つのベンチマークセットで評価したところ,提案手法は最近のベースラインに匹敵する結果が得られる一方で,単純かつ計算効率が保たれている。
その結果,本手法は低リソースシナリオに適用可能であり,複数のモデルやデータセットに対して安定であることが示唆された。
関連論文リスト
- TWIST: Training-free and Label-free Short Text Clustering through Iterative Vector Updating with LLMs [18.746184073913813]
本稿では,短時間のテキストクラスタリングのためのトレーニングフリーかつラベルフリーな手法を提案する。
提案手法は,最先端手法に匹敵する,あるいは優れた結果が得られる。
論文 参考訳(メタデータ) (2025-10-08T08:05:39Z) - Text Clustering as Classification with LLMs [9.128151647718251]
本稿では,大規模言語モデルの文脈内学習機能を活用することで,テキストクラスタリングを分類タスクとして再編成するフレームワークを提案する。
LLMの高度な自然言語理解と一般化機能を活用することで,人間の介入を最小限に抑えた効果的なクラスタリングを実現する。
多様なデータセットに対する実験結果から,我々のフレームワークは,最先端の組込みクラスタリング技術に匹敵する,あるいは優れた性能を達成できることが示された。
論文 参考訳(メタデータ) (2024-09-30T16:57:34Z) - Prompt-based Pseudo-labeling Strategy for Sample-Efficient Semi-Supervised Extractive Summarization [12.582774521907227]
半教師付き学習(SSL)は、ラベル付きデータが不足し、ラベルなしデータが豊富であるシナリオで広く使われているテクニックである。
標準SSLメソッドは、まず分類モデルをトレーニングし、次に分類器の信頼性値を使用して擬似ラベルを選択するために教師-学生パラダイムに従う。
より正確な擬似ラベルでラベルなしのサンプルを抽出するLLMを用いたプロンプトベースの擬似ラベル方式を提案する。
論文 参考訳(メタデータ) (2023-11-16T04:29:41Z) - Channel-Wise Contrastive Learning for Learning with Noisy Labels [60.46434734808148]
チャネルワイド・コントラッシブ・ラーニング(CWCL)を導入し,真正なラベル情報とノイズを区別する。
従来のインスタンス単位のコントラスト学習(IWCL)とは異なり、CWCLはよりニュアンスでレジリエントな特徴を真のラベルと一致させる傾向にある。
まずCWCLを用いて、クリーンにラベル付けされたサンプルを識別し、次に、これらのサンプルを段階的に微調整する。
論文 参考訳(メタデータ) (2023-08-14T06:04:50Z) - Class-Distribution-Aware Pseudo Labeling for Semi-Supervised Multi-Label
Learning [97.88458953075205]
Pseudo-labelingは、ラベルなしデータを利用するための人気で効果的なアプローチとして登場した。
本稿では,クラスアウェアの擬似ラベル処理を行うCAP(Class-Aware Pseudo-Labeling)という新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-04T12:52:18Z) - M-Tuning: Prompt Tuning with Mitigated Label Bias in Open-Set Scenarios [58.617025733655005]
緩和ラベルバイアス(M-Tuning)を用いた視覚言語プロンプトチューニング手法を提案する。
これはWordNetからのオープンワードを導入し、クローズドセットラベルワードのみからもっと多くのプロンプトテキストを形成する単語の範囲を広げ、シミュレートされたオープンセットシナリオでプロンプトをチューニングする。
提案手法は,様々なスケールのデータセット上で最高の性能を達成し,広範囲にわたるアブレーション研究もその有効性を検証した。
論文 参考訳(メタデータ) (2023-03-09T09:05:47Z) - Pseudo-Labeled Auto-Curriculum Learning for Semi-Supervised Keypoint
Localization [88.74813798138466]
オブジェクトのキーポイントのローカライズは、基本的な視覚的問題である。
キーポイントローカライゼーションネットワークの教師付き学習は、しばしば大量のデータを必要とする。
本稿では,一連の動的しきい値を持つ信頼度の高い擬似ラベルサンプルを自動的に選択する。
論文 参考訳(メタデータ) (2022-01-21T09:51:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。