論文の概要: Towards Real-world Scenario: Imbalanced New Intent Discovery
- arxiv url: http://arxiv.org/abs/2406.03127v1
- Date: Wed, 5 Jun 2024 10:22:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 18:59:55.866819
- Title: Towards Real-world Scenario: Imbalanced New Intent Discovery
- Title(参考訳): 現実世界のシナリオに向けて - 新たなインテントディスカバリの不均衡
- Authors: Shun Zhang, Chaoran Yan, Jian Yang, Jiaheng Liu, Ying Mo, Jiaqi Bai, Tongliang Li, Zhoujun Li,
- Abstract要約: New Intent Discovery (NID)は、ラベル付きおよび大規模ラベル付きデータを限定的に利用することによって、未定義のユーザインテントの既知のカテゴリを検出することを目的としている。
本研究は,i-NID(i-NID)タスクを導入し,長期分布における親しみやすい,新しい意図カテゴリーを同定する。
3つのデータセットからなる新しいベンチマーク(ImbaNID-Bench)を作成し、実世界のロングテール分布をシミュレートする。
- 参考スコア(独自算出の注目度): 34.684320979844244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: New Intent Discovery (NID) aims at detecting known and previously undefined categories of user intent by utilizing limited labeled and massive unlabeled data. Most prior works often operate under the unrealistic assumption that the distribution of both familiar and new intent classes is uniform, overlooking the skewed and long-tailed distributions frequently encountered in real-world scenarios. To bridge the gap, our work introduces the imbalanced new intent discovery (i-NID) task, which seeks to identify familiar and novel intent categories within long-tailed distributions. A new benchmark (ImbaNID-Bench) comprised of three datasets is created to simulate the real-world long-tail distributions. ImbaNID-Bench ranges from broad cross-domain to specific single-domain intent categories, providing a thorough representation of practical use cases. Besides, a robust baseline model ImbaNID is proposed to achieve cluster-friendly intent representations. It includes three stages: model pre-training, generation of reliable pseudo-labels, and robust representation learning that strengthens the model performance to handle the intricacies of real-world data distributions. Our extensive experiments on previous benchmarks and the newly established benchmark demonstrate the superior performance of ImbaNID in addressing the i-NID task, highlighting its potential as a powerful baseline for uncovering and categorizing user intents in imbalanced and long-tailed distributions\footnote{\url{https://github.com/Zkdc/i-NID}}.
- Abstract(参考訳): New Intent Discovery (NID)は,ラベル付きおよび大規模ラベル付きデータを限定的に利用することによって,ユーザ意図の既知および未定義のカテゴリを検出することを目的としている。
ほとんどの先行研究は、慣れ親しんだクラスと新しいクラスの両方の分布が一様であるという非現実的な仮定の下で運用され、現実のシナリオでしばしば発生する歪んだ分布と長い尾の分布を見渡せる。
このギャップを埋めるために、我々の研究は、長い尾の分布の中で親しみやすい、新しい意図カテゴリーを特定するために、不均衡な新しい意図発見(i-NID)タスクを導入する。
3つのデータセットからなる新しいベンチマーク(ImbaNID-Bench)を作成し、実世界のロングテール分布をシミュレートする。
ImbaNID-Benchは、幅広いクロスドメインから特定の単一ドメインのインテントカテゴリまで、実用的なユースケースの完全な表現を提供する。
さらに,クラスタフレンドリな意図表現を実現するために,ロバストなベースラインモデルImbaNIDを提案する。
モデル事前トレーニング、信頼性の高い擬似ラベルの生成、実世界のデータ分散の複雑さを扱うためのモデルパフォーマンスを強化する堅牢な表現学習の3段階を含む。
以前のベンチマークと新たに確立されたベンチマークは、i-NIDタスクに対処する上で、ImbaNIDの優れたパフォーマンスを示しており、不均衡な分布と長い尾の分布におけるユーザインテントの発見と分類のための強力なベースラインとしての可能性を強調している。
関連論文リスト
- SimPro: A Simple Probabilistic Framework Towards Realistic Long-Tailed Semi-Supervised Learning [49.94607673097326]
ラベルなしデータの分散に関する前提を前提としない、高度に適応可能なフレームワークをSimProとして提案する。
我々のフレームワークは確率モデルに基づいており、期待最大化アルゴリズムを革新的に洗練する。
本手法は,様々なベンチマークやデータ分散シナリオにまたがる一貫した最先端性能を示す。
論文 参考訳(メタデータ) (2024-02-21T03:39:04Z) - Going beyond research datasets: Novel intent discovery in the industry
setting [60.90117614762879]
本稿では,大規模なeコマースプラットフォームに展開する意図発見パイプラインを改善する手法を提案する。
ドメイン内データに基づく事前学習型言語モデルの利点を示す。
また,クラスタリングタスクの微調整中に,実生活データセットの会話構造(質問と回答)を利用するための最善の方法も考案した。
論文 参考訳(メタデータ) (2023-05-09T14:21:29Z) - A Clustering Framework for Unsupervised and Semi-supervised New Intent
Discovery [25.900661912504397]
我々は、教師なしおよび半教師なしの新しい意図発見のための新しいクラスタリングフレームワークUSNIDを提案する。
まず、教師なしまたは半教師なしのデータをフル活用して、浅いセマンティック類似性関係を抽出する。
第2に、クラスタ割り当ての不整合の問題に対処するために、セントロイド誘導クラスタリング機構を設計する。
第3に、教師なしまたは半教師付きデータの高レベルなセマンティクスをキャプチャして、きめ細かい意図的クラスタを見つける。
論文 参考訳(メタデータ) (2023-04-16T05:30:42Z) - Coreset Sampling from Open-Set for Fine-Grained Self-Supervised Learning [10.57079240576682]
本稿では,大規模未ラベルのオープンセットが利用可能であるという前提の下で,オープンセットの自己改善型学習問題を新たに導入する。
問題設定では、オープンセットとターゲットデータセットの分布ミスマッチを考慮することが重要である。
実験により,SimCoreは表現学習性能を大幅に向上することを示した。
論文 参考訳(メタデータ) (2023-03-20T13:38:29Z) - A Framework to Generate High-Quality Datapoints for Multiple Novel
Intent Detection [24.14668837496296]
MNIDは、予算的な人的アノテーションコストで複数の新しい意図を検出するためのフレームワークである。
精度とF1スコアの点でベースライン法より優れている。
論文 参考訳(メタデータ) (2022-05-04T11:32:15Z) - Class Balancing GAN with a Classifier in the Loop [58.29090045399214]
本稿では,GANを学習するための理論的動機付けクラスバランス正則化器を提案する。
我々の正規化器は、訓練済みの分類器からの知識を利用して、データセット内のすべてのクラスのバランスの取れた学習を確実にします。
複数のデータセットにまたがる既存手法よりも優れた性能を達成し,長期分布の学習表現における正規化器の有用性を実証する。
論文 参考訳(メタデータ) (2021-06-17T11:41:30Z) - Self-Supervision based Task-Specific Image Collection Summarization [3.115375810642661]
本稿では,意味情報と自己スーパービジョンを用いたタスク固有画像コーパス要約手法を提案する。
特徴生成ネットワークとして,分類に基づくWasserstein generation adversarial Network (WGAN) を用いる。
モデルは、セマンティック埋め込み空間におけるK平均クラスタリングを用いて、推論時に要約を生成する。
論文 参考訳(メタデータ) (2020-12-19T10:58:04Z) - Inference Stage Optimization for Cross-scenario 3D Human Pose Estimation [97.93687743378106]
既存の3Dポーズ推定モデルは、目に見えないポーズを持つ新しいシナリオに適用する場合、パフォーマンス低下を被る。
本稿では、3次元ポーズモデルの一般化性を改善するための新しいフレームワークである推論段階最適化(ISO)を提案する。
注目すべきは、MPI-INF-3DHPで83.6%の最先端の3D PCKが得られることだ。
論文 参考訳(メタデータ) (2020-07-04T09:45:18Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。