論文の概要: Robust Representation Learning with Reliable Pseudo-labels Generation
via Self-Adaptive Optimal Transport for Short Text Clustering
- arxiv url: http://arxiv.org/abs/2305.16335v1
- Date: Tue, 23 May 2023 12:43:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-04 11:59:16.056466
- Title: Robust Representation Learning with Reliable Pseudo-labels Generation
via Self-Adaptive Optimal Transport for Short Text Clustering
- Title(参考訳): 短文クラスタリングのための自己適応的最適トランスポートによる疑似ラベル生成によるロバスト表現学習
- Authors: Xiaolin Zheng, Mengling Hu, Weiming Liu, Chaochao Chen, and Xinting
Liao
- Abstract要約: 不均衡でノイズの多いデータに対する堅牢性を改善するために,ロバスト短文クラスタリングモデルを提案する。
データ中のノイズに対する頑健性を改善するために,クラスワイドおよびインスタンスワイドのコントラスト学習を導入する。
8つの短いテキストクラスタリングデータセットに関する実証研究は、RSTCが最先端のモデルを大幅に上回っていることを示している。
- 参考スコア(独自算出の注目度): 13.83404821252712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Short text clustering is challenging since it takes imbalanced and noisy data
as inputs. Existing approaches cannot solve this problem well, since (1) they
are prone to obtain degenerate solutions especially on heavy imbalanced
datasets, and (2) they are vulnerable to noises. To tackle the above issues, we
propose a Robust Short Text Clustering (RSTC) model to improve robustness
against imbalanced and noisy data. RSTC includes two modules, i.e.,
pseudo-label generation module and robust representation learning module. The
former generates pseudo-labels to provide supervision for the later, which
contributes to more robust representations and correctly separated clusters. To
provide robustness against the imbalance in data, we propose self-adaptive
optimal transport in the pseudo-label generation module. To improve robustness
against the noise in data, we further introduce both class-wise and
instance-wise contrastive learning in the robust representation learning
module. Our empirical studies on eight short text clustering datasets
demonstrate that RSTC significantly outperforms the state-of-the-art models.
The code is available at: https://github.com/hmllmh/RSTC.
- Abstract(参考訳): 不均衡でノイズの多いデータを入力として使用するため、短いテキストクラスタリングは難しい。
既存の手法では,(1)重度不均衡なデータセットで解が得られる傾向があり,(2)ノイズに弱いため,この問題をうまく解決できない。
そこで本研究では,不均衡・雑音データに対するロバスト性を改善するためのロバスト短文クラスタリング(rstc)モデルを提案する。
RSTCは2つのモジュール、すなわち擬似ラベル生成モジュールと堅牢な表現学習モジュールを含んでいる。
前者は擬似ラベルを生成して後続の監視を行い、より堅牢な表現と正しく分離されたクラスタに寄与する。
データの不均衡に対してロバスト性を与えるため,擬似ラベル生成モジュールにおける自己適応的最適輸送を提案する。
データ中のノイズに対する頑健性を改善するために,ロバスト表現学習モジュールにおいて,クラスワイドおよびインスタンスワイドのコントラスト学習を導入する。
8つの短いテキストクラスタリングデータセットに関する実証研究は、rstcが最先端モデルを大きく上回っていることを示している。
コードはhttps://github.com/hmllmh/rstc。
関連論文リスト
- Conformal-in-the-Loop for Learning with Imbalanced Noisy Data [5.69777817429044]
大規模なデータセットでは、クラス不均衡とラベルノイズが広まっています。
機械学習の研究の多くは、よくラベル付けされたバランスの取れたデータを前提としている。
コンフォーマル・イン・ザ・ループ(Conformal-in-the-Loop, CitL)は,コンフォーマルな予測に基づく手法を用いて,両課題に対処する新しいトレーニングフレームワークである。
論文 参考訳(メタデータ) (2024-11-04T17:09:58Z) - Contrastive and Consistency Learning for Neural Noisy-Channel Model in Spoken Language Understanding [1.07288078404291]
音声認識(ASR)に基づく自然言語理解手法を提案する。
ASRエラーによる書き起こしの不整合を処理するため,ノイズチャネルモデルの改良を行った。
4つのベンチマークデータセットの実験は、Contrastive and Consistency Learning (CCL)が既存のメソッドより優れていることを示している。
論文 参考訳(メタデータ) (2024-05-23T23:10:23Z) - RoNID: New Intent Discovery with Generated-Reliable Labels and Cluster-friendly Representations [27.775731666470175]
New Intent Discovery (NID)は、オープンワールドシナリオにおける新しい意図グループを特定することを目的としている。
現在の手法は、不正確な擬似ラベルと表現学習に問題がある。
本稿では,EMスタイルの手法により最適化されたロバスト・ニューインテント・ディスカバリー・フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-13T11:58:28Z) - Match me if you can: Semi-Supervised Semantic Correspondence Learning with Unpaired Images [76.47980643420375]
本稿では,意味的対応の学習に固有のデータ・ハングリー・マターが存在するという仮説に基づく。
我々は,機械の監督を通じて,ペア化されたキーポイントを確実に強化する単純な機械注釈器を実証する。
我々のモデルは,SPair-71k,PF-PASCAL,PF-WILLOWといった意味対応学習ベンチマークの最先端モデルを上回る。
論文 参考訳(メタデータ) (2023-11-30T13:22:15Z) - Benchmarking the Robustness of LiDAR Semantic Segmentation Models [78.6597530416523]
本稿では,LiDARセマンティックセグメンテーションモデルのロバスト性を,様々な汚職の下で包括的に解析することを目的とする。
本稿では,悪天候,計測ノイズ,デバイス間不一致という3つのグループで16のドメイン外LiDAR破損を特徴とするSemanticKITTI-Cというベンチマークを提案する。
我々は、単純だが効果的な修正によってロバスト性を大幅に向上させるロバストLiDARセグメンテーションモデル(RLSeg)を設計する。
論文 参考訳(メタデータ) (2023-01-03T06:47:31Z) - Adversarial Dual-Student with Differentiable Spatial Warping for
Semi-Supervised Semantic Segmentation [70.2166826794421]
本研究では、教師なしデータ拡張を行うために、微分可能な幾何ワープを提案する。
また,平均教師数を改善するために,新しい対角的二重学習フレームワークを提案する。
我々のソリューションは、両方のデータセットで得られるパフォーマンスと最先端の結果を大幅に改善します。
論文 参考訳(メタデータ) (2022-03-05T17:36:17Z) - Meta Clustering Learning for Large-scale Unsupervised Person
Re-identification [124.54749810371986]
メタクラスタリング学習(MCL)と呼ばれる「大規模タスクのための小さなデータ」パラダイムを提案する。
MCLは、第1フェーズのトレーニングのためにコンピューティングを節約するためにクラスタリングを介して、未ラベルデータのサブセットを擬似ラベル付けするのみである。
提案手法は計算コストを大幅に削減すると同時に,従来よりも優れた性能を実現している。
論文 参考訳(メタデータ) (2021-11-19T04:10:18Z) - Contrastive Self-supervised Sequential Recommendation with Robust
Augmentation [101.25762166231904]
Sequential Recommendation Describes a set of technique to model dynamic user behavior to order to predict future interaction in sequence user data。
データスパーシリティやノイズの多いデータなど、古くて新しい問題はまだ残っている。
逐次レコメンデーション(CoSeRec)のためのコントラスト型自己監督学習を提案する。
論文 参考訳(メタデータ) (2021-08-14T07:15:25Z) - BiSTF: Bilateral-Branch Self-Training Framework for Semi-Supervised
Large-scale Fine-Grained Recognition [28.06659482245647]
半教師付きファイングラインド認識は、データ不均衡、高いクラス間類似性、ドメインミスマッチによる課題である。
本稿では,バイラテラルブランチ・セルフトレーニング・フレームワーク (Bilateral-Branch Self-Training Framework, BiSTF) を提案する。
BiSTFはSemi-iNatデータセット上で既存の最先端SSLよりも優れています。
論文 参考訳(メタデータ) (2021-07-14T15:28:54Z) - Momentum Pseudo-Labeling for Semi-Supervised Speech Recognition [55.362258027878966]
本稿では,半教師付き音声認識のための簡易かつ効果的な手法として,モーメント擬似ラベル(MPL)を提案する。
MPLは、平均的な教師メソッドにインスパイアされて、相互に相互作用し、学習するオンラインとオフラインの2つのモデルで構成されている。
実験の結果,MPLはベースモデルよりも効果的に改善され,様々な半教師付きシナリオに拡張可能であることが示された。
論文 参考訳(メタデータ) (2021-06-16T16:24:55Z) - ANL: Anti-Noise Learning for Cross-Domain Person Re-Identification [25.035093667770052]
2つのモジュールを含むアンチノイズラーニング(ANL)アプローチを提案します。
FDAモジュールは、カメラ回りのコントラスト学習と逆適応を通じて、ID関連サンプルを収集し、ID非関連サンプルを分散するように設計されています。
reliable sample selection(rss)モジュールは、ノイズラベルを訂正し、メインモデルの信頼できるサンプルを選択するために補助モデルを使用する。
論文 参考訳(メタデータ) (2020-12-27T02:38:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。