論文の概要: Self-supervised Document Clustering Based on BERT with Data Augment
- arxiv url: http://arxiv.org/abs/2011.08523v3
- Date: Fri, 17 Sep 2021 03:18:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-24 15:46:07.886192
- Title: Self-supervised Document Clustering Based on BERT with Data Augment
- Title(参考訳): データ拡張を伴うBERTに基づく自己教師型文書クラスタリング
- Authors: Haoxiang Shi and Cen Wang
- Abstract要約: テキストクラスタリングのための教師なしデータ拡張(UDA)を用いた,自己教師付きコントラスト学習(SCL)と,少数ショットのコントラスト学習(FCL)を提案する。
SCLは、いくつかのクラスタリング評価尺度において、短いテキストと長いテキストに対して、最先端の教師なしクラスタリングアプローチより優れている。
FCLは教師付き学習に近い性能を達成し、UDAによるFCLは短文のパフォーマンスをさらに向上する。
- 参考スコア(独自算出の注目度): 1.0152838128195467
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contrastive learning is a promising approach to unsupervised learning, as it
inherits the advantages of well-studied deep models without a dedicated and
complex model design. In this paper, based on bidirectional encoder
representations from transformers, we propose self-supervised contrastive
learning (SCL) as well as few-shot contrastive learning (FCL) with unsupervised
data augmentation (UDA) for text clustering. SCL outperforms state-of-the-art
unsupervised clustering approaches for short texts and those for long texts in
terms of several clustering evaluation measures. FCL achieves performance close
to supervised learning, and FCL with UDA further improves the performance for
short texts.
- Abstract(参考訳): コントラスト学習は教師なし学習への有望なアプローチであり、専門的で複雑なモデル設計なしで、よく研究されたディープモデルの利点を継承する。
本稿では,トランスフォーマからの双方向エンコーダ表現に基づいて,自己教師付きコントラスト学習 (scl) と,未教師なしデータ拡張 (uda) を用いた少数ショットコントラスト学習 (fcl) を提案する。
sclは、いくつかのクラスタリング評価尺度の観点から、短いテキストと長いテキストの教師なしクラスタリングアプローチよりも優れている。
FCLは教師付き学習に近い性能を達成し、UDAによるFCLは短文のパフォーマンスをさらに向上する。
関連論文リスト
- Speak Like a Native: Prompting Large Language Models in a Native Style [53.84738665918496]
In-context Learning (ICL) with large language model (LLMs) は、多くの自然言語処理タスクにおいて近代的なツールとなっている。
本稿では, LLMの推論能力を向上させるために, textbfAlignedCoT という新しい効果的手法を提案する。
数学的質問答え、常識的推論、テキスト理解に関するいくつかのベンチマークにおいて、広範囲かつ包括的な実験を行う。
論文 参考訳(メタデータ) (2023-11-22T17:24:21Z) - Automatic Smart Contract Comment Generation via Large Language Models
and In-Context Learning [11.52122354673779]
本研究では,大規模言語モデル(LLM)と文脈内学習に基づくSCCLLMのアプローチを提案する。
具体的には、デモ選択フェーズにおいて、SCCLLMは歴史的コーパスからトップkコードスニペットを検索する。
コンテキスト内学習フェーズでは、SCCLLMは検索したコードスニペットをデモとして利用する。
論文 参考訳(メタデータ) (2023-11-17T08:31:09Z) - MA2CL:Masked Attentive Contrastive Learning for Multi-Agent
Reinforcement Learning [128.19212716007794]
我々はtextbfMulti-textbfAgent textbfMasked textbfAttentive textbfContrastive textbfLearning (MA2CL) という効果的なフレームワークを提案する。
MA2CLは、潜伏空間におけるマスクされたエージェント観察を再構築することにより、時間的およびエージェントレベルの予測の両方の学習表現を奨励する。
提案手法は,様々なMARLアルゴリズムの性能とサンプル効率を大幅に向上させ,様々な視覚的,状態的シナリオにおいて,他の手法よりも優れる。
論文 参考訳(メタデータ) (2023-06-03T05:32:19Z) - Using Representation Expressiveness and Learnability to Evaluate
Self-Supervised Learning Methods [61.49061000562676]
本稿では,学習可能性を評価するためにCluster Learnability (CL)を導入する。
CLは、K-meansで表現をクラスタリングすることによって得られたラベルを予測するために訓練されたKNNのパフォーマンスで測定される。
CLは、他の競合する評価手法よりも分布内モデルの性能と相関することがわかった。
論文 参考訳(メタデータ) (2022-06-02T19:05:13Z) - Hyperspherical Consistency Regularization [45.00073340936437]
我々は,自己教師あり学習と教師あり学習の関係について検討し,自己教師あり学習がデータ効率のよい深層学習にどのように役立つかを検討する。
超球面整合正則化(HCR)を提案し,特徴依存情報を用いた分類器の正規化を行い,ラベルからのバイアスを回避する。
論文 参考訳(メタデータ) (2022-06-02T02:41:13Z) - Contrastive Learning with Boosted Memorization [36.957895270908324]
自己教師付き学習は、視覚的およびテキスト的データの表現学習において大きな成功を収めた。
近年の自己指導型長期学習の試行は、損失視点やモデル視点の再バランスによって行われる。
本稿では,ラベルを意識しないコンテキストにおける長期学習を強化するために,新しいBCL法を提案する。
論文 参考訳(メタデータ) (2022-05-25T11:54:22Z) - Contrastive Learning with Adversarial Examples [79.39156814887133]
コントラスト学習(Contrastive Learning, CL)は、視覚表現の自己教師型学習(SSL)において一般的な手法である。
本稿では,コンストラクティブ・ラーニングのための新しい逆例群を紹介し,これらの例を用いてCLAEと表記されるSSLの新しい逆トレーニングアルゴリズムを定義する。
論文 参考訳(メタデータ) (2020-10-22T20:45:10Z) - Revisiting LSTM Networks for Semi-Supervised Text Classification via
Mixed Objective Function [106.69643619725652]
我々は,単純なBiLSTMモデルであっても,クロスエントロピー損失でトレーニングした場合に,競争的な結果が得られるようなトレーニング戦略を開発する。
いくつかのベンチマークデータセット上で,テキスト分類タスクの最先端結果について報告する。
論文 参考訳(メタデータ) (2020-09-08T21:55:22Z) - Prototypical Contrastive Learning of Unsupervised Representations [171.3046900127166]
原型コントラスト学習(Prototypeal Contrastive Learning, PCL)は、教師なし表現学習法である。
PCLは暗黙的にデータのセマンティック構造を学習された埋め込み空間にエンコードする。
PCLは、複数のベンチマークで最先端のインスタンスワイド・コントラスト学習法より優れている。
論文 参考訳(メタデータ) (2020-05-11T09:53:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。