論文の概要: UCTopic: Unsupervised Contrastive Learning for Phrase Representations
and Topic Mining
- arxiv url: http://arxiv.org/abs/2202.13469v1
- Date: Sun, 27 Feb 2022 22:43:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-01 14:27:41.825040
- Title: UCTopic: Unsupervised Contrastive Learning for Phrase Representations
and Topic Mining
- Title(参考訳): UCTopic: フレーズ表現とトピックマイニングのための教師なしコントラスト学習
- Authors: Jiacheng Li, Jingbo Shang, Julian McAuley
- Abstract要約: UCTopicは、文脈対応のフレーズ表現とトピックマイニングのための、教師なしのコントラスト学習フレームワークである。
2つの句の文脈が同じ意味を持つかどうかを区別するために、大規模に事前訓練されている。
4つのエンティティクラスタリングタスクにおいて、最先端のフレーズ表現モデルを平均38.2%NMIで上回る。
- 参考スコア(独自算出の注目度): 27.808028645942827
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-quality phrase representations are essential to finding topics and
related terms in documents (a.k.a. topic mining). Existing phrase
representation learning methods either simply combine unigram representations
in a context-free manner or rely on extensive annotations to learn
context-aware knowledge. In this paper, we propose UCTopic, a novel
unsupervised contrastive learning framework for context-aware phrase
representations and topic mining. UCTopic is pretrained in a large scale to
distinguish if the contexts of two phrase mentions have the same semantics. The
key to pretraining is positive pair construction from our phrase-oriented
assumptions. However, we find traditional in-batch negatives cause performance
decay when finetuning on a dataset with small topic numbers. Hence, we propose
cluster-assisted contrastive learning(CCL) which largely reduces noisy
negatives by selecting negatives from clusters and further improves phrase
representations for topics accordingly. UCTopic outperforms the
state-of-the-art phrase representation model by 38.2% NMI in average on four
entity cluster-ing tasks. Comprehensive evaluation on topic mining shows that
UCTopic can extract coherent and diverse topical phrases.
- Abstract(参考訳): 高品質なフレーズ表現は文書中の話題や関連用語(トピックマイニング)を見つけるのに不可欠である。
既存のフレーズ表現学習法は、文脈自由な方法でユニグラム表現を組み合わせるか、文脈認識の知識を学ぶために広範囲なアノテーションに依存する。
本稿では,文脈対応語句表現とトピックマイニングのための新しい教師なしコントラスト学習フレームワークUCTopicを提案する。
UCTopicは2つのフレーズの文脈が同じ意味を持つかどうかを区別するために、大規模に事前訓練されている。
事前学習の鍵は、句指向の仮定から正のペア構成です。
しかし、従来のバッチ内負は、小さなトピック番号のデータセットを微調整するとパフォーマンスが低下する。
そこで本研究では,クラスタから陰性を選択することにより,ノイズの低減に大きく寄与するクラスタ支援コントラスト学習(CCL)を提案する。
UCTopicは、4つのエンティティクラスタリングタスクで平均38.2%のNMIで最先端の表現モデルを上回っている。
トピックマイニングの包括的評価は、uctopicがコヒーレントで多様なトピック句を抽出することができることを示している。
関連論文リスト
- GroupContrast: Semantic-aware Self-supervised Representation Learning for 3D Understanding [66.5538429726564]
自己教師付き3D表現学習は、大規模未ラベルの点群から効果的な表現を学習することを目的としている。
本稿では,セグメンテーションとセマンティック・アウェア・コントラッシブ・ラーニングを組み合わせた新しいアプローチであるGroupContrastを提案する。
論文 参考訳(メタデータ) (2024-03-14T17:59:59Z) - Vocabulary-Defined Semantics: Latent Space Clustering for Improving In-Context Learning [32.178931149612644]
コンテキスト内学習により、言語モデルは下流のデータに適応したり、プロンプト内のデモとして少数のサンプルでタスクを組み込むことができる。
しかし、文脈内学習のパフォーマンスは、実演の質、形式、順序によって不安定である可能性がある。
語彙定義意味論(vocabulary-defined semantics)を提案する。
論文 参考訳(メタデータ) (2024-01-29T14:29:48Z) - DenoSent: A Denoising Objective for Self-Supervised Sentence
Representation Learning [59.4644086610381]
本稿では,他の視点,すなわち文内視点から継承する新たな認知的目的を提案する。
離散ノイズと連続ノイズの両方を導入することで、ノイズの多い文を生成し、モデルを元の形式に復元するように訓練する。
我々の経験的評価は,本手法が意味的テキスト類似性(STS)と幅広い伝達タスクの両面で競合する結果をもたらすことを示した。
論文 参考訳(メタデータ) (2024-01-24T17:48:45Z) - RankCSE: Unsupervised Sentence Representations Learning via Learning to
Rank [54.854714257687334]
本稿では,教師なし文表現学習のための新しい手法であるRangCSEを提案する。
コントラスト学習を伴うランキング一貫性とランキング蒸留を統一された枠組みに組み込む。
セマンティックテキスト類似性(STS)と転送タスク(TR)の両方について、広範な実験が実施されている。
論文 参考訳(メタデータ) (2023-05-26T08:27:07Z) - Clustering-Aware Negative Sampling for Unsupervised Sentence
Representation [24.15096466098421]
ClusterNSは、教師なし文表現学習のためのコントラスト学習にクラスタ情報を組み込む新しい手法である。
修正K平均クラスタリングアルゴリズムを用いて、ハードネガティブを供給し、トレーニング中にバッチ内偽陰性を認識する。
論文 参考訳(メタデータ) (2023-05-17T02:06:47Z) - Semantic-aware Contrastive Learning for More Accurate Semantic Parsing [32.74456368167872]
そこで本研究では,意味表現の微粒化を学習できる意味認識型コントラスト学習アルゴリズムを提案する。
2つの標準データセットの実験により、我々の手法はMLEベースラインよりも大幅に改善されていることが示された。
論文 参考訳(メタデータ) (2023-01-19T07:04:32Z) - Sentence Representation Learning with Generative Objective rather than
Contrastive Objective [86.01683892956144]
句再構成に基づく新たな自己教師型学習目標を提案する。
我々の生成学習は、十分な性能向上を達成し、現在の最先端のコントラスト法よりも優れています。
論文 参考訳(メタデータ) (2022-10-16T07:47:46Z) - MGIMN: Multi-Grained Interactive Matching Network for Few-shot Text
Classification [9.9875634964736]
テキスト分類は、クラスごとにラベル付きテキストインスタンスがほとんどない、目に見えないクラスに一般化するのに苦労する。
本稿では,メタラーニングに基づくMGIMNを提案する。
論文 参考訳(メタデータ) (2022-04-11T08:58:55Z) - Self-Supervised Learning Disentangled Group Representation as Feature [82.07737719232972]
既存の自己監督学習(SSL)は、回転や着色などの単純な拡張機能のみを分解することを示す。
反復的分割に基づく不変リスク最小化(IP-IRM)を提案する。
我々は、IP-IRMが完全に不整合表現に収束し、様々なベンチマークでその効果を示すことを証明した。
論文 参考訳(メタデータ) (2021-10-28T16:12:33Z) - On the Interplay Between Fine-tuning and Composition in Transformers [7.513100214864645]
本研究では,微調整が文脈的埋め込み能力に及ぼす影響について検討する。
具体的には、語彙重なりの大きい逆パラフレーズ分類タスクと感情分類タスクを微調整する。
微調整はこれらの表現における構成性の恩恵をほとんど得られないが、感情に関するトレーニングは特定のモデルに対して小さな局所的な利益をもたらす。
論文 参考訳(メタデータ) (2021-05-31T01:49:56Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。