論文の概要: Mitigating Data Sparsity for Short Text Topic Modeling by Topic-Semantic
Contrastive Learning
- arxiv url: http://arxiv.org/abs/2211.12878v1
- Date: Wed, 23 Nov 2022 11:33:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 15:06:25.330137
- Title: Mitigating Data Sparsity for Short Text Topic Modeling by Topic-Semantic
Contrastive Learning
- Title(参考訳): トピック・セマンティクスコントラスト学習による短文トピックモデリングのためのデータスパーシティの軽減
- Authors: Xiaobao Wu, Anh Tuan Luu, Xinshuai Dong
- Abstract要約: トピック・セマンティック・コントラスト・トピック・モデル(TSCTM)を提案する。
我々のTSCTMは、データ拡張の可用性に関わらず最先端のベースラインを上回り、高品質なトピックやトピックの分布を生成します。
- 参考スコア(独自算出の注目度): 19.7066703371736
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To overcome the data sparsity issue in short text topic modeling, existing
methods commonly rely on data augmentation or the data characteristic of short
texts to introduce more word co-occurrence information. However, most of them
do not make full use of the augmented data or the data characteristic: they
insufficiently learn the relations among samples in data, leading to dissimilar
topic distributions of semantically similar text pairs. To better address data
sparsity, in this paper we propose a novel short text topic modeling framework,
Topic-Semantic Contrastive Topic Model (TSCTM). To sufficiently model the
relations among samples, we employ a new contrastive learning method with
efficient positive and negative sampling strategies based on topic semantics.
This contrastive learning method refines the representations, enriches the
learning signals, and thus mitigates the sparsity issue. Extensive experimental
results show that our TSCTM outperforms state-of-the-art baselines regardless
of the data augmentation availability, producing high-quality topics and topic
distributions.
- Abstract(参考訳): 短文トピックモデリングにおけるデータの分散性問題を解決するため、既存の手法では、単語共起情報を導入するために、データ拡張や短文のデータ特性に依存している。
しかし、それらの多くは、拡張データやデータの特徴をフル活用していない。データ中のサンプル間の関係を不十分に学習し、意味的に類似したテキストペアの異なるトピック分布を生み出す。
データのスパース性を改善するため,本稿では,新しい短文トピックモデリングフレームワークであるトピック・セマンティクス・コントラスト・トピック・モデル(tsctm)を提案する。
サンプル間の関係を十分にモデル化するために,トピックセマンティクスに基づく効率的な正負のサンプリング戦略を用いたコントラスト学習手法を提案する。
この対照的な学習方法は表現を洗練させ、学習信号を豊かにし、余剰問題を緩和する。
総合的な実験結果から,TSCTMはデータ拡張の可利用性に関わらず,最先端のベースラインよりも優れ,高品質なトピックやトピックの分布が得られている。
関連論文リスト
- How Well Do Text Embedding Models Understand Syntax? [50.440590035493074]
テキスト埋め込みモデルが幅広い構文的文脈にまたがって一般化する能力は、まだ解明されていない。
その結果,既存のテキスト埋め込みモデルは,これらの構文的理解課題に十分対応していないことが明らかとなった。
多様な構文シナリオにおけるテキスト埋め込みモデルの一般化能力を高めるための戦略を提案する。
論文 参考訳(メタデータ) (2023-11-14T08:51:00Z) - Let the Pretrained Language Models "Imagine" for Short Texts Topic
Modeling [29.87929724277381]
短いテキストでは、共起情報は最小限であり、結果として文書表現の特徴が分散する。
既存のトピックモデル(確率的あるいは神経的)は、ほとんどの場合、一貫性のあるトピックを生成するためにパターンのマイニングに失敗します。
既存の事前学習言語モデル(PLM)を用いて、短いテキストを長いシーケンスに拡張する。
論文 参考訳(メタデータ) (2023-10-24T00:23:30Z) - Data Augmentations for Improved (Large) Language Model Generalization [17.75815547057179]
本稿では,データの因果構造を知ることによって導かれる反ファクト的データ拡張を用いて,突発的特徴に対する介入をシミュレートすることを提案する。
この戦略は,ラベルが属性と突発的に相関しているような予測問題に適していることを示す。
論文 参考訳(メタデータ) (2023-10-19T14:59:25Z) - Semantic-Aware Contrastive Sentence Representation Learning with Large
Language Models [64.348539675761]
本稿では,セマンティック・アウェア・コントラッシブな文表現フレームワークであるSemCSRを提案する。
大規模言語モデル(LLM)の生成と評価機能を利用することで,高品質なNLI型コーパスを自動構築する。
論文 参考訳(メタデータ) (2023-10-17T03:21:43Z) - Enhancing Argument Structure Extraction with Efficient Leverage of
Contextual Information [79.06082391992545]
本稿では,コンテキスト情報を完全に活用する効率的なコンテキスト認識モデル(ECASE)を提案する。
文脈情報や議論情報を集約するために,シーケンスアテンションモジュールと距離重み付き類似度損失を導入する。
各種ドメインの5つのデータセットに対する実験により,我々のモデルが最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2023-10-08T08:47:10Z) - LM-CPPF: Paraphrasing-Guided Data Augmentation for Contrastive
Prompt-Based Few-Shot Fine-Tuning [7.543506531838883]
本稿では,言語モデルの微調整手法であるLM-CPPFを提案する。
複数のテキスト分類ベンチマーク実験により, この拡張法が他の手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-05-29T15:59:51Z) - Few-shot Text Classification with Dual Contrastive Consistency [31.141350717029358]
本稿では,事前学習した言語モデルを用いて,数ショットのテキスト分類を行う方法について検討する。
ラベル付きデータが少ない場合の教師付きコントラスト学習と、ラベルなしデータの一貫性と規則化を採用する。
論文 参考訳(メタデータ) (2022-09-29T19:26:23Z) - SAIS: Supervising and Augmenting Intermediate Steps for Document-Level
Relation Extraction [51.27558374091491]
本稿では,関係抽出のための中間ステップ(SAIS)を監督し,拡張することにより,関連コンテキストやエンティティタイプをキャプチャするモデルを明示的に教えることを提案する。
そこで本提案手法は,より効果的な管理を行うため,より優れた品質の関係を抽出するだけでなく,それに対応する証拠をより正確に抽出する。
論文 参考訳(メタデータ) (2021-09-24T17:37:35Z) - ConvoSumm: Conversation Summarization Benchmark and Improved Abstractive
Summarization with Argument Mining [61.82562838486632]
我々は、さまざまなオンライン会話形式のニュースコメント、ディスカッションフォーラム、コミュニティ質問応答フォーラム、電子メールスレッドに関する4つの新しいデータセットをクラウドソースする。
我々は、データセットの最先端モデルをベンチマークし、データに関連する特徴を分析します。
論文 参考訳(メタデータ) (2021-06-01T22:17:13Z) - GPT3Mix: Leveraging Large-scale Language Models for Text Augmentation [9.501648136713694]
GPT-3のような大規模言語モデルは優れた数ショット学習者であり、自然なテキストプロンプトで制御できる。
本稿では,大規模言語モデルを用いて現実的なテキストサンプルを生成する新しいデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2021-04-18T11:39:33Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。