論文の概要: Mitigating Data Sparsity for Short Text Topic Modeling by Topic-Semantic
Contrastive Learning
- arxiv url: http://arxiv.org/abs/2211.12878v1
- Date: Wed, 23 Nov 2022 11:33:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 15:06:25.330137
- Title: Mitigating Data Sparsity for Short Text Topic Modeling by Topic-Semantic
Contrastive Learning
- Title(参考訳): トピック・セマンティクスコントラスト学習による短文トピックモデリングのためのデータスパーシティの軽減
- Authors: Xiaobao Wu, Anh Tuan Luu, Xinshuai Dong
- Abstract要約: トピック・セマンティック・コントラスト・トピック・モデル(TSCTM)を提案する。
我々のTSCTMは、データ拡張の可用性に関わらず最先端のベースラインを上回り、高品質なトピックやトピックの分布を生成します。
- 参考スコア(独自算出の注目度): 19.7066703371736
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To overcome the data sparsity issue in short text topic modeling, existing
methods commonly rely on data augmentation or the data characteristic of short
texts to introduce more word co-occurrence information. However, most of them
do not make full use of the augmented data or the data characteristic: they
insufficiently learn the relations among samples in data, leading to dissimilar
topic distributions of semantically similar text pairs. To better address data
sparsity, in this paper we propose a novel short text topic modeling framework,
Topic-Semantic Contrastive Topic Model (TSCTM). To sufficiently model the
relations among samples, we employ a new contrastive learning method with
efficient positive and negative sampling strategies based on topic semantics.
This contrastive learning method refines the representations, enriches the
learning signals, and thus mitigates the sparsity issue. Extensive experimental
results show that our TSCTM outperforms state-of-the-art baselines regardless
of the data augmentation availability, producing high-quality topics and topic
distributions.
- Abstract(参考訳): 短文トピックモデリングにおけるデータの分散性問題を解決するため、既存の手法では、単語共起情報を導入するために、データ拡張や短文のデータ特性に依存している。
しかし、それらの多くは、拡張データやデータの特徴をフル活用していない。データ中のサンプル間の関係を不十分に学習し、意味的に類似したテキストペアの異なるトピック分布を生み出す。
データのスパース性を改善するため,本稿では,新しい短文トピックモデリングフレームワークであるトピック・セマンティクス・コントラスト・トピック・モデル(tsctm)を提案する。
サンプル間の関係を十分にモデル化するために,トピックセマンティクスに基づく効率的な正負のサンプリング戦略を用いたコントラスト学習手法を提案する。
この対照的な学習方法は表現を洗練させ、学習信号を豊かにし、余剰問題を緩和する。
総合的な実験結果から,TSCTMはデータ拡張の可利用性に関わらず,最先端のベースラインよりも優れ,高品質なトピックやトピックの分布が得られている。
関連論文リスト
- Enhancing Short-Text Topic Modeling with LLM-Driven Context Expansion and Prefix-Tuned VAEs [25.915607750636333]
本稿では,大規模言語モデル(LLM)を利用して,トピックモデリングを適用する前に,短いテキストをより詳細なシーケンスに拡張する手法を提案する。
提案手法は,データ空間が極端である実世界のデータセットに対する広範な実験により,短文のトピックモデリング性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-10-04T01:28:56Z) - Detection and Measurement of Syntactic Templates in Generated Text [58.111650675717414]
モデルにおける一般的な反復を特徴付けるための構文的特徴の解析を行う。
モデルでは、下流のタスクにおいて、人間の参照テキストよりも高いレートでテンプレートテキストを生成する傾向にある。
論文 参考訳(メタデータ) (2024-06-28T19:34:23Z) - Factual Dialogue Summarization via Learning from Large Language Models [35.63037083806503]
大規模言語モデル(LLM)に基づく自動テキスト要約モデルは、より現実的に一貫した要約を生成する。
ゼロショット学習を用いて、LLMから記号的知識を抽出し、事実整合性(正)および矛盾性(負)の要約を生成する。
各種自動評価指標で確認したように,コヒーレンス,フラレンシ,関連性を保ちながら,より優れた事実整合性を実現する。
論文 参考訳(メタデータ) (2024-06-20T20:03:37Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Enhanced Short Text Modeling: Leveraging Large Language Models for Topic Refinement [7.6115889231452964]
トピックリファインメント(Topic Refinement)と呼ばれる新しいアプローチを導入する。
このアプローチは、トピックの初期のモデリングに直接関係せず、採掘後にトピックを改善することに重点を置いています。
素早いエンジニアリングを駆使して、所与のトピック内での話題外単語を排除し、文脈的に関係のある単語だけが、よりセマンティックに適合した単語で保存または置換されることを保証する。
論文 参考訳(メタデータ) (2024-03-26T13:50:34Z) - Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。
我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。
実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-31T02:13:18Z) - How Well Do Text Embedding Models Understand Syntax? [50.440590035493074]
テキスト埋め込みモデルが幅広い構文的文脈にまたがって一般化する能力は、まだ解明されていない。
その結果,既存のテキスト埋め込みモデルは,これらの構文的理解課題に十分対応していないことが明らかとなった。
多様な構文シナリオにおけるテキスト埋め込みモデルの一般化能力を高めるための戦略を提案する。
論文 参考訳(メタデータ) (2023-11-14T08:51:00Z) - Let the Pretrained Language Models "Imagine" for Short Texts Topic
Modeling [29.87929724277381]
短いテキストでは、共起情報は最小限であり、結果として文書表現の特徴が分散する。
既存のトピックモデル(確率的あるいは神経的)は、ほとんどの場合、一貫性のあるトピックを生成するためにパターンのマイニングに失敗します。
既存の事前学習言語モデル(PLM)を用いて、短いテキストを長いシーケンスに拡張する。
論文 参考訳(メタデータ) (2023-10-24T00:23:30Z) - Few-shot Text Classification with Dual Contrastive Consistency [31.141350717029358]
本稿では,事前学習した言語モデルを用いて,数ショットのテキスト分類を行う方法について検討する。
ラベル付きデータが少ない場合の教師付きコントラスト学習と、ラベルなしデータの一貫性と規則化を採用する。
論文 参考訳(メタデータ) (2022-09-29T19:26:23Z) - ConvoSumm: Conversation Summarization Benchmark and Improved Abstractive
Summarization with Argument Mining [61.82562838486632]
我々は、さまざまなオンライン会話形式のニュースコメント、ディスカッションフォーラム、コミュニティ質問応答フォーラム、電子メールスレッドに関する4つの新しいデータセットをクラウドソースする。
我々は、データセットの最先端モデルをベンチマークし、データに関連する特徴を分析します。
論文 参考訳(メタデータ) (2021-06-01T22:17:13Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。