論文の概要: Efficient and Flexible Topic Modeling using Pretrained Embeddings and
Bag of Sentences
- arxiv url: http://arxiv.org/abs/2302.03106v3
- Date: Sat, 10 Feb 2024 17:45:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 01:16:11.313098
- Title: Efficient and Flexible Topic Modeling using Pretrained Embeddings and
Bag of Sentences
- Title(参考訳): 事前学習した埋め込みと文の袋を用いた効率的かつ柔軟なトピックモデリング
- Authors: Johannes Schneider
- Abstract要約: 本稿では,新しいトピックモデリングと推論アルゴリズムを提案する。
我々は,生成過程モデルとクラスタリングを組み合わせることで,事前学習文の埋め込みを活用する。
The Tailor の評価は,本手法が比較的少ない計算要求で最先端の成果をもたらすことを示している。
- 参考スコア(独自算出の注目度): 1.8592384822257952
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained language models have led to a new state-of-the-art in many NLP
tasks. However, for topic modeling, statistical generative models such as LDA
are still prevalent, which do not easily allow incorporating contextual word
vectors. They might yield topics that do not align well with human judgment. In
this work, we propose a novel topic modeling and inference algorithm. We
suggest a bag of sentences (BoS) approach using sentences as the unit of
analysis. We leverage pre-trained sentence embeddings by combining generative
process models and clustering. We derive a fast inference algorithm based on
expectation maximization, hard assignments, and an annealing process. The
evaluation shows that our method yields state-of-the art results with
relatively little computational demands. Our method is also more flexible
compared to prior works leveraging word embeddings, since it provides the
possibility to customize topic-document distributions using priors. Code and
data is at \url{https://github.com/JohnTailor/BertSenClu}.
- Abstract(参考訳): 事前訓練された言語モデルは、多くのNLPタスクにおいて新しい最先端技術をもたらした。
しかし、トピックモデリングでは、LDAのような統計的生成モデルがまだ一般的であり、文脈的単語ベクトルを容易に組み込むことはできない。
人間の判断に合致しない話題を産み出すかもしれない。
本研究では,新しいトピックモデリングと推論アルゴリズムを提案する。
分析単位として文を用いた文の袋(bos)アプローチを提案する。
我々は,生成過程モデルとクラスタリングを組み合わせることで,事前学習文の埋め込みを活用する。
我々は、期待最大化、ハード割り当て、アニーリングプロセスに基づく高速な推論アルゴリズムを導出する。
評価の結果,本手法は比較的少ない計算要求で最先端の成果が得られることがわかった。
提案手法は,先行手法を用いてトピック文書分布をカスタマイズできるので,単語埋め込みを利用した先行手法よりも柔軟である。
コードとデータは \url{https://github.com/John Tailor/BertSenClu} にある。
関連論文リスト
- Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - Show Me How To Revise: Improving Lexically Constrained Sentence
Generation with XLNet [27.567493727582736]
本稿では,制約文生成のための2段階の手法"Predict and Revise"を提案する。
予測段階において、我々は分類器を利用して、候補文の学習前を計算した。
修正作業では, MCMCサンプリングを用いて, 学習前から抽出したサンプル位置でサンプル動作を行うことにより, 候補文の修正を行った。
実験結果から,提案手法は文の流布度や多様性の観点から,従来よりもはるかに優れた性能を示した。
論文 参考訳(メタデータ) (2021-09-13T09:21:07Z) - A New Sentence Ordering Method Using BERT Pretrained Model [2.1793134762413433]
本稿では,訓練段階を必要とせず,学習のための大きなコーパスを必要とする文順序付け手法を提案する。
提案手法は,5文ストーリーのコーパスであるROCStoriesの他のベースラインよりも優れていた。
この方法の他の利点の1つは、言語知識に対する解釈可能性と不要性である。
論文 参考訳(メタデータ) (2021-08-26T18:47:15Z) - Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods
in Natural Language Processing [78.8500633981247]
本稿では,自然言語処理における新たなパラダイムにおける研究成果の探索と整理を行う。
入力xを取り込んで出力yをP(y|x)として予測するようにモデルを訓練する従来の教師付き学習とは異なり、プロンプトベースの学習は直接テキストの確率をモデル化する言語モデルに基づいている。
論文 参考訳(メタデータ) (2021-07-28T18:09:46Z) - Few-shot Learning for Topic Modeling [39.56814839510978]
本稿では,少数の文書からトピックモデルを学習可能なニューラルネットワークによる数ショット学習手法を提案する。
提案手法は3つの実世界のテキスト文書集合を用いて既存の手法よりも高いパープレキシティを実現する。
論文 参考訳(メタデータ) (2021-04-19T01:56:48Z) - Multiple Word Embeddings for Increased Diversity of Representation [15.279850826041066]
本稿では,実行時間の増加を無視できるような,強いベースライン上での性能を実質的に一貫的に向上させる手法を示す。
我々は、事前学習した埋め込み類似性と語彙被覆の側面を分析し、表現多様性がなぜこの技術が機能するかの原動力であることを見出した。
論文 参考訳(メタデータ) (2020-09-30T02:33:09Z) - Toward Better Storylines with Sentence-Level Language Models [54.91921545103256]
本稿では,文章中の次の文を選択する文レベル言語モデルを提案する。
教師なしストーリークローゼタスクにおける最先端の精度によるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2020-05-11T16:54:19Z) - Tired of Topic Models? Clusters of Pretrained Word Embeddings Make for
Fast and Good Topics too! [5.819224524813161]
事前学習した単語の埋め込みをクラスタリングし、重み付けされたクラスタリングと上位単語の再ランク付けのための文書情報を組み込んだ別の方法を提案する。
このアプローチの最も優れた組み合わせは、従来のトピックモデルと同様に機能するが、ランタイムと計算の複雑さは低い。
論文 参考訳(メタデータ) (2020-04-30T16:18:18Z) - Pre-training for Abstractive Document Summarization by Reinstating
Source Text [105.77348528847337]
本稿では,Seq2Seqに基づく非ラベルテキストによる抽象要約モデルの事前学習を可能にする3つの事前学習目標を提案する。
2つのベンチマーク要約データセットの実験では、3つの目的がすべてベースラインでパフォーマンスを向上させることが示されている。
論文 参考訳(メタデータ) (2020-04-04T05:06:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。