論文の概要: Efficient and Flexible Topic Modeling using Pretrained Embeddings and
Bag of Sentences
- arxiv url: http://arxiv.org/abs/2302.03106v1
- Date: Mon, 6 Feb 2023 20:13:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-08 18:23:28.430125
- Title: Efficient and Flexible Topic Modeling using Pretrained Embeddings and
Bag of Sentences
- Title(参考訳): 事前学習した埋め込みと文の袋を用いた効率的かつ柔軟なトピックモデリング
- Authors: Johannes Schneider
- Abstract要約: 本稿では,新しいトピックモデリングと推論アルゴリズムを提案する。
我々は、生成過程モデルとクラスタリングを組み合わせることで、事前学習文の埋め込みを活用する。
評価の結果,本手法は比較的少ない計算要求で最先端の処理結果が得られることがわかった。
- 参考スコア(独自算出の注目度): 2.5991265608180396
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained language models have led to a new state-of-the-art in many NLP
tasks. However, for topic modeling, statistical generative models such as LDA
are still prevalent, which do not easily allow incorporating contextual word
vectors. They might yield topics that do not align very well with human
judgment. In this work, we propose a novel topic modeling and inference
algorithm. We suggest a bag of sentences (BoS) approach using sentences as the
unit of analysis. We leverage pre-trained sentence embeddings by combining
generative process models with clustering. We derive a fast inference algorithm
based on expectation maximization, hard assignments, and an annealing process.
Our evaluation shows that our method yields state-of-the art results with
relatively little computational demands. Our methods is more flexible compared
to prior works leveraging word embeddings, since it provides the possibility to
customize topic-document distributions using priors. Code is at
\url{https://github.com/JohnTailor/BertSenClu}.
- Abstract(参考訳): 事前訓練された言語モデルは、多くのNLPタスクにおいて新しい最先端技術をもたらした。
しかし、トピックモデリングでは、LDAのような統計的生成モデルがまだ一般的であり、文脈的単語ベクトルを容易に組み込むことはできない。
彼らは人間の判断とあまり一致しないトピックを生み出すかもしれない。
本研究では,新しいトピックモデリングと推論アルゴリズムを提案する。
分析単位として文を用いた文の袋(bos)アプローチを提案する。
生成過程モデルとクラスタリングを組み合わせることにより,事前学習文埋め込みを活用する。
我々は、期待最大化、ハード割り当て、アニーリングプロセスに基づく高速な推論アルゴリズムを導出する。
評価の結果,本手法は比較的少ない計算要求で最先端の成果が得られることがわかった。
提案手法は,先行手法を用いてトピック文書分布をカスタマイズできるので,単語埋め込みを利用した先行手法よりも柔軟である。
コードは \url{https://github.com/John Tailor/BertSenClu} にある。
関連論文リスト
- Topic Modeling with Fine-tuning LLMs and Bag of Sentences [1.8592384822257952]
FT-Topicはトピックモデリングのための教師なしの微調整手法である。
SenCluは1つのトピックに対する文群の高速な推測とハードな割り当てを実現する、最先端のトピックモデリング手法である。
論文 参考訳(メタデータ) (2024-08-06T11:04:07Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - Show Me How To Revise: Improving Lexically Constrained Sentence
Generation with XLNet [27.567493727582736]
本稿では,制約文生成のための2段階の手法"Predict and Revise"を提案する。
予測段階において、我々は分類器を利用して、候補文の学習前を計算した。
修正作業では, MCMCサンプリングを用いて, 学習前から抽出したサンプル位置でサンプル動作を行うことにより, 候補文の修正を行った。
実験結果から,提案手法は文の流布度や多様性の観点から,従来よりもはるかに優れた性能を示した。
論文 参考訳(メタデータ) (2021-09-13T09:21:07Z) - A New Sentence Ordering Method Using BERT Pretrained Model [2.1793134762413433]
本稿では,訓練段階を必要とせず,学習のための大きなコーパスを必要とする文順序付け手法を提案する。
提案手法は,5文ストーリーのコーパスであるROCStoriesの他のベースラインよりも優れていた。
この方法の他の利点の1つは、言語知識に対する解釈可能性と不要性である。
論文 参考訳(メタデータ) (2021-08-26T18:47:15Z) - Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods
in Natural Language Processing [78.8500633981247]
本稿では,自然言語処理における新たなパラダイムにおける研究成果の探索と整理を行う。
入力xを取り込んで出力yをP(y|x)として予測するようにモデルを訓練する従来の教師付き学習とは異なり、プロンプトベースの学習は直接テキストの確率をモデル化する言語モデルに基づいている。
論文 参考訳(メタデータ) (2021-07-28T18:09:46Z) - Few-shot Learning for Topic Modeling [39.56814839510978]
本稿では,少数の文書からトピックモデルを学習可能なニューラルネットワークによる数ショット学習手法を提案する。
提案手法は3つの実世界のテキスト文書集合を用いて既存の手法よりも高いパープレキシティを実現する。
論文 参考訳(メタデータ) (2021-04-19T01:56:48Z) - Toward Better Storylines with Sentence-Level Language Models [54.91921545103256]
本稿では,文章中の次の文を選択する文レベル言語モデルを提案する。
教師なしストーリークローゼタスクにおける最先端の精度によるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2020-05-11T16:54:19Z) - Tired of Topic Models? Clusters of Pretrained Word Embeddings Make for
Fast and Good Topics too! [5.819224524813161]
事前学習した単語の埋め込みをクラスタリングし、重み付けされたクラスタリングと上位単語の再ランク付けのための文書情報を組み込んだ別の方法を提案する。
このアプローチの最も優れた組み合わせは、従来のトピックモデルと同様に機能するが、ランタイムと計算の複雑さは低い。
論文 参考訳(メタデータ) (2020-04-30T16:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。