論文の概要: BERTopic: Neural topic modeling with a class-based TF-IDF procedure
- arxiv url: http://arxiv.org/abs/2203.05794v1
- Date: Fri, 11 Mar 2022 08:35:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-14 13:14:49.369144
- Title: BERTopic: Neural topic modeling with a class-based TF-IDF procedure
- Title(参考訳): BERTopic:クラスベースTF-IDFプロシージャを用いたニューラルトピックモデリング
- Authors: Maarten Grootendorst
- Abstract要約: 本稿では,クラスタリングタスクとしてのアプローチトピックモデリングの実現可能性を拡張するトピックモデルであるBERTopicを紹介する。
BERTopicはコヒーレントなトピックを生成し、古典的なモデルを含む様々なベンチマークと、より最近のトピックモデリングのクラスタリングアプローチに従うベンチマークで競争力を維持している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Topic models can be useful tools to discover latent topics in collections of
documents. Recent studies have shown the feasibility of approach topic modeling
as a clustering task. We present BERTopic, a topic model that extends this
process by extracting coherent topic representation through the development of
a class-based variation of TF-IDF. More specifically, BERTopic generates
document embedding with pre-trained transformer-based language models, clusters
these embeddings, and finally, generates topic representations with the
class-based TF-IDF procedure. BERTopic generates coherent topics and remains
competitive across a variety of benchmarks involving classical models and those
that follow the more recent clustering approach of topic modeling.
- Abstract(参考訳): トピックモデルは、ドキュメントコレクション内の潜在トピックを発見するのに有用なツールである。
近年の研究では、クラスタリングタスクとしてのアプローチトピックモデリングの実現可能性を示している。
本稿では,TF-IDFのクラスベースのバリエーションの開発を通じて,コヒーレントなトピック表現を抽出することにより,このプロセスを拡張するトピックモデルであるBERTopicを提案する。
具体的には、BERTopicは、事前訓練されたトランスフォーマーベースの言語モデルで文書埋め込みを生成し、これらの埋め込みをクラスタ化し、最後に、クラスベースのTF-IDFプロシージャでトピック表現を生成する。
BERTopicはコヒーレントなトピックを生成し、古典的なモデルを含む様々なベンチマークと、より最近のトピックモデリングのクラスタリングアプローチに従うベンチマークで競争力を維持している。
関連論文リスト
- Controllable Topic-Focused Abstractive Summarization [57.8015120583044]
制御された抽象的な要約は、特定の側面をカバーするために、ソース記事の凝縮したバージョンを作成することに焦点を当てる。
本稿では,トピックに着目した要約を生成可能なトランスフォーマーアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-11-12T03:51:38Z) - MPTopic: Improving topic modeling via Masked Permuted pre-training [0.0]
本稿では,TF-RDF の洞察を生かしたクラスタリングアルゴリズム MPTopic を提案する。
MPTopicとTF-RDFの相乗効果で識別されたトピックキーワードはBERTopicとTop2Vecで抽出されたキーワードよりも優れていることは明らかである。
論文 参考訳(メタデータ) (2023-09-02T20:38:58Z) - ANTM: An Aligned Neural Topic Model for Exploring Evolving Topics [1.854328133293073]
本稿では、アラインドニューラルトピックモデル(ANTM)と呼ばれる動的トピックモデルのアルゴリズム系を提案する。
ANTMは、新しいデータマイニングアルゴリズムを組み合わせて、進化するトピックを発見するためのモジュラーフレームワークを提供する。
Pythonパッケージは、大規模テキストデータにおけるトピックのトレンドと進化パターンを研究したい研究者や科学者のために開発されている。
論文 参考訳(メタデータ) (2023-02-03T02:31:12Z) - Topics in Contextualised Attention Embeddings [7.6650522284905565]
最近の研究で、言語モデルから単語レベルの文脈表現をクラスタ化することは、潜在ディリクレ割当から単語の潜在トピックで見つかる単語クラスタをエミュレートすることを示した。
重要な疑問は、潜在トピックをモデル化するように明示的に設計されていない言語モデルにおいて、そのような話題の単語クラスタが、クラスタリングを通じてどのように自動的に形成されるかである。
BERT と DistilBERT を用いて,このような話題クラスタをモデル化する上で,アテンションフレームワークが重要な役割を担っていることがわかった。
論文 参考訳(メタデータ) (2023-01-11T07:26:19Z) - Federated Neural Topic Models [0.0]
フェデレートされたトピックモデリングにより、複数のパーティがデータを共有することなく、共同でトピックモデルをトレーニングできる。
我々は、最先端のニューラルトピックモデリング実装に基づいて、フェデレートされた実装を提案し、分析する。
実際には、我々のアプローチは集中型モデルトレーニングに相当しますが、ノードのプライバシを保持します。
論文 参考訳(メタデータ) (2022-12-05T13:49:26Z) - Knowledge-Aware Bayesian Deep Topic Model [50.58975785318575]
本稿では,事前知識を階層型トピックモデリングに組み込むベイズ生成モデルを提案する。
提案モデルでは,事前知識を効率的に統合し,階層的なトピック発見と文書表現の両面を改善する。
論文 参考訳(メタデータ) (2022-09-20T09:16:05Z) - Language Model Cascades [72.18809575261498]
テスト時に1つのモデルで繰り返し対話する、あるいは複数のモデルの合成は、さらに機能を拡張する。
制御フローと動的構造を持つ場合、確率的プログラミングのテクニックが必要となる。
この観点から、スクラッチパッド/思考連鎖、検証器、STaR、選択推論、ツール利用など、いくつかの既存のテクニックを定式化します。
論文 参考訳(メタデータ) (2022-07-21T07:35:18Z) - Improving Neural Topic Models using Knowledge Distillation [84.66983329587073]
我々は,確率論的トピックモデルと事前学習されたトランスフォーマーの最適属性を組み合わせるために,知識蒸留を用いる。
我々のモジュラー手法は、どのニューラルトピックモデルでも簡単に適用でき、トピックの品質を向上させることができる。
論文 参考訳(メタデータ) (2020-10-05T22:49:16Z) - Neural Topic Modeling with Cycle-Consistent Adversarial Training [17.47328718035538]
本稿では, 周期整合適応訓練(ToMCAT)によるトピックモデリングとその教師付きバージョン sToMCAT を提案する。
ToMCATは、トピックを解釈するジェネレータネットワークと、ドキュメントトピックを推論するエンコーダネットワークを使用している。
SToMCATはトピックモデリングプロセスにドキュメントラベルを組み込むことでToMCATを拡張し、より一貫性のあるトピックの発見を支援する。
論文 参考訳(メタデータ) (2020-09-29T12:41:27Z) - Modeling Topical Relevance for Multi-Turn Dialogue Generation [61.87165077442267]
マルチターン対話におけるトピックドリフト問題に対処する新しいモデルSTAR-BTMを提案する。
バイラルトピックモデルは、トレーニングデータセット全体に基づいて事前トレーニングされ、各コンテキストのトピック表現に基づいてトピックレベルの注意重みが計算される。
中国における顧客サービスデータと英語Ubuntuの対話データの両方の実験結果から、STAR-BTMは最先端の手法を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2020-09-27T03:33:22Z) - Topic Adaptation and Prototype Encoding for Few-Shot Visual Storytelling [81.33107307509718]
トピック間一般化の能力をモデル化するためのトピック適応型ストーリーテラを提案する。
また,アトピー内導出能力のモデル化を目的とした符号化手法の試作も提案する。
実験結果から,トピック適応とプロトタイプ符号化構造が相互に利益をもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2020-08-11T03:55:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。