論文の概要: BERTopic: Neural topic modeling with a class-based TF-IDF procedure
- arxiv url: http://arxiv.org/abs/2203.05794v1
- Date: Fri, 11 Mar 2022 08:35:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-14 13:14:49.369144
- Title: BERTopic: Neural topic modeling with a class-based TF-IDF procedure
- Title(参考訳): BERTopic:クラスベースTF-IDFプロシージャを用いたニューラルトピックモデリング
- Authors: Maarten Grootendorst
- Abstract要約: 本稿では,クラスタリングタスクとしてのアプローチトピックモデリングの実現可能性を拡張するトピックモデルであるBERTopicを紹介する。
BERTopicはコヒーレントなトピックを生成し、古典的なモデルを含む様々なベンチマークと、より最近のトピックモデリングのクラスタリングアプローチに従うベンチマークで競争力を維持している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Topic models can be useful tools to discover latent topics in collections of
documents. Recent studies have shown the feasibility of approach topic modeling
as a clustering task. We present BERTopic, a topic model that extends this
process by extracting coherent topic representation through the development of
a class-based variation of TF-IDF. More specifically, BERTopic generates
document embedding with pre-trained transformer-based language models, clusters
these embeddings, and finally, generates topic representations with the
class-based TF-IDF procedure. BERTopic generates coherent topics and remains
competitive across a variety of benchmarks involving classical models and those
that follow the more recent clustering approach of topic modeling.
- Abstract(参考訳): トピックモデルは、ドキュメントコレクション内の潜在トピックを発見するのに有用なツールである。
近年の研究では、クラスタリングタスクとしてのアプローチトピックモデリングの実現可能性を示している。
本稿では,TF-IDFのクラスベースのバリエーションの開発を通じて,コヒーレントなトピック表現を抽出することにより,このプロセスを拡張するトピックモデルであるBERTopicを提案する。
具体的には、BERTopicは、事前訓練されたトランスフォーマーベースの言語モデルで文書埋め込みを生成し、これらの埋め込みをクラスタ化し、最後に、クラスベースのTF-IDFプロシージャでトピック表現を生成する。
BERTopicはコヒーレントなトピックを生成し、古典的なモデルを含む様々なベンチマークと、より最近のトピックモデリングのクラスタリングアプローチに従うベンチマークで競争力を維持している。
関連論文リスト
- Semantic-Driven Topic Modeling Using Transformer-Based Embeddings and Clustering Algorithms [6.349503549199403]
本研究は,トピック抽出プロセスのための革新的エンド・ツー・エンドのセマンティクス駆動トピックモデリング手法を提案する。
本モデルは,事前学習したトランスフォーマーベース言語モデルを用いて文書埋め込みを生成する。
ChatGPTや従来のトピックモデリングアルゴリズムと比較して、我々のモデルはより一貫性があり有意義なトピックを提供する。
論文 参考訳(メタデータ) (2024-09-30T18:15:31Z) - Iterative Improvement of an Additively Regularized Topic Model [0.0]
本稿では,トピックモデルの反復的学習法を提案する。
いくつかの自然言語テキストの収集実験により、提案したITARモデルは、他の人気のあるトピックモデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-08-11T18:22:12Z) - Interactive Topic Models with Optimal Transport [75.26555710661908]
ラベル名監視型トピックモデリングのためのアプローチとして,EdTMを提案する。
EdTMは、LM/LLMベースのドキュメントトピック親和性を活用しながら、代入問題としてのトピックモデリングをモデル化する。
論文 参考訳(メタデータ) (2024-06-28T13:57:27Z) - Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。
逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。
我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文 参考訳(メタデータ) (2024-06-19T08:07:14Z) - GINopic: Topic Modeling with Graph Isomorphism Network [0.8962460460173959]
本稿では,グラフ同型ネットワークに基づく話題モデリングフレームワークGINopicを紹介し,単語間の相関関係を捉える。
本稿では,既存のトピックモデルと比較してGINopicの有効性を実証し,トピックモデリングの進歩の可能性を明らかにする。
論文 参考訳(メタデータ) (2024-04-02T17:18:48Z) - Controllable Topic-Focused Abstractive Summarization [57.8015120583044]
制御された抽象的な要約は、特定の側面をカバーするために、ソース記事の凝縮したバージョンを作成することに焦点を当てる。
本稿では,トピックに着目した要約を生成可能なトランスフォーマーアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-11-12T03:51:38Z) - Federated Neural Topic Models [0.0]
フェデレートされたトピックモデリングにより、複数のパーティがデータを共有することなく、共同でトピックモデルをトレーニングできる。
我々は、最先端のニューラルトピックモデリング実装に基づいて、フェデレートされた実装を提案し、分析する。
実際には、我々のアプローチは集中型モデルトレーニングに相当しますが、ノードのプライバシを保持します。
論文 参考訳(メタデータ) (2022-12-05T13:49:26Z) - Knowledge-Aware Bayesian Deep Topic Model [50.58975785318575]
本稿では,事前知識を階層型トピックモデリングに組み込むベイズ生成モデルを提案する。
提案モデルでは,事前知識を効率的に統合し,階層的なトピック発見と文書表現の両面を改善する。
論文 参考訳(メタデータ) (2022-09-20T09:16:05Z) - Improving Neural Topic Models using Knowledge Distillation [84.66983329587073]
我々は,確率論的トピックモデルと事前学習されたトランスフォーマーの最適属性を組み合わせるために,知識蒸留を用いる。
我々のモジュラー手法は、どのニューラルトピックモデルでも簡単に適用でき、トピックの品質を向上させることができる。
論文 参考訳(メタデータ) (2020-10-05T22:49:16Z) - Neural Topic Modeling with Cycle-Consistent Adversarial Training [17.47328718035538]
本稿では, 周期整合適応訓練(ToMCAT)によるトピックモデリングとその教師付きバージョン sToMCAT を提案する。
ToMCATは、トピックを解釈するジェネレータネットワークと、ドキュメントトピックを推論するエンコーダネットワークを使用している。
SToMCATはトピックモデリングプロセスにドキュメントラベルを組み込むことでToMCATを拡張し、より一貫性のあるトピックの発見を支援する。
論文 参考訳(メタデータ) (2020-09-29T12:41:27Z) - Topic Adaptation and Prototype Encoding for Few-Shot Visual Storytelling [81.33107307509718]
トピック間一般化の能力をモデル化するためのトピック適応型ストーリーテラを提案する。
また,アトピー内導出能力のモデル化を目的とした符号化手法の試作も提案する。
実験結果から,トピック適応とプロトタイプ符号化構造が相互に利益をもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2020-08-11T03:55:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。