論文の概要: Merging Embedded Topics with Optimal Transport for Online Topic Modeling on Data Streams
- arxiv url: http://arxiv.org/abs/2504.07711v1
- Date: Thu, 10 Apr 2025 13:04:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 12:22:37.023898
- Title: Merging Embedded Topics with Optimal Transport for Online Topic Modeling on Data Streams
- Title(参考訳): データストリーム上のオンライントピックモデリングのための埋め込みトピックと最適トランスポートの融合
- Authors: Federica Granese, Benjamin Navet, Serena Villata, Charles Bouveyron,
- Abstract要約: StreamETMはEmbeded Topic Model (ETM)上に構築され、データストリームを処理する。
オンライン変更点検出アルゴリズムは、時間とともにトピックの変化を特定するために使用される。
シミュレーションおよび実世界のデータに関する数値実験は、StreamETMがライバルより優れていることを示している。
- 参考スコア(独自算出の注目度): 12.239546747355888
- License:
- Abstract: Topic modeling is a key component in unsupervised learning, employed to identify topics within a corpus of textual data. The rapid growth of social media generates an ever-growing volume of textual data daily, making online topic modeling methods essential for managing these data streams that continuously arrive over time. This paper introduces a novel approach to online topic modeling named StreamETM. This approach builds on the Embedded Topic Model (ETM) to handle data streams by merging models learned on consecutive partial document batches using unbalanced optimal transport. Additionally, an online change point detection algorithm is employed to identify shifts in topics over time, enabling the identification of significant changes in the dynamics of text streams. Numerical experiments on simulated and real-world data show StreamETM outperforming competitors.
- Abstract(参考訳): トピックモデリングは教師なし学習において重要な要素であり、テキストデータのコーパス内のトピックを特定するために使用される。
ソーシャルメディアの急速な成長は、日々増え続けるテキストデータを生み出し、これらのデータストリームの管理にオンライントピックモデリング手法が欠かせないようにしている。
本稿では,StreamETMというオンライントピックモデリングに新たなアプローチを提案する。
このアプローチはEmbeded Topic Model(ETM)に基づいて構築され、不均衡な最適なトランスポートを使用して、連続的な部分文書バッチで学んだモデルをマージすることで、データストリームを処理する。
さらに、オンラインの変更点検出アルゴリズムを用いて、時間とともにトピックの変化を識別し、テキストストリームのダイナミックスに大きな変化を識別する。
シミュレーションおよび実世界のデータに関する数値実験は、StreamETMがライバルより優れていることを示している。
関連論文リスト
- Enhancing Short-Text Topic Modeling with LLM-Driven Context Expansion and Prefix-Tuned VAEs [25.915607750636333]
本稿では,大規模言語モデル(LLM)を利用して,トピックモデリングを適用する前に,短いテキストをより詳細なシーケンスに拡張する手法を提案する。
提案手法は,データ空間が極端である実世界のデータセットに対する広範な実験により,短文のトピックモデリング性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-10-04T01:28:56Z) - FASTopic: Pretrained Transformer is a Fast, Adaptive, Stable, and Transferable Topic Model [76.509837704596]
本稿では,高速で適応的で,安定で,移動可能なトピックモデルであるFASTopicを提案する。
我々はDSR(Dual Semantic-Relation Reconstruction)を用いて潜在トピックをモデル化する。
また, セマンティック関係を最適輸送計画として正規化するためのETP(Embedding Transport Plan)を提案する。
論文 参考訳(メタデータ) (2024-05-28T09:06:38Z) - Controllable Topic-Focused Abstractive Summarization [57.8015120583044]
制御された抽象的な要約は、特定の側面をカバーするために、ソース記事の凝縮したバージョンを作成することに焦点を当てる。
本稿では,トピックに着目した要約を生成可能なトランスフォーマーアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-11-12T03:51:38Z) - FLIP: Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction [49.510163437116645]
クリックスルーレート(CTR)予測は、パーソナライズされたオンラインサービスにおいてコア機能モジュールとして機能する。
CTR予測のための従来のIDベースのモデルは、表形式の1ホットエンコードされたID特徴を入力として取る。
事前訓練された言語モデル(PLM)は、テキストのモダリティの文を入力として取る別のパラダイムを生み出した。
本稿では,CTR予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。
論文 参考訳(メタデータ) (2023-10-30T11:25:03Z) - A Topical Approach to Capturing Customer Insight In Social Media [0.0]
この研究は、ノイズの多いビッグデータコンテキストにおいて、完全に教師なしのトピック抽出の課題に対処する。
本稿では,変分オートエンコーダフレームワーク上に構築した3つのアプローチを提案する。
我々のモデルは最先端の手法よりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2023-07-14T11:15:28Z) - Information Screening whilst Exploiting! Multimodal Relation Extraction
with Feature Denoising and Multimodal Topic Modeling [96.75821232222201]
既存のマルチモーダル関係抽出(MRE)研究は、内部情報過剰利用と外部情報過多という2つの共存課題に直面している。
内部情報スクリーニングと外部情報活用を同時に実現する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:57Z) - ANTM: An Aligned Neural Topic Model for Exploring Evolving Topics [1.854328133293073]
本稿では、アラインドニューラルトピックモデル(ANTM)と呼ばれる動的トピックモデルのアルゴリズム系を提案する。
ANTMは、新しいデータマイニングアルゴリズムを組み合わせて、進化するトピックを発見するためのモジュラーフレームワークを提供する。
Pythonパッケージは、大規模テキストデータにおけるトピックのトレンドと進化パターンを研究したい研究者や科学者のために開発されている。
論文 参考訳(メタデータ) (2023-02-03T02:31:12Z) - Continual Learning with Optimal Transport based Mixture Model [17.398605698033656]
成熟最適輸送理論(OT-MM)の優れた性質に基づくオンライン混合モデル学習手法を提案する。
提案手法は,現在の最先端のベースラインを大きく上回ることができる。
論文 参考訳(メタデータ) (2022-11-30T06:40:29Z) - ConvoSumm: Conversation Summarization Benchmark and Improved Abstractive
Summarization with Argument Mining [61.82562838486632]
我々は、さまざまなオンライン会話形式のニュースコメント、ディスカッションフォーラム、コミュニティ質問応答フォーラム、電子メールスレッドに関する4つの新しいデータセットをクラウドソースする。
我々は、データセットの最先端モデルをベンチマークし、データに関連する特徴を分析します。
論文 参考訳(メタデータ) (2021-06-01T22:17:13Z) - Unsupervised Graph-based Topic Modeling from Video Transcriptions [5.210353244951637]
ニューラルワード埋め込みとグラフベースのクラスタリング手法を用いて,映像の書き起こしに関するトピック抽出器を開発した。
実生活マルチモーダルデータセット MuSe-CaR の実験結果から,本手法は一貫性と意味のあるトピックを抽出することを示した。
論文 参考訳(メタデータ) (2021-05-04T12:48:17Z) - Topic Adaptation and Prototype Encoding for Few-Shot Visual Storytelling [81.33107307509718]
トピック間一般化の能力をモデル化するためのトピック適応型ストーリーテラを提案する。
また,アトピー内導出能力のモデル化を目的とした符号化手法の試作も提案する。
実験結果から,トピック適応とプロトタイプ符号化構造が相互に利益をもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2020-08-11T03:55:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。