論文の概要: Stick-Breaking Embedded Topic Model with Continuous Optimal Transport for Online Analysis of Document Streams
- arxiv url: http://arxiv.org/abs/2510.18786v1
- Date: Tue, 21 Oct 2025 16:40:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.930588
- Title: Stick-Breaking Embedded Topic Model with Continuous Optimal Transport for Online Analysis of Document Streams
- Title(参考訳): 文書ストリームのオンライン解析のための連続的最適輸送を用いたスティックブレーキング組込みトピックモデル
- Authors: Federica Granese, Serena Villata, Charles Bouveyron,
- Abstract要約: SB-SETMは、埋め込みトピックモデル(ETM)を拡張して、連続した部分文書バッチ上に形成されたモデルをマージすることによってデータストリームを処理する革新的なモデルである。
数値実験により,SB-SETMはシミュレーションシナリオのベースラインよりも優れていた。
われわれは2022年から2023年の間、ロシアとウクライナの戦争に関するニュース記事の実際のコーパスでこれを広範囲にテストした。
- 参考スコア(独自算出の注目度): 9.41487883751588
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online topic models are unsupervised algorithms to identify latent topics in data streams that continuously evolve over time. Although these methods naturally align with real-world scenarios, they have received considerably less attention from the community compared to their offline counterparts, due to specific additional challenges. To tackle these issues, we present SB-SETM, an innovative model extending the Embedded Topic Model (ETM) to process data streams by merging models formed on successive partial document batches. To this end, SB-SETM (i) leverages a truncated stick-breaking construction for the topic-per-document distribution, enabling the model to automatically infer from the data the appropriate number of active topics at each timestep; and (ii) introduces a merging strategy for topic embeddings based on a continuous formulation of optimal transport adapted to the high dimensionality of the latent topic space. Numerical experiments show SB-SETM outperforming baselines on simulated scenarios. We extensively test it on a real-world corpus of news articles covering the Russian-Ukrainian war throughout 2022-2023.
- Abstract(参考訳): オンライントピックモデルは、時間とともに継続的に進化するデータストリーム内の潜在トピックを特定するために教師なしのアルゴリズムである。
これらの手法は現実世界のシナリオと自然に一致するが、特定の追加の課題のために、オフラインのシナリオに比べてコミュニティからの注目ははるかに少ない。
SB-SETMは,組込みトピックモデル(ETM)を拡張し,連続した部分文書バッチ上に生成したモデルをマージすることによってデータストリームを処理する革新的なモデルである。
この目的のために、SB-SETM
i) トピック毎のドキュメント分布に対して、トランクされたスティック破りの構成を活用して、各時点における適切なアクティブトピック数を自動的にデータから推測することを可能にする。
(II) 潜在トピック空間の高次元性に適応した最適輸送の連続的な定式化に基づくトピック埋め込みのためのマージ戦略を導入する。
数値実験により,SB-SETMはシミュレーションシナリオのベースラインよりも優れていた。
われわれは2022-2023年の間、ロシアとウクライナの戦争に関するニュース記事の実際のコーパスでこれを広範囲にテストした。
関連論文リスト
- Edit-Based Flow Matching for Temporal Point Processes [51.33476564706644]
時間的ポイントプロセス(TPP)は、イベントシーケンスを連続的にモデル化するための基本的なツールである。
最近の非自己回帰拡散型モデルでは、ノイズとデータとの連立補間によってこれらの問題を緩和している。
本稿では,TPPの編集操作を挿入,削除,置換することで,ノイズをデータに転送する編集フロープロセスを提案する。
論文 参考訳(メタデータ) (2025-10-07T15:44:12Z) - ToolACE-MT: Non-Autoregressive Generation for Agentic Multi-Turn Interaction [84.90394416593624]
大規模言語モデル(LLM)によるエージェント的タスク解決には,多ターン・マルチステップインタラクションが必要である。
既存のシミュレーションベースのデータ生成手法は、複数のエージェント間のコストのかかる自己回帰的相互作用に大きく依存している。
本稿では,高品質なマルチターンエージェント対話を構築するための非自己回帰反復生成フレームワークであるToolACE-MTを提案する。
論文 参考訳(メタデータ) (2025-08-18T07:38:23Z) - Merging Embedded Topics with Optimal Transport for Online Topic Modeling on Data Streams [8.618304780146348]
StreamETMはEmbeded Topic Model (ETM)上に構築され、データストリームを処理する。
オンライン変更点検出アルゴリズムは、時間とともにトピックの変化を特定するために使用される。
シミュレーションおよび実世界のデータに関する数値実験は、StreamETMがライバルより優れていることを示している。
論文 参考訳(メタデータ) (2025-04-10T13:04:56Z) - MITA: Bridging the Gap between Model and Data for Test-time Adaptation [68.62509948690698]
テスト時間適応(TTA)は、モデルの一般化性を高めるための有望なパラダイムとして登場した。
本稿では,Met-In-The-MiddleをベースとしたMITAを提案する。
論文 参考訳(メタデータ) (2024-10-12T07:02:33Z) - Enhancing Short-Text Topic Modeling with LLM-Driven Context Expansion and Prefix-Tuned VAEs [25.915607750636333]
本稿では,大規模言語モデル(LLM)を利用して,トピックモデリングを適用する前に,短いテキストをより詳細なシーケンスに拡張する手法を提案する。
提案手法は,データ空間が極端である実世界のデータセットに対する広範な実験により,短文のトピックモデリング性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-10-04T01:28:56Z) - FASTopic: Pretrained Transformer is a Fast, Adaptive, Stable, and Transferable Topic Model [76.509837704596]
本稿では,高速で適応的で,安定で,移動可能なトピックモデルであるFASTopicを提案する。
我々はDSR(Dual Semantic-Relation Reconstruction)を用いて潜在トピックをモデル化する。
また, セマンティック関係を最適輸送計画として正規化するためのETP(Embedding Transport Plan)を提案する。
論文 参考訳(メタデータ) (2024-05-28T09:06:38Z) - Controllable Topic-Focused Abstractive Summarization [57.8015120583044]
制御された抽象的な要約は、特定の側面をカバーするために、ソース記事の凝縮したバージョンを作成することに焦点を当てる。
本稿では,トピックに着目した要約を生成可能なトランスフォーマーアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-11-12T03:51:38Z) - Recurrent Coupled Topic Modeling over Sequential Documents [33.35324412209806]
現在のトピックは、結合重みが対応するすべてのトピックから進化し、マルチトピック・スレッドの進化を形成することを示す。
進化するトピック間のマルチカップリングを解消する,新しいデータ拡張手法を用いた新しいソリューションを提案する。
後方フィルタアルゴリズムを備えた新しいギブスサンプリング器は、閉形式の潜時時間パラメータを効率的に学習する。
論文 参考訳(メタデータ) (2021-06-23T08:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。