論文の概要: Recurrent Coupled Topic Modeling over Sequential Documents
- arxiv url: http://arxiv.org/abs/2106.13732v1
- Date: Wed, 23 Jun 2021 08:58:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-28 12:56:32.145785
- Title: Recurrent Coupled Topic Modeling over Sequential Documents
- Title(参考訳): 逐次文書上での反復結合トピックモデリング
- Authors: Jinjin Guo, Longbing Cao and Zhiguo Gong
- Abstract要約: 現在のトピックは、結合重みが対応するすべてのトピックから進化し、マルチトピック・スレッドの進化を形成することを示す。
進化するトピック間のマルチカップリングを解消する,新しいデータ拡張手法を用いた新しいソリューションを提案する。
後方フィルタアルゴリズムを備えた新しいギブスサンプリング器は、閉形式の潜時時間パラメータを効率的に学習する。
- 参考スコア(独自算出の注目度): 33.35324412209806
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The abundant sequential documents such as online archival, social media and
news feeds are streamingly updated, where each chunk of documents is
incorporated with smoothly evolving yet dependent topics. Such digital texts
have attracted extensive research on dynamic topic modeling to infer hidden
evolving topics and their temporal dependencies. However, most of the existing
approaches focus on single-topic-thread evolution and ignore the fact that a
current topic may be coupled with multiple relevant prior topics. In addition,
these approaches also incur the intractable inference problem when inferring
latent parameters, resulting in a high computational cost and performance
degradation. In this work, we assume that a current topic evolves from all
prior topics with corresponding coupling weights, forming the
multi-topic-thread evolution. Our method models the dependencies between
evolving topics and thoroughly encodes their complex multi-couplings across
time steps. To conquer the intractable inference challenge, a new solution with
a set of novel data augmentation techniques is proposed, which successfully
discomposes the multi-couplings between evolving topics. A fully conjugate
model is thus obtained to guarantee the effectiveness and efficiency of the
inference technique. A novel Gibbs sampler with a backward-forward filter
algorithm efficiently learns latent timeevolving parameters in a closed-form.
In addition, the latent Indian Buffet Process (IBP) compound distribution is
exploited to automatically infer the overall topic number and customize the
sparse topic proportions for each sequential document without bias. The
proposed method is evaluated on both synthetic and real-world datasets against
the competitive baselines, demonstrating its superiority over the baselines in
terms of the low per-word perplexity, high coherent topics, and better document
time prediction.
- Abstract(参考訳): オンラインアーカイブ、ソーシャルメディア、ニュースフィードなどの豊富なシーケンシャルなドキュメントはストリーミング更新され、各ドキュメントはスムーズに進化するが依存するトピックに組み込まれる。
このようなデジタルテキストは、隠れた進化するトピックとその時間的依存性を推測するために、動的トピックモデリングに関する広範な研究を惹きつけている。
しかし、既存のアプローチのほとんどはシングルトピックとスレッドの進化に焦点を当てており、現在のトピックが複数の関連する先行トピックと結合される可能性があるという事実を無視している。
さらに、これらの手法は遅延パラメータを推論する際の難解な推論問題も引き起こし、高い計算コストと性能劣化をもたらす。
この研究では、現在のトピックが対応する結合重み付き以前のトピックから進化し、マルチトピック・スレッドの進化が形成されると仮定する。
我々の手法は、進化するトピック間の依存関係をモデル化し、時間ステップで複雑なマルチカップリングを徹底的にエンコードする。
難解な推論課題を克服するために,新しいデータ拡張手法のセットを用いた新しい解を提案し,進化するトピック間の多重結合をうまく分解する。
これにより、完全な共役モデルが得られ、推論手法の有効性と効率が保証される。
後方フィルタアルゴリズムを備えた新しいギブスサンプリング器は、閉形式の潜時時間パラメータを効率的に学習する。
さらに、潜在インディアンバッファプロセス(IBP)複合分布を利用して、全体のトピック番号を自動的に推測し、バイアスのない各シーケンシャル文書のスパーストピック比をカスタマイズする。
提案手法は, 競合するベースラインに対する合成データセットと実世界のデータセットの両方で評価され, 単語ごとのパープレキシティの低さ, 一貫性の高いトピック, 文書時間予測の精度が向上した。
関連論文リスト
- Bundle Fragments into a Whole: Mining More Complete Clusters via Submodular Selection of Interesting webpages for Web Topic Detection [49.8035161337388]
最先端のソリューションは、まず、Webページを多数の粒度トピック候補にまとめることである。
ホットトピックは、その面白さを推定することによってさらに特定される。
本稿では,フラグメントからより完全なホットトピックを抽出するためのバンドル・リフィニング手法を提案する。
論文 参考訳(メタデータ) (2024-09-19T00:46:31Z) - Iterative Improvement of an Additively Regularized Topic Model [0.0]
本稿では,トピックモデルの反復的学習法を提案する。
いくつかの自然言語テキストの収集実験により、提案したITARモデルは、他の人気のあるトピックモデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-08-11T18:22:12Z) - Thread: A Logic-Based Data Organization Paradigm for How-To Question Answering with Retrieval Augmented Generation [49.36436704082436]
ハウツー質問は意思決定プロセスに不可欠なものであり、動的でステップバイステップの回答を必要とする。
我々は,現在のシステムがハウツー質問をより効果的に扱えるようにするための新しいデータ組織パラダイムThreadを提案する。
論文 参考訳(メタデータ) (2024-06-19T09:14:41Z) - FASTopic: Pretrained Transformer is a Fast, Adaptive, Stable, and Transferable Topic Model [76.509837704596]
本稿では,高速で適応的で,安定で,移動可能なトピックモデルであるFASTopicを提案する。
我々はDSR(Dual Semantic-Relation Reconstruction)を用いて潜在トピックをモデル化する。
また, セマンティック関係を最適輸送計画として正規化するためのETP(Embedding Transport Plan)を提案する。
論文 参考訳(メタデータ) (2024-05-28T09:06:38Z) - Peek Across: Improving Multi-Document Modeling via Cross-Document
Question-Answering [49.85790367128085]
我々は,事前学習対象に答える新しいクロスドキュメント質問から,汎用的なマルチドキュメントモデルを事前学習する。
この新規なマルチドキュメントQA定式化は、クロステキスト情報関係をよりよく回復させるようモデルに指示する。
分類タスクや要約タスクに焦点を当てた従来のマルチドキュメントモデルとは異なり、事前学習対象の定式化により、短いテキスト生成と長いテキスト生成の両方を含むタスクを実行できる。
論文 参考訳(メタデータ) (2023-05-24T17:48:40Z) - How Does Generative Retrieval Scale to Millions of Passages? [68.98628807288972]
各種コーパス尺度における生成的検索手法の実証的研究を行った。
我々は8.8Mパスのコーパスで数百万のパスに生成検索をスケールし、モデルサイズを最大11Bパラメータまで評価する。
生成的検索は、小さなコーパス上の最先端のデュアルエンコーダと競合するが、数百万のパスへのスケーリングは依然として重要で未解決の課題である。
論文 参考訳(メタデータ) (2023-05-19T17:33:38Z) - ANTM: An Aligned Neural Topic Model for Exploring Evolving Topics [1.854328133293073]
本稿では、アラインドニューラルトピックモデル(ANTM)と呼ばれる動的トピックモデルのアルゴリズム系を提案する。
ANTMは、新しいデータマイニングアルゴリズムを組み合わせて、進化するトピックを発見するためのモジュラーフレームワークを提供する。
Pythonパッケージは、大規模テキストデータにおけるトピックのトレンドと進化パターンを研究したい研究者や科学者のために開発されている。
論文 参考訳(メタデータ) (2023-02-03T02:31:12Z) - Neural Dynamic Focused Topic Model [2.9005223064604078]
ニューラル変動推論の最近の進歩を活用し、ダイナミックフォーカストピックモデルに代替的なニューラルアプローチを提案する。
本稿では,Bernoulli確率変数の列を利用してトピックの出現を追跡するトピック進化のためのニューラルモデルを開発する。
論文 参考訳(メタデータ) (2023-01-26T08:37:34Z) - Sequential Topic Selection Model with Latent Variable for Topic-Grounded
Dialogue [21.1427816176227]
我々は,すべての会話における話題遷移を活用するために,SGTA(Sequential Global Topic Attention)という新しいアプローチを提案する。
我々のモデルは予測および生成タスクの競争ベースラインを上回っている。
論文 参考訳(メタデータ) (2022-10-17T07:34:14Z) - $\textit{latent}$-GLAT: Glancing at Latent Variables for Parallel Text
Generation [65.29170569821093]
並列テキスト生成は、ジェネレーション効率の成功により、広く注目を集めています。
本稿では,単語分類情報を取得するために,離散潜在変数を用いた$textitlatent$-GLATを提案する。
実験結果から,本手法は自己回帰モデルを用いることなく,強いベースラインを達成できることが示唆された。
論文 参考訳(メタデータ) (2022-04-05T07:34:12Z) - Topic Discovery via Latent Space Clustering of Pretrained Language Model
Representations [35.74225306947918]
本研究では, PLM 埋め込みを基盤とした空間学習とクラスタリングの連携フレームワークを提案する。
提案モデルでは,トピック発見のためにPLMがもたらす強力な表現力と言語的特徴を効果的に活用する。
論文 参考訳(メタデータ) (2022-02-09T17:26:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。