論文の概要: Recurrent Coupled Topic Modeling over Sequential Documents
- arxiv url: http://arxiv.org/abs/2106.13732v1
- Date: Wed, 23 Jun 2021 08:58:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-28 12:56:32.145785
- Title: Recurrent Coupled Topic Modeling over Sequential Documents
- Title(参考訳): 逐次文書上での反復結合トピックモデリング
- Authors: Jinjin Guo, Longbing Cao and Zhiguo Gong
- Abstract要約: 現在のトピックは、結合重みが対応するすべてのトピックから進化し、マルチトピック・スレッドの進化を形成することを示す。
進化するトピック間のマルチカップリングを解消する,新しいデータ拡張手法を用いた新しいソリューションを提案する。
後方フィルタアルゴリズムを備えた新しいギブスサンプリング器は、閉形式の潜時時間パラメータを効率的に学習する。
- 参考スコア(独自算出の注目度): 33.35324412209806
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The abundant sequential documents such as online archival, social media and
news feeds are streamingly updated, where each chunk of documents is
incorporated with smoothly evolving yet dependent topics. Such digital texts
have attracted extensive research on dynamic topic modeling to infer hidden
evolving topics and their temporal dependencies. However, most of the existing
approaches focus on single-topic-thread evolution and ignore the fact that a
current topic may be coupled with multiple relevant prior topics. In addition,
these approaches also incur the intractable inference problem when inferring
latent parameters, resulting in a high computational cost and performance
degradation. In this work, we assume that a current topic evolves from all
prior topics with corresponding coupling weights, forming the
multi-topic-thread evolution. Our method models the dependencies between
evolving topics and thoroughly encodes their complex multi-couplings across
time steps. To conquer the intractable inference challenge, a new solution with
a set of novel data augmentation techniques is proposed, which successfully
discomposes the multi-couplings between evolving topics. A fully conjugate
model is thus obtained to guarantee the effectiveness and efficiency of the
inference technique. A novel Gibbs sampler with a backward-forward filter
algorithm efficiently learns latent timeevolving parameters in a closed-form.
In addition, the latent Indian Buffet Process (IBP) compound distribution is
exploited to automatically infer the overall topic number and customize the
sparse topic proportions for each sequential document without bias. The
proposed method is evaluated on both synthetic and real-world datasets against
the competitive baselines, demonstrating its superiority over the baselines in
terms of the low per-word perplexity, high coherent topics, and better document
time prediction.
- Abstract(参考訳): オンラインアーカイブ、ソーシャルメディア、ニュースフィードなどの豊富なシーケンシャルなドキュメントはストリーミング更新され、各ドキュメントはスムーズに進化するが依存するトピックに組み込まれる。
このようなデジタルテキストは、隠れた進化するトピックとその時間的依存性を推測するために、動的トピックモデリングに関する広範な研究を惹きつけている。
しかし、既存のアプローチのほとんどはシングルトピックとスレッドの進化に焦点を当てており、現在のトピックが複数の関連する先行トピックと結合される可能性があるという事実を無視している。
さらに、これらの手法は遅延パラメータを推論する際の難解な推論問題も引き起こし、高い計算コストと性能劣化をもたらす。
この研究では、現在のトピックが対応する結合重み付き以前のトピックから進化し、マルチトピック・スレッドの進化が形成されると仮定する。
我々の手法は、進化するトピック間の依存関係をモデル化し、時間ステップで複雑なマルチカップリングを徹底的にエンコードする。
難解な推論課題を克服するために,新しいデータ拡張手法のセットを用いた新しい解を提案し,進化するトピック間の多重結合をうまく分解する。
これにより、完全な共役モデルが得られ、推論手法の有効性と効率が保証される。
後方フィルタアルゴリズムを備えた新しいギブスサンプリング器は、閉形式の潜時時間パラメータを効率的に学習する。
さらに、潜在インディアンバッファプロセス(IBP)複合分布を利用して、全体のトピック番号を自動的に推測し、バイアスのない各シーケンシャル文書のスパーストピック比をカスタマイズする。
提案手法は, 競合するベースラインに対する合成データセットと実世界のデータセットの両方で評価され, 単語ごとのパープレキシティの低さ, 一貫性の高いトピック, 文書時間予測の精度が向上した。
関連論文リスト
- Peek Across: Improving Multi-Document Modeling via Cross-Document
Question-Answering [49.85790367128085]
我々は,事前学習対象に答える新しいクロスドキュメント質問から,汎用的なマルチドキュメントモデルを事前学習する。
この新規なマルチドキュメントQA定式化は、クロステキスト情報関係をよりよく回復させるようモデルに指示する。
分類タスクや要約タスクに焦点を当てた従来のマルチドキュメントモデルとは異なり、事前学習対象の定式化により、短いテキスト生成と長いテキスト生成の両方を含むタスクを実行できる。
論文 参考訳(メタデータ) (2023-05-24T17:48:40Z) - How Does Generative Retrieval Scale to Millions of Passages? [68.98628807288972]
各種コーパス尺度における生成的検索手法の実証的研究を行った。
我々は8.8Mパスのコーパスで数百万のパスに生成検索をスケールし、モデルサイズを最大11Bパラメータまで評価する。
生成的検索は、小さなコーパス上の最先端のデュアルエンコーダと競合するが、数百万のパスへのスケーリングは依然として重要で未解決の課題である。
論文 参考訳(メタデータ) (2023-05-19T17:33:38Z) - ANTM: An Aligned Neural Topic Model for Exploring Evolving Topics [1.854328133293073]
本稿では、アラインドニューラルトピックモデル(ANTM)と呼ばれる動的トピックモデルのアルゴリズム系を提案する。
ANTMは、新しいデータマイニングアルゴリズムを組み合わせて、進化するトピックを発見するためのモジュラーフレームワークを提供する。
Pythonパッケージは、大規模テキストデータにおけるトピックのトレンドと進化パターンを研究したい研究者や科学者のために開発されている。
論文 参考訳(メタデータ) (2023-02-03T02:31:12Z) - Neural Dynamic Focused Topic Model [2.9005223064604078]
ニューラル変動推論の最近の進歩を活用し、ダイナミックフォーカストピックモデルに代替的なニューラルアプローチを提案する。
本稿では,Bernoulli確率変数の列を利用してトピックの出現を追跡するトピック進化のためのニューラルモデルを開発する。
論文 参考訳(メタデータ) (2023-01-26T08:37:34Z) - Sequential Topic Selection Model with Latent Variable for Topic-Grounded
Dialogue [21.1427816176227]
我々は,すべての会話における話題遷移を活用するために,SGTA(Sequential Global Topic Attention)という新しいアプローチを提案する。
我々のモデルは予測および生成タスクの競争ベースラインを上回っている。
論文 参考訳(メタデータ) (2022-10-17T07:34:14Z) - $\textit{latent}$-GLAT: Glancing at Latent Variables for Parallel Text
Generation [65.29170569821093]
並列テキスト生成は、ジェネレーション効率の成功により、広く注目を集めています。
本稿では,単語分類情報を取得するために,離散潜在変数を用いた$textitlatent$-GLATを提案する。
実験結果から,本手法は自己回帰モデルを用いることなく,強いベースラインを達成できることが示唆された。
論文 参考訳(メタデータ) (2022-04-05T07:34:12Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - Topic Discovery via Latent Space Clustering of Pretrained Language Model
Representations [35.74225306947918]
本研究では, PLM 埋め込みを基盤とした空間学習とクラスタリングの連携フレームワークを提案する。
提案モデルでは,トピック発見のためにPLMがもたらす強力な表現力と言語的特徴を効果的に活用する。
論文 参考訳(メタデータ) (2022-02-09T17:26:08Z) - Topic-Aware Encoding for Extractive Summarization [15.113768658584979]
この問題に対処するために,文書要約のためのトピック認識符号化を提案する。
ニューラルネットワークに基づく文レベルの表現学習にニューラルトピックモデルを追加し、中心トピック情報を適切に検討する。
3つの公開データセットの実験結果は、我々のモデルが最先端のモデルより優れていることを示している。
論文 参考訳(メタデータ) (2021-12-17T15:26:37Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - ConvoSumm: Conversation Summarization Benchmark and Improved Abstractive
Summarization with Argument Mining [61.82562838486632]
我々は、さまざまなオンライン会話形式のニュースコメント、ディスカッションフォーラム、コミュニティ質問応答フォーラム、電子メールスレッドに関する4つの新しいデータセットをクラウドソースする。
我々は、データセットの最先端モデルをベンチマークし、データに関連する特徴を分析します。
論文 参考訳(メタデータ) (2021-06-01T22:17:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。