論文の概要: Changepoint Analysis of Topic Proportions in Temporal Text Data
- arxiv url: http://arxiv.org/abs/2112.00827v1
- Date: Mon, 29 Nov 2021 17:20:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-03 14:08:43.885618
- Title: Changepoint Analysis of Topic Proportions in Temporal Text Data
- Title(参考訳): テンポラルテキストデータにおける話題分布の変化点解析
- Authors: Avinandan Bose, Soumendu Sundar Mukherjee
- Abstract要約: トピック比の分布に変化点を規定する特化時間トピックモデルを構築した。
まず、サンプル分割を用いてトピックのポリトープを推定し、次に確率比統計を適用した。
歴史的に知られているいくつかの変化点を取得し、新しい変化点を発見する。
- 参考スコア(独自算出の注目度): 1.8262547855491456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Changepoint analysis deals with unsupervised detection and/or estimation of
time-points in time-series data, when the distribution generating the data
changes. In this article, we consider \emph{offline} changepoint detection in
the context of large scale textual data. We build a specialised temporal topic
model with provisions for changepoints in the distribution of topic
proportions. As full likelihood based inference in this model is
computationally intractable, we develop a computationally tractable approximate
inference procedure. More specifically, we use sample splitting to estimate
topic polytopes first and then apply a likelihood ratio statistic together with
a modified version of the wild binary segmentation algorithm of Fryzlewicz et
al. (2014). Our methodology facilitates automated detection of structural
changes in large corpora without the need of manual processing by domain
experts. As changepoints under our model correspond to changes in topic
structure, the estimated changepoints are often highly interpretable as marking
the surge or decline in popularity of a fashionable topic. We apply our
procedure on two large datasets: (i) a corpus of English literature from the
period 1800-1922 (Underwoodet al., 2015); (ii) abstracts from the High Energy
Physics arXiv repository (Clementet al., 2019). We obtain some historically
well-known changepoints and discover some new ones.
- Abstract(参考訳): 変更点分析は、データ生成の分布が変化するとき、時系列データにおける教師なしの検出および/またはタイムポイントの推定を扱う。
本稿では,大規模テキストデータの文脈で \emph{offline} 変化点検出について考察する。
トピック比の分布に変化点を規定する特化時間トピックモデルを構築した。
このモデルにおける全帰納法に基づく推論は計算に難解であるため,計算に難解な近似推論手法を開発した。
より具体的には、まずトピックポリトープを推定するためにサンプル分割を使用し、その後、fryzlewicz et al. (2014) のワイルドバイナリセグメンテーションアルゴリズムの修正版と共に確率比統計を適用する。
提案手法は,ドメインエキスパートによる手動処理を必要とせず,大規模コーパスにおける構造変化の自動検出を容易にする。
我々のモデルにおける変化点が話題構造の変化に対応するため、予測された変化点はしばしば、流行する話題の急増や人気低下を示すものとして解釈される。
2つの大きなデータセットに手順を適用する。
(i)1800-1922年の英文学のコーパス(Underwoodet al., 2015)
(II)高エネルギー物理arXivリポジトリからの要約(Clementet al., 2019)
歴史的によく知られた変更点を取得し、新しい変更点を見つけます。
関連論文リスト
- Evolving Voices Based on Temporal Poisson Factorisation [0.0]
本稿では、分解モデルの拡張として、時間的ポアソン分解モデル(TPF)を提案し、スパースカウントデータ行列をモデル化する。
米国上院における18セッションのスピーチの分析(1981-2016)におけるTPFモデルの詳細結果について論じる。
論文 参考訳(メタデータ) (2024-10-24T07:21:33Z) - Causal Discovery-Driven Change Point Detection in Time Series [32.424281626708336]
時系列における変化点検出は、時系列の確率分布が変化する時間を特定する。
実践的な応用では、時系列の特定の構成要素にのみ興味を持ち、その分布の急激な変化を探求する。
論文 参考訳(メタデータ) (2024-07-10T00:54:42Z) - PeFAD: A Parameter-Efficient Federated Framework for Time Series Anomaly Detection [51.20479454379662]
私たちはaを提案します。
フェデレートされた異常検出フレームワークであるPeFADは、プライバシーの懸念が高まっている。
我々は、4つの実際のデータセットに対して広範な評価を行い、PeFADは既存の最先端ベースラインを最大28.74%上回っている。
論文 参考訳(メタデータ) (2024-06-04T13:51:08Z) - Leveraging 2D Information for Long-term Time Series Forecasting with Vanilla Transformers [55.475142494272724]
時系列予測は、様々な領域における複雑な力学の理解と予測に不可欠である。
GridTSTは、革新的な多方向性の注意を用いた2つのアプローチの利点を組み合わせたモデルである。
このモデルは、さまざまな現実世界のデータセットに対して、常に最先端のパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-05-22T16:41:21Z) - Deep learning model solves change point detection for multiple change
types [69.77452691994712]
変更点検出は、データ分散の急激な障害をキャッチすることを目的としている。
本稿では,マルチディストリビューションシナリオにおけるアプローチを提案する。
論文 参考訳(メタデータ) (2022-04-15T09:44:21Z) - TACTiS: Transformer-Attentional Copulas for Time Series [76.71406465526454]
時間変化量の推定は、医療や金融などの分野における意思決定の基本的な構成要素である。
本稿では,アテンションベースデコーダを用いて関節分布を推定する多元的手法を提案する。
本研究では,本モデルが実世界の複数のデータセットに対して最先端の予測を生成することを示す。
論文 参考訳(メタデータ) (2022-02-07T21:37:29Z) - Time Series Analysis via Network Science: Concepts and Algorithms [62.997667081978825]
本稿では,時系列をネットワークに変換する既存のマッピング手法について概観する。
我々は、主要な概念的アプローチを説明し、権威的な参照を提供し、統一された表記法と言語におけるそれらの利点と限界について洞察を与える。
ごく最近の研究だが、この研究領域には大きな可能性を秘めており、今後の研究の道を開くことを目的としている。
論文 参考訳(メタデータ) (2021-10-11T13:33:18Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - Topic Scaling: A Joint Document Scaling -- Topic Model Approach To Learn
Time-Specific Topics [0.0]
本稿では,文書位置の尺度から時間に基づくトピックを学習する2段階アルゴリズムを実装し,シーケンシャルコーパスを研究する新しい手法を提案する。
最初の段階はWordfishを使用してドキュメントをランク付けし、関連するトピックを学ぶために依存変数として機能する文書の位置を推定します。
第二段階は、コーパス内のそれらの発生と一致するように文書スケール上の推論されたトピックをランク付けし、それらの進化を追跡します。
論文 参考訳(メタデータ) (2021-03-31T12:35:36Z) - Interpretable Feature Construction for Time Series Extrinsic Regression [0.028675177318965035]
一部のアプリケーション領域では、対象変数が数値であり、その問題は時系列外部回帰(TSER)として知られている。
TSERの文脈における頑健で解釈可能な特徴構築と選択のためのベイズ法の拡張を提案する。
私たちのアプローチは、TSERに取り組むためのリレーショナルな方法を利用します:(i)、リレーショナルデータスキームに格納されている時系列の多様で単純な表現を構築し、(ii)二次テーブルからデータを「フラット化」するために解釈可能な機能を構築するためにプロポジション化技術を適用します。
論文 参考訳(メタデータ) (2021-03-15T08:12:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。