論文の概要: Fully Bayesian Approaches to Topics over Time
- arxiv url: http://arxiv.org/abs/2504.15220v1
- Date: Mon, 21 Apr 2025 16:46:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 15:39:35.987805
- Title: Fully Bayesian Approaches to Topics over Time
- Title(参考訳): 時間によるトピックに対する完全なベイズ的アプローチ
- Authors: Julián Cendrero, Julio Gonzalo, Ivar Zapata,
- Abstract要約: 本稿では,ベータリリース前の共役モデルの導入を通じて,ベイズ時空間(BToT)モデルを提案する。
この前者は、ミニバッチでトピックが不十分な場合に、アルゴリズムのオンラインバージョンが不安定な更新を防止する正規化として機能する。
私たちは2つのデータセットでモデルをテストしました。米国内の200年以上のステート・オブ・ザ・ユニオンアドレスのコレクションと、1000万ツイートの大規模なCOVID-19 Twitterコーパスです。
- 参考スコア(独自算出の注目度): 0.9831489366502301
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Topics over Time (ToT) model captures thematic changes in timestamped datasets by explicitly modeling publication dates jointly with word co-occurrence patterns. However, ToT was not approached in a fully Bayesian fashion, a flaw that makes it susceptible to stability problems. To address this issue, we propose a fully Bayesian Topics over Time (BToT) model via the introduction of a conjugate prior to the Beta distribution. This prior acts as a regularization that prevents the online version of the algorithm from unstable updates when a topic is poorly represented in a mini-batch. The characteristics of this prior to the Beta distribution are studied here for the first time. Still, this model suffers from a difference in scale between the single-time observations and the multiplicity of words per document. A variation of BToT, Weighted Bayesian Topics over Time (WBToT), is proposed as a solution. In WBToT, publication dates are repeated a certain number of times per document, which balances the relative influence of words and timestamps along the inference process. We have tested our models on two datasets: a collection of over 200 years of US state-of-the-union (SOTU) addresses and a large-scale COVID-19 Twitter corpus of 10 million tweets. The results show that WBToT captures events better than Latent Dirichlet Allocation and other SOTA topic models like BERTopic: the median absolute deviation of the topic presence over time is reduced by $51\%$ and $34\%$, respectively. Our experiments also demonstrate the superior coherence of WBToT over BToT, which highlights the importance of balancing the time and word modalities. Finally, we illustrate the stability of the online optimization algorithm in WBToT, which allows the application of WBToT to problems that are intractable for standard ToT.
- Abstract(参考訳): Topics over Time (ToT)モデルは、単語共起パターンと共同で出版日を明示的にモデル化することで、タイムスタンプデータセットのテーマ変化をキャプチャする。
しかし、ToTは完全なベイズ的なアプローチには至らなかった。
この問題に対処するため,ベータリリース前の共役モデルの導入を通じて,ベイズ時空間(BToT)モデルを提案する。
この前者は、ミニバッチでトピックが不十分な場合に、アルゴリズムのオンラインバージョンが不安定な更新を防止する正規化として機能する。
ベータリリース前の特徴はここで初めて研究される。
それでも、このモデルは、単一時間観測と文書ごとの単語の多重度の間のスケールの差に悩まされている。
解法として, BToT, Weighted Bayesian Topics over Time (WBToT) が提案されている。
WBToTでは、出版日は文書ごとに一定回数繰り返され、推測過程に沿って単語とタイムスタンプの相対的な影響のバランスをとる。
私たちは、2つのデータセットでモデルをテストしました。米国内の200年以上にわたるSOTU(State-of-the-union)アドレスのコレクションと、1000万ツイートの大規模なCOVID-19 Twitterコーパスです。
その結果、WBToTは遅延ディリクレアロケーションやBERTopicのような他のSOTAトピックモデルよりも優れたイベントをキャプチャすることがわかった。
我々の実験は、時間と単語のモダリティのバランスが重要であることを示すBToTよりもWBToTの方が優れていることも示している。
最後に、WBToTのオンライン最適化アルゴリズムの安定性について述べる。
関連論文リスト
- TimesBERT: A BERT-Style Foundation Model for Time Series Understanding [72.64824086839631]
GPTスタイルのモデルは時系列予測の基礎モデルとして位置づけられている。
BERTスタイルのアーキテクチャは時系列理解のために完全にアンロックされていない。
時系列の汎用表現を学ぶために TimesBERT を設計する。
私たちのモデルは、さまざまなドメインにまたがる2600億のタイムポイントで事前トレーニングされています。
論文 参考訳(メタデータ) (2025-02-28T17:14:44Z) - FASTopic: Pretrained Transformer is a Fast, Adaptive, Stable, and Transferable Topic Model [76.509837704596]
本稿では,高速で適応的で,安定で,移動可能なトピックモデルであるFASTopicを提案する。
我々はDSR(Dual Semantic-Relation Reconstruction)を用いて潜在トピックをモデル化する。
また, セマンティック関係を最適輸送計画として正規化するためのETP(Embedding Transport Plan)を提案する。
論文 参考訳(メタデータ) (2024-05-28T09:06:38Z) - Debiasing Text-to-Image Diffusion Models [84.46750441518697]
学習ベースのテキスト・トゥ・イメージ(TTI)モデルは、さまざまなドメインで視覚コンテンツを生成する方法に革命をもたらした。
近年の研究では、現在最先端のTTIシステムに非無視的な社会的バイアスが存在することが示されている。
論文 参考訳(メタデータ) (2024-02-22T14:33:23Z) - Improving Entropy-Based Test-Time Adaptation from a Clustering View [15.157208389691238]
エントロピーベースのTTAについて,新たなクラスタリングの視点を導入する。
本稿では,ロバストなラベル割り当て,類似性保存制約,サンプル選択,勾配蓄積などを提案する。
実験結果から,本手法は様々なデータセットに対して一貫した改善が可能であることが示された。
論文 参考訳(メタデータ) (2023-10-31T10:10:48Z) - BayOTIDE: Bayesian Online Multivariate Time series Imputation with functional decomposition [31.096125530322933]
交通やエネルギーといった現実のシナリオでは、値やノイズが欠けている巨大な時系列データが広く観測され、不規則にサンプリングされる。
多くの計算法が提案されているが、そのほとんどは局所的な地平線で動作する。
ほとんど全ての手法は、観測は通常のタイムスタンプでサンプリングされ、複雑な不規則なサンプル時系列を扱うことができないと仮定する。
論文 参考訳(メタデータ) (2023-08-28T21:17:12Z) - On Pitfalls of Test-Time Adaptation [82.8392232222119]
TTA(Test-Time Adaptation)は、分散シフトの下で堅牢性に取り組むための有望なアプローチとして登場した。
TTABは,10の最先端アルゴリズム,多種多様な分散シフト,および2つの評価プロトコルを含むテスト時間適応ベンチマークである。
論文 参考訳(メタデータ) (2023-06-06T09:35:29Z) - Continuous-time convolutions model of event sequences [46.3471121117337]
イベントシーケンスは不均一でスパースであり、従来のモデルは不適当である。
我々は、時間とともに一様でない事象の発生を処理するために設計された効率的な畳み込みニューラルネットワークに基づくCOTICを提案する。
COTICは、次のイベント時間とタイプを予測する際に既存のモデルよりも優れており、最も近いライバルの3.714と比較して平均1.5のランクに達している。
論文 参考訳(メタデータ) (2023-02-13T10:34:51Z) - Time Series Forecasting via Semi-Asymmetric Convolutional Architecture
with Global Atrous Sliding Window [0.0]
本稿では,時系列予測の問題に対処するために提案手法を提案する。
現代のモデルのほとんどは、短い範囲の情報のみに焦点を当てており、時系列予測のような問題で致命的なものである。
パフォーマンス上のアドバンテージがあることを実験的に検証した3つの主要なコントリビューションを行います。
論文 参考訳(メタデータ) (2023-01-31T15:07:31Z) - A Probabilistic Framework for Lifelong Test-Time Adaptation [34.07074915005366]
テスト時間適応(TTA)は、異なるターゲットドメインから与えられたテスト入力(s)の推測時間で事前訓練されたソースモデルを更新する問題である。
PETAL(Probabilistic lifElong Test-time Adaptation with seLf-training prior)は,確率的アプローチを用いて生涯TTAを解決する。
本手法は, 様々なベンチマークにおいて, オンライン・ライフタイム・テスト・タイム・アダプティブの最先端技術よりも優れた結果が得られる。
論文 参考訳(メタデータ) (2022-12-19T18:42:19Z) - Extracting or Guessing? Improving Faithfulness of Event Temporal
Relation Extraction [87.04153383938969]
本研究では,TempRel抽出モデルの忠実度を2つの観点から改善する。
第1の視点は、文脈記述に基づいて真に抽出することである。
第2の視点は、適切な不確実性評価を提供することである。
論文 参考訳(メタデータ) (2022-10-10T19:53:13Z) - Robust Continual Test-time Adaptation: Instance-aware BN and
Prediction-balanced Memory [58.72445309519892]
テストデータストリーム以外のデータストリームに対して堅牢な新しいテスト時間適応方式を提案する。
a)分布外サンプルの正規化を修正するIABN(Instance-Aware Batch Normalization)と、(b)クラスバランスのない方法で非i.d.ストリームからのデータストリームをシミュレートするPBRS(Predict- Balanced Reservoir Sampling)である。
論文 参考訳(メタデータ) (2022-08-10T03:05:46Z) - Learning Sample Importance for Cross-Scenario Video Temporal Grounding [30.82619216537177]
本稿では,時間的接地作業に特有の表面バイアスについて検討する。
そこで本研究では,Debiased Temporal Language Localizer (DebiasTLL) と呼ばれる新しい手法を提案する。
我々は、列車/テストデータが均一にソースされるクロスセサリオ時間的グラウンドリングにおいて、提案モデルを評価する。
論文 参考訳(メタデータ) (2022-01-08T15:41:38Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z) - Probabilistic Model of Narratives Over Topical Trends in Social Media: A
Discrete Time Model [4.073849137967964]
本稿では,イベントベースの物語要約抽出フレームワークを提案する。
我々のフレームワークは確率論的トピックモデルとして設計され、分類時間分布と抽出テキスト要約が続く。
我々は、シリアのホワイトヘルメッツに対して行われた偽情報キャンペーンのドメインで100万以上のツイートを含む、Twitterデータの大規模なコーパスで、我々のモデルを評価した。
論文 参考訳(メタデータ) (2020-04-14T20:18:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。