論文の概要: SimLDA: A tool for topic model evaluation
- arxiv url: http://arxiv.org/abs/2208.09299v1
- Date: Fri, 19 Aug 2022 12:25:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-22 16:37:35.942408
- Title: SimLDA: A tool for topic model evaluation
- Title(参考訳): simlda: トピックモデル評価のためのツール
- Authors: Rebecca M.C. Taylor, Johan A. du Preez
- Abstract要約: 本稿では,LDA(Latent Dirichlet Allocation)に適用した新しい変分メッセージパッシングアルゴリズムを提案する。
金の標準VBとGibsサンプリングアルゴリズムを比較検討した。
コヒーレンス測度を用いて、ALBUは、特に小さなデータセットに対して、VBよりも正確な潜伏分布を学習することを示す。
- 参考スコア(独自算出の注目度): 2.6397379133308214
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Variational Bayes (VB) applied to latent Dirichlet allocation (LDA) has
become the most popular algorithm for aspect modeling. While sufficiently
successful in text topic extraction from large corpora, VB is less successful
in identifying aspects in the presence of limited data. We present a novel
variational message passing algorithm as applied to Latent Dirichlet Allocation
(LDA) and compare it with the gold standard VB and collapsed Gibbs sampling. In
situations where marginalisation leads to non-conjugate messages, we use ideas
from sampling to derive approximate update equations. In cases where conjugacy
holds, Loopy Belief update (LBU) (also known as Lauritzen-Spiegelhalter) is
used. Our algorithm, ALBU (approximate LBU), has strong similarities with
Variational Message Passing (VMP) (which is the message passing variant of VB).
To compare the performance of the algorithms in the presence of limited data,
we use data sets consisting of tweets and news groups. Using coherence measures
we show that ALBU learns latent distributions more accurately than does VB,
especially for smaller data sets.
- Abstract(参考訳): 遅延ディリクレアロケーション (LDA) に適用される変分ベイズ (VB) はアスペクトモデリングにおける最も一般的なアルゴリズムとなっている。
大規模なコーパスからテキストトピック抽出に十分な成功を収める一方で、VBは限られたデータの存在下での側面を特定することにはあまり成功していない。
我々は, 潜在ディリクレ割当(lda)に適用した新しい変分メッセージパッシングアルゴリズムを提案し, 金標準vbと崩壊ギブスサンプリングとの比較を行った。
余分化が非共役メッセージにつながる状況では、サンプリングのアイデアを使って近似更新方程式を導出する。
共謀がある場合、ループ信条更新(lbu、lauritzen-spiegelhalterとも呼ばれる)が使用される。
我々のアルゴリズムであるALBU (approximate LBU) は、変分メッセージパッシング (VMP) と強い類似性を持っている(VBのメッセージパッシング変種である)。
限られたデータが存在する場合のアルゴリズムの性能を比較するために、ツイートとニュースグループからなるデータセットを使用する。
コヒーレンス測度を用いて、ALBUは、特に小さなデータセットに対して、VBよりも正確な潜伏分布を学習することを示す。
関連論文リスト
- Substance or Style: What Does Your Image Embedding Know? [55.676463077772866]
画像基盤モデルは、主にセマンティックコンテンツとして評価されている。
画像のスタイル,品質,自然および人工的な変換など,多数の軸に沿った埋め込みの視覚的内容を測定する。
画像テキストモデル (CLIP と ALIGN) はマスキングベースモデル (CAN と MAE) よりもスタイル転送の新しい例を認識するのが得意である。
論文 参考訳(メタデータ) (2023-07-10T22:40:10Z) - Evaluating Graph Neural Networks for Link Prediction: Current Pitfalls
and New Benchmarking [66.83273589348758]
リンク予測は、グラフのエッジの一部のみに基づいて、目に見えないエッジが存在するかどうかを予測しようとする。
近年,この課題にグラフニューラルネットワーク(GNN)を活用すべく,一連の手法が導入されている。
これらの新しいモデルの有効性をよりよく評価するために、新しい多様なデータセットも作成されている。
論文 参考訳(メタデータ) (2023-06-18T01:58:59Z) - MoBYv2AL: Self-supervised Active Learning for Image Classification [57.4372176671293]
画像分類のための自己教師型アクティブラーニングフレームワークであるMoBYv2ALを提案する。
私たちの貢献は、最も成功した自己教師付き学習アルゴリズムであるMoBYをALパイプラインに持ち上げることです。
近年のAL法と比較すると,最先端の結果が得られている。
論文 参考訳(メタデータ) (2023-01-04T10:52:02Z) - A Bayesian Bradley-Terry model to compare multiple ML algorithms on
multiple data sets [4.394728504061753]
本稿では, ベイズモデルを用いて, 複数のデータセット上で, 任意の距離で複数のアルゴリズムを比較する。
このモデルはBradley-Terryモデルに基づいており、1つのアルゴリズムが異なるデータセットで他のアルゴリズムよりも優れている回数を数えている。
論文 参考訳(メタデータ) (2022-08-09T17:59:06Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Variational message passing (VMP) applied to LDA [3.5027291542274366]
変分メッセージパッシング(VMP)は、VBのメッセージパッシングである。
本稿では、潜在ディリクレ割り当て(LDA)のためのVMP方程式について述べる。
論文 参考訳(メタデータ) (2021-11-02T10:32:15Z) - ALBU: An approximate Loopy Belief message passing algorithm for LDA to
improve performance on small data sets [3.5027291542274366]
本稿では,LDA(Latent Dirichlet Allocation)に適用した新しい変分メッセージパッシングアルゴリズムを提案する。
金の標準VBとGibsサンプリングアルゴリズムを比較検討した。
テキストコーパスとKLDのコヒーレンス測定とシミュレーションを用いて、ALBUはVBよりも正確な潜伏分布を学習することを示す。
論文 参考訳(メタデータ) (2021-10-01T19:55:12Z) - Can Active Learning Preemptively Mitigate Fairness Issues? [66.84854430781097]
データセットバイアスは、機械学習における不公平な原因の1つです。
不確実性に基づくALで訓練されたモデルが保護クラスの決定において公平であるかどうかを検討する。
また,勾配反転(GRAD)やBALDなどのアルゴリズム的公正性手法の相互作用についても検討する。
論文 参考訳(メタデータ) (2021-04-14T14:20:22Z) - Spike and slab variational Bayes for high dimensional logistic
regression [5.371337604556311]
変分ベイズ (VB) は、マルコフ連鎖モンテカルロのベイズ推定に対するスケーラブルな代替品として人気がある。
VB は $ell$ と sparse truth の予測損失の両方において漸近的でない理論的保証を提供する。
数値解析により,一般的なスパースVB手法によるVBアルゴリズムの性能向上を確認した。
論文 参考訳(メタデータ) (2020-10-22T12:49:58Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z) - Improving Reliability of Latent Dirichlet Allocation by Assessing Its
Stability Using Clustering Techniques on Replicated Runs [0.3499870393443268]
本研究は,LDAの安定度を再現走行の代入値と比較することによって検討する。
修正ジャカード係数を用いて、2つの生成トピックの類似性を定量化する。
S-CLOPはLDAモデルの安定性を評価するのに有用であることを示す。
論文 参考訳(メタデータ) (2020-02-14T07:10:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。