論文の概要: ALBU: An approximate Loopy Belief message passing algorithm for LDA to
improve performance on small data sets
- arxiv url: http://arxiv.org/abs/2110.00635v1
- Date: Fri, 1 Oct 2021 19:55:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-05 15:58:43.199841
- Title: ALBU: An approximate Loopy Belief message passing algorithm for LDA to
improve performance on small data sets
- Title(参考訳): albu:ldaによる小さなデータセットのパフォーマンス向上のための近似ループ型信念メッセージパッシングアルゴリズム
- Authors: Rebecca M.C. Taylor and Johan A. du Preez
- Abstract要約: 本稿では,LDA(Latent Dirichlet Allocation)に適用した新しい変分メッセージパッシングアルゴリズムを提案する。
金の標準VBとGibsサンプリングアルゴリズムを比較検討した。
テキストコーパスとKLDのコヒーレンス測定とシミュレーションを用いて、ALBUはVBよりも正確な潜伏分布を学習することを示す。
- 参考スコア(独自算出の注目度): 3.5027291542274366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Variational Bayes (VB) applied to latent Dirichlet allocation (LDA) has
become the most popular algorithm for aspect modeling. While sufficiently
successful in text topic extraction from large corpora, VB is less successful
in identifying aspects in the presence of limited data. We present a novel
variational message passing algorithm as applied to Latent Dirichlet Allocation
(LDA) and compare it with the gold standard VB and collapsed Gibbs sampling. In
situations where marginalisation leads to non-conjugate messages, we use ideas
from sampling to derive approximate update equations. In cases where conjugacy
holds, Loopy Belief update (LBU) (also known as Lauritzen-Spiegelhalter) is
used. Our algorithm, ALBU (approximate LBU), has strong similarities with
Variational Message Passing (VMP) (which is the message passing variant of VB).
To compare the performance of the algorithms in the presence of limited data,
we use data sets consisting of tweets and news groups. Additionally, to perform
more fine grained evaluations and comparisons, we use simulations that enable
comparisons with the ground truth via Kullback-Leibler divergence (KLD). Using
coherence measures for the text corpora and KLD with the simulations we show
that ALBU learns latent distributions more accurately than does VB, especially
for smaller data sets.
- Abstract(参考訳): 遅延ディリクレアロケーション (LDA) に適用される変分ベイズ (VB) はアスペクトモデリングにおける最も一般的なアルゴリズムとなっている。
大規模なコーパスからテキストトピック抽出に十分な成功を収める一方で、VBは限られたデータの存在下での側面を特定することにはあまり成功していない。
我々は, 潜在ディリクレ割当(lda)に適用した新しい変分メッセージパッシングアルゴリズムを提案し, 金標準vbと崩壊ギブスサンプリングとの比較を行った。
余分化が非共役メッセージにつながる状況では、サンプリングのアイデアを使って近似更新方程式を導出する。
共謀がある場合、ループ信条更新(lbu、lauritzen-spiegelhalterとも呼ばれる)が使用される。
我々のアルゴリズムであるALBU (approximate LBU) は、変分メッセージパッシング (VMP) と強い類似性を持っている(VBのメッセージパッシング変種である)。
限られたデータが存在する場合のアルゴリズムの性能を比較するために、ツイートとニュースグループからなるデータセットを使用する。
さらに,よりきめ細かい評価と比較を行うために,kullback-leibler divergence (kld) による基底真理との比較を可能にするシミュレーションを用いる。
テキストコーパスとKLDのコヒーレンス測定とシミュレーションを用いて、ALBUは、特に小さなデータセットにおいて、VBよりも正確な潜伏分布を学習することを示す。
関連論文リスト
- A Bayesian Approach to Data Point Selection [24.98069363998565]
データポイントの選択(DPS)は、ディープラーニングにおいて重要なトピックになりつつある。
既存のDPSへのアプローチは、主にバイレベル最適化(BLO)の定式化に基づいている。
DPSに対する新しいベイズ的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-06T09:04:13Z) - ExaRanker-Open: Synthetic Explanation for IR using Open-Source LLMs [60.81649785463651]
ExaRanker-Openを導入し、オープンソース言語モデルを適用して、説明を生成する。
以上の結果から,LLMのサイズが大きくなるにつれて,説明の組み込みが神経ランク付けを継続的に促進することが明らかとなった。
論文 参考訳(メタデータ) (2024-02-09T11:23:14Z) - MinPrompt: Graph-based Minimal Prompt Data Augmentation for Few-shot Question Answering [64.6741991162092]
オープンドメイン質問応答のための最小限のデータ拡張フレームワークMinPromptを提案する。
我々は、生テキストをグラフ構造に変換し、異なる事実文間の接続を構築する。
次に、グラフアルゴリズムを適用して、原文のほとんどの情報をカバーするのに必要な最小限の文の集合を識別する。
同定された文サブセットに基づいてQAペアを生成し、選択した文に基づいてモデルをトレーニングし、最終モデルを得る。
論文 参考訳(メタデータ) (2023-10-08T04:44:36Z) - Performance Evaluation and Comparison of a New Regression Algorithm [4.125187280299247]
新たに提案した回帰アルゴリズムの性能を,従来の4つの機械学習アルゴリズムと比較した。
GitHubリポジトリにソースコードを提供したので、読者は結果の複製を自由にできます。
論文 参考訳(メタデータ) (2023-06-15T13:01:16Z) - SimLDA: A tool for topic model evaluation [2.6397379133308214]
本稿では,LDA(Latent Dirichlet Allocation)に適用した新しい変分メッセージパッシングアルゴリズムを提案する。
金の標準VBとGibsサンプリングアルゴリズムを比較検討した。
コヒーレンス測度を用いて、ALBUは、特に小さなデータセットに対して、VBよりも正確な潜伏分布を学習することを示す。
論文 参考訳(メタデータ) (2022-08-19T12:25:53Z) - Langevin Monte Carlo for Contextual Bandits [72.00524614312002]
Langevin Monte Carlo Thompson Sampling (LMC-TS) が提案されている。
提案アルゴリズムは,文脈的帯域幅の特別な場合において,最高のトンプソンサンプリングアルゴリズムと同じサブ線形残差を達成できることを示す。
論文 参考訳(メタデータ) (2022-06-22T17:58:23Z) - Can Active Learning Preemptively Mitigate Fairness Issues? [66.84854430781097]
データセットバイアスは、機械学習における不公平な原因の1つです。
不確実性に基づくALで訓練されたモデルが保護クラスの決定において公平であるかどうかを検討する。
また,勾配反転(GRAD)やBALDなどのアルゴリズム的公正性手法の相互作用についても検討する。
論文 参考訳(メタデータ) (2021-04-14T14:20:22Z) - Sparse Feature Selection Makes Batch Reinforcement Learning More Sample
Efficient [62.24615324523435]
本稿では,スパース線形関数近似を用いた高次元バッチ強化学習(RL)の統計的解析を行う。
候補となる機能が多数存在する場合,提案手法がバッチRLをより効率的にサンプリングできるという事実に光を当てる。
論文 参考訳(メタデータ) (2020-11-08T16:48:02Z) - DecAug: Augmenting HOI Detection via Decomposition [54.65572599920679]
現在のアルゴリズムでは、データセット内のトレーニングサンプルやカテゴリの不均衡が不足している。
本稿では,HOI検出のためのDECAugと呼ばれる効率的かつ効率的なデータ拡張手法を提案する。
実験の結果,V-COCOおよびHICODETデータセットの3.3mAPと1.6mAPの改善が得られた。
論文 参考訳(メタデータ) (2020-10-02T13:59:05Z) - Active Sampling for Pairwise Comparisons via Approximate Message Passing
and Information Gain Maximization [5.771869590520189]
本稿では、近似メッセージパッシングと期待情報ゲインに基づくアクティブサンプリングアルゴリズムASAPを提案する。
既存の手法と比較して,ASAPは推定スコアの精度が最も高いことを示す。
論文 参考訳(メタデータ) (2020-04-12T20:48:10Z) - Improving Reliability of Latent Dirichlet Allocation by Assessing Its
Stability Using Clustering Techniques on Replicated Runs [0.3499870393443268]
本研究は,LDAの安定度を再現走行の代入値と比較することによって検討する。
修正ジャカード係数を用いて、2つの生成トピックの類似性を定量化する。
S-CLOPはLDAモデルの安定性を評価するのに有用であることを示す。
論文 参考訳(メタデータ) (2020-02-14T07:10:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。