論文の概要: VSEC-LDA: Boosting Topic Modeling with Embedded Vocabulary Selection
- arxiv url: http://arxiv.org/abs/2001.05578v1
- Date: Wed, 15 Jan 2020 22:16:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 06:41:30.088297
- Title: VSEC-LDA: Boosting Topic Modeling with Embedded Vocabulary Selection
- Title(参考訳): VSEC-LDA:埋め込み語彙選択によるトピックモデリングの強化
- Authors: Yuzhen Ding, Baoxin Li
- Abstract要約: VSEC-LDA(Vocabulary-Embedded Correspondence-LDA)と呼ばれるトピックモデリングの新しいアプローチを提案する。
VSEC-LDAは、最も関連性の高い単語を同時に選択しながら、潜在モデルを学習する。
単語の選択は、下層のモデルに対する単語の相対的寄与を測定するエントロピーに基づく計量によって駆動される。
- 参考スコア(独自算出の注目度): 20.921010767231923
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Topic modeling has found wide application in many problems where latent
structures of the data are crucial for typical inference tasks. When applying a
topic model, a relatively standard pre-processing step is to first build a
vocabulary of frequent words. Such a general pre-processing step is often
independent of the topic modeling stage, and thus there is no guarantee that
the pre-generated vocabulary can support the inference of some optimal (or even
meaningful) topic models appropriate for a given task, especially for computer
vision applications involving "visual words". In this paper, we propose a new
approach to topic modeling, termed Vocabulary-Selection-Embedded
Correspondence-LDA (VSEC-LDA), which learns the latent model while
simultaneously selecting most relevant words. The selection of words is driven
by an entropy-based metric that measures the relative contribution of the words
to the underlying model, and is done dynamically while the model is learned. We
present three variants of VSEC-LDA and evaluate the proposed approach with
experiments on both synthetic and real databases from different applications.
The results demonstrate the effectiveness of built-in vocabulary selection and
its importance in improving the performance of topic modeling.
- Abstract(参考訳): トピックモデリングは、データの潜在構造が典型的な推論タスクに不可欠である多くの問題で広く応用されている。
トピックモデルを適用する場合、比較的標準的な事前処理ステップは、まず頻繁な単語の語彙を構築することである。
このような一般的な前処理ステップは、しばしばトピックモデリング段階とは独立しているため、事前に生成された語彙が与えられたタスク、特に視覚的単語を含むコンピュータビジョンアプリケーションにおいて最適な(あるいは意味のある)トピックモデルの推論をサポートすることは保証されない。
本稿では,VSEC-LDA(Vocabulary-Embedded Correspondence-LDA)と呼ばれるトピックモデリングの新しいアプローチを提案する。
単語の選択は、基礎となるモデルに対する単語の相対的寄与を測定するエントロピーに基づく計量によって行われ、モデルが学習される間動的に行われる。
本稿では,VSEC-LDAの3つの変種について述べるとともに,異なるアプリケーションからの合成データベースと実データベースの実験により,提案手法の評価を行う。
その結果,組込み語彙選択の有効性と,トピック・モデリングの性能向上の重要性が示された。
関連論文リスト
- Integrating Self-supervised Speech Model with Pseudo Word-level Targets
from Visually-grounded Speech Model [57.78191634042409]
擬似単語レベルのターゲットを学習プロセスに統合するフレームワークであるPseudo-Word HuBERT(PW-HuBERT)を提案する。
4つの音声言語理解(SLU)ベンチマークによる実験結果から,意味情報の収集におけるモデルの有用性が示唆された。
論文 参考訳(メタデータ) (2024-02-08T16:55:21Z) - TopicAdapt- An Inter-Corpora Topics Adaptation Approach [27.450275637652418]
本稿では、関連するソースコーパスから関連するトピックを適応し、ソースコーパスに存在しないターゲットコーパスに新しいトピックを発見できるトピックモデルTopicAdaptを提案する。
多様なドメインからの複数のデータセットに対する実験は、最先端のトピックモデルに対して提案されたモデルの優位性を示している。
論文 参考訳(メタデータ) (2023-10-08T02:56:44Z) - Topics in the Haystack: Extracting and Evaluating Topics beyond
Coherence [0.0]
本稿では,文と文書のテーマを深く理解する手法を提案する。
これにより、一般的な単語やネオロジズムを含む潜在トピックを検出することができる。
本稿では, 侵入者の単語の人間識別と相関係数を示し, 単語侵入作業において, ほぼ人間レベルの結果を得る。
論文 参考訳(メタデータ) (2023-03-30T12:24:25Z) - Visualizing the Relationship Between Encoded Linguistic Information and
Task Performance [53.223789395577796]
本稿では,Pareto Optimalityの観点から,符号化言語情報とタスクパフォーマンスの動的関係について検討する。
我々は、機械翻訳と言語モデリングという2つの一般的なNLPタスクの実験を行い、様々な言語情報とタスクパフォーマンスの関係について検討する。
実験結果から,NLPタスクには構文情報が有用であるのに対して,より構文情報の符号化が必ずしも優れたパフォーマンスをもたらすとは限らないことが示唆された。
論文 参考訳(メタデータ) (2022-03-29T19:03:10Z) - Topic Discovery via Latent Space Clustering of Pretrained Language Model
Representations [35.74225306947918]
本研究では, PLM 埋め込みを基盤とした空間学習とクラスタリングの連携フレームワークを提案する。
提案モデルでは,トピック発見のためにPLMがもたらす強力な表現力と言語的特徴を効果的に活用する。
論文 参考訳(メタデータ) (2022-02-09T17:26:08Z) - Evaluation of Audio-Visual Alignments in Visually Grounded Speech Models [2.1320960069210484]
本研究は,視覚的接地音声(VGS)モデルを用いたマルチモーダル学習の研究である。
視覚オブジェクトと音声単語の整列におけるモデル性能評価のための体系的指標を提案する。
クロスモーダル・アテンションはモデルのセマンティック・クロスモーダル検索性能の向上に役立つことを示す。
論文 参考訳(メタデータ) (2021-07-05T12:54:05Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Topic Adaptation and Prototype Encoding for Few-Shot Visual Storytelling [81.33107307509718]
トピック間一般化の能力をモデル化するためのトピック適応型ストーリーテラを提案する。
また,アトピー内導出能力のモデル化を目的とした符号化手法の試作も提案する。
実験結果から,トピック適応とプロトタイプ符号化構造が相互に利益をもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2020-08-11T03:55:11Z) - Behind the Scene: Revealing the Secrets of Pre-trained
Vision-and-Language Models [65.19308052012858]
最近のTransformerベースの大規模事前学習モデルは、視覚言語(V+L)研究に革命をもたらした。
VALUEは,マルチモーダル事前学習における内部動作の解明を目的とした,精密に設計された探索タスクのセットである。
主要な観察:事前訓練されたモデルは、推論中の画像よりもテキストに出席する傾向を示す。
論文 参考訳(メタデータ) (2020-05-15T01:06:54Z) - How Far are We from Effective Context Modeling? An Exploratory Study on
Semantic Parsing in Context [59.13515950353125]
文法に基づく意味解析を行い,その上に典型的な文脈モデリング手法を適用する。
我々は,2つの大きなクロスドメインデータセットに対して,13のコンテキストモデリング手法を評価した。
論文 参考訳(メタデータ) (2020-02-03T11:28:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。