論文の概要: VSEC-LDA: Boosting Topic Modeling with Embedded Vocabulary Selection
- arxiv url: http://arxiv.org/abs/2001.05578v1
- Date: Wed, 15 Jan 2020 22:16:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 06:41:30.088297
- Title: VSEC-LDA: Boosting Topic Modeling with Embedded Vocabulary Selection
- Title(参考訳): VSEC-LDA:埋め込み語彙選択によるトピックモデリングの強化
- Authors: Yuzhen Ding, Baoxin Li
- Abstract要約: VSEC-LDA(Vocabulary-Embedded Correspondence-LDA)と呼ばれるトピックモデリングの新しいアプローチを提案する。
VSEC-LDAは、最も関連性の高い単語を同時に選択しながら、潜在モデルを学習する。
単語の選択は、下層のモデルに対する単語の相対的寄与を測定するエントロピーに基づく計量によって駆動される。
- 参考スコア(独自算出の注目度): 20.921010767231923
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Topic modeling has found wide application in many problems where latent
structures of the data are crucial for typical inference tasks. When applying a
topic model, a relatively standard pre-processing step is to first build a
vocabulary of frequent words. Such a general pre-processing step is often
independent of the topic modeling stage, and thus there is no guarantee that
the pre-generated vocabulary can support the inference of some optimal (or even
meaningful) topic models appropriate for a given task, especially for computer
vision applications involving "visual words". In this paper, we propose a new
approach to topic modeling, termed Vocabulary-Selection-Embedded
Correspondence-LDA (VSEC-LDA), which learns the latent model while
simultaneously selecting most relevant words. The selection of words is driven
by an entropy-based metric that measures the relative contribution of the words
to the underlying model, and is done dynamically while the model is learned. We
present three variants of VSEC-LDA and evaluate the proposed approach with
experiments on both synthetic and real databases from different applications.
The results demonstrate the effectiveness of built-in vocabulary selection and
its importance in improving the performance of topic modeling.
- Abstract(参考訳): トピックモデリングは、データの潜在構造が典型的な推論タスクに不可欠である多くの問題で広く応用されている。
トピックモデルを適用する場合、比較的標準的な事前処理ステップは、まず頻繁な単語の語彙を構築することである。
このような一般的な前処理ステップは、しばしばトピックモデリング段階とは独立しているため、事前に生成された語彙が与えられたタスク、特に視覚的単語を含むコンピュータビジョンアプリケーションにおいて最適な(あるいは意味のある)トピックモデルの推論をサポートすることは保証されない。
本稿では,VSEC-LDA(Vocabulary-Embedded Correspondence-LDA)と呼ばれるトピックモデリングの新しいアプローチを提案する。
単語の選択は、基礎となるモデルに対する単語の相対的寄与を測定するエントロピーに基づく計量によって行われ、モデルが学習される間動的に行われる。
本稿では,VSEC-LDAの3つの変種について述べるとともに,異なるアプリケーションからの合成データベースと実データベースの実験により,提案手法の評価を行う。
その結果,組込み語彙選択の有効性と,トピック・モデリングの性能向上の重要性が示された。
関連論文リスト
- Enhancing Short-Text Topic Modeling with LLM-Driven Context Expansion and Prefix-Tuned VAEs [25.915607750636333]
本稿では,大規模言語モデル(LLM)を利用して,トピックモデリングを適用する前に,短いテキストをより詳細なシーケンスに拡張する手法を提案する。
提案手法は,データ空間が極端である実世界のデータセットに対する広範な実験により,短文のトピックモデリング性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-10-04T01:28:56Z) - A Large-Scale Evaluation of Speech Foundation Models [110.95827399522204]
音声処理ユニバーサルパフォーマンスベンチマーク(SUPERB)を構築し,基礎モデルパラダイムの有効性について検討する。
凍結基盤モデルを用いてSUPERBにおける音声処理タスクに対処する統合マルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-15T00:03:16Z) - GINopic: Topic Modeling with Graph Isomorphism Network [0.8962460460173959]
本稿では,グラフ同型ネットワークに基づく話題モデリングフレームワークGINopicを紹介し,単語間の相関関係を捉える。
本稿では,既存のトピックモデルと比較してGINopicの有効性を実証し,トピックモデリングの進歩の可能性を明らかにする。
論文 参考訳(メタデータ) (2024-04-02T17:18:48Z) - Enhanced Short Text Modeling: Leveraging Large Language Models for Topic Refinement [7.6115889231452964]
トピックリファインメント(Topic Refinement)と呼ばれる新しいアプローチを導入する。
このアプローチは、トピックの初期のモデリングに直接関係せず、採掘後にトピックを改善することに重点を置いています。
素早いエンジニアリングを駆使して、所与のトピック内での話題外単語を排除し、文脈的に関係のある単語だけが、よりセマンティックに適合した単語で保存または置換されることを保証する。
論文 参考訳(メタデータ) (2024-03-26T13:50:34Z) - Integrating Self-supervised Speech Model with Pseudo Word-level Targets
from Visually-grounded Speech Model [57.78191634042409]
擬似単語レベルのターゲットを学習プロセスに統合するフレームワークであるPseudo-Word HuBERT(PW-HuBERT)を提案する。
4つの音声言語理解(SLU)ベンチマークによる実験結果から,意味情報の収集におけるモデルの有用性が示唆された。
論文 参考訳(メタデータ) (2024-02-08T16:55:21Z) - Visualizing the Relationship Between Encoded Linguistic Information and
Task Performance [53.223789395577796]
本稿では,Pareto Optimalityの観点から,符号化言語情報とタスクパフォーマンスの動的関係について検討する。
我々は、機械翻訳と言語モデリングという2つの一般的なNLPタスクの実験を行い、様々な言語情報とタスクパフォーマンスの関係について検討する。
実験結果から,NLPタスクには構文情報が有用であるのに対して,より構文情報の符号化が必ずしも優れたパフォーマンスをもたらすとは限らないことが示唆された。
論文 参考訳(メタデータ) (2022-03-29T19:03:10Z) - Topic Discovery via Latent Space Clustering of Pretrained Language Model
Representations [35.74225306947918]
本研究では, PLM 埋め込みを基盤とした空間学習とクラスタリングの連携フレームワークを提案する。
提案モデルでは,トピック発見のためにPLMがもたらす強力な表現力と言語的特徴を効果的に活用する。
論文 参考訳(メタデータ) (2022-02-09T17:26:08Z) - Evaluation of Audio-Visual Alignments in Visually Grounded Speech Models [2.1320960069210484]
本研究は,視覚的接地音声(VGS)モデルを用いたマルチモーダル学習の研究である。
視覚オブジェクトと音声単語の整列におけるモデル性能評価のための体系的指標を提案する。
クロスモーダル・アテンションはモデルのセマンティック・クロスモーダル検索性能の向上に役立つことを示す。
論文 参考訳(メタデータ) (2021-07-05T12:54:05Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Behind the Scene: Revealing the Secrets of Pre-trained
Vision-and-Language Models [65.19308052012858]
最近のTransformerベースの大規模事前学習モデルは、視覚言語(V+L)研究に革命をもたらした。
VALUEは,マルチモーダル事前学習における内部動作の解明を目的とした,精密に設計された探索タスクのセットである。
主要な観察:事前訓練されたモデルは、推論中の画像よりもテキストに出席する傾向を示す。
論文 参考訳(メタデータ) (2020-05-15T01:06:54Z) - How Far are We from Effective Context Modeling? An Exploratory Study on
Semantic Parsing in Context [59.13515950353125]
文法に基づく意味解析を行い,その上に典型的な文脈モデリング手法を適用する。
我々は,2つの大きなクロスドメインデータセットに対して,13のコンテキストモデリング手法を評価した。
論文 参考訳(メタデータ) (2020-02-03T11:28:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。