論文の概要: Multi-source Neural Topic Modeling in Multi-view Embedding Spaces
- arxiv url: http://arxiv.org/abs/2104.08551v1
- Date: Sat, 17 Apr 2021 14:08:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-23 09:58:49.925807
- Title: Multi-source Neural Topic Modeling in Multi-view Embedding Spaces
- Title(参考訳): マルチビュー埋め込み空間におけるマルチソースニューラルトピックモデリング
- Authors: Pankaj Gupta, Yatin Chaudhary, Hinrich Sch\"utze
- Abstract要約: 本研究は,マルチビュー埋め込み空間を用いたニューラルトピックモデリングフレームワークを提案する。
まず、事前訓練されたトピック(TopicPool)とワード埋め込み(WordPool)の各プールを構築します。
次に、1つ以上の関連するソースドメインを特定し、スパースターゲットドメインで意味のある学習をガイドするために知識を伝達する。
- 参考スコア(独自算出の注目度): 21.506835768643466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Though word embeddings and topics are complementary representations, several
past works have only used pretrained word embeddings in (neural) topic modeling
to address data sparsity in short-text or small collection of documents. This
work presents a novel neural topic modeling framework using multi-view
embedding spaces: (1) pretrained topic-embeddings, and (2) pretrained
word-embeddings (context insensitive from Glove and context-sensitive from BERT
models) jointly from one or many sources to improve topic quality and better
deal with polysemy. In doing so, we first build respective pools of pretrained
topic (i.e., TopicPool) and word embeddings (i.e., WordPool). We then identify
one or more relevant source domain(s) and transfer knowledge to guide
meaningful learning in the sparse target domain. Within neural topic modeling,
we quantify the quality of topics and document representations via
generalization (perplexity), interpretability (topic coherence) and information
retrieval (IR) using short-text, long-text, small and large document
collections from news and medical domains. Introducing the multi-source
multi-view embedding spaces, we have shown state-of-the-art neural topic
modeling using 6 source (high-resource) and 5 target (low-resource) corpora.
- Abstract(参考訳): 単語の埋め込みとトピックは相補的な表現であるが、いくつかの過去の研究では、(神経)トピックモデリングにおける事前訓練された単語埋め込みのみを使用して、短文または小文書のデータの疎結合に対処している。
本研究は,(1)事前学習された話題埋め込み,(2)事前学習された単語埋め込み(Glove非感受性およびBERTモデルからのコンテキスト感受性)を1つまたは複数のソースから組み合わせた,トピックの品質向上と多面的対処を行う。
そのために、まず、事前学習されたトピック(トピックプール)とワード埋め込み(ワードプール)の各プールを構築します。
次に、1つ以上の関連するソースドメインを特定し、スパースターゲットドメインで意味のある学習をガイドするために知識を伝達する。
ニューラルトピックモデリングでは、ニュースや医療領域からの短文・長文・小・大規模文書コレクションを用いて、一般化(複雑度)、解釈可能性(トピックコヒーレンス)、情報検索(IR)を通じてトピックや文書表現の品質を定量化する。
マルチソースのマルチビュー埋め込み空間を紹介し,6つのソース(高リソース)と5つのターゲット(低リソース)コーパスを用いた最先端のニューラルネットワークトピックモデリングを示した。
関連論文リスト
- Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - MGDoc: Pre-training with Multi-granular Hierarchy for Document Image
Understanding [53.03978356918377]
異なるレベルの粒度のコンテンツ間の空間的階層的関係は、文書画像理解タスクに不可欠である。
既存の方法は単語レベルか地域レベルから特徴を学習するが、両方を同時に考えることができない。
MGDocは,ページレベル,領域レベル,単語レベル情報を同時にエンコードするマルチモーダル・マルチグラニュラ事前学習フレームワークである。
論文 参考訳(メタデータ) (2022-11-27T22:47:37Z) - Knowledge-Aware Bayesian Deep Topic Model [50.58975785318575]
本稿では,事前知識を階層型トピックモデリングに組み込むベイズ生成モデルを提案する。
提案モデルでは,事前知識を効率的に統合し,階層的なトピック発見と文書表現の両面を改善する。
論文 参考訳(メタデータ) (2022-09-20T09:16:05Z) - Topic Discovery via Latent Space Clustering of Pretrained Language Model
Representations [35.74225306947918]
本研究では, PLM 埋め込みを基盤とした空間学習とクラスタリングの連携フレームワークを提案する。
提案モデルでは,トピック発見のためにPLMがもたらす強力な表現力と言語的特徴を効果的に活用する。
論文 参考訳(メタデータ) (2022-02-09T17:26:08Z) - TopNet: Learning from Neural Topic Model to Generate Long Stories [43.5564336855688]
Long Story Generation (LSG) は自然言語処理における目標の1つである。
短い入力を補完する高品質なスケルトン語を得るために,emphTopNetを提案する。
提案手法は骨格語選択に極めて有効であり, 自動評価と人的評価の両方において最先端のモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-12-14T09:47:53Z) - Neural Attention-Aware Hierarchical Topic Model [25.721713066830404]
文と文書語数を共同で再構成する変分自動エンコーダ(VAE)NTMモデルを提案する。
我々のモデルは、各文書の埋め込みを利用して文の正規化を行う階層的なKL分岐も特徴としている。
定量的および定性的な実験は,1) 文レベルと文書レベルの再現誤りを低減し,2) 実世界のデータセットからより一貫性のあるトピックを発見できる。
論文 参考訳(メタデータ) (2021-10-14T05:42:32Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - Deep Learning for Text Style Transfer: A Survey [71.8870854396927]
テキストスタイル転送は、生成したテキストの特定の属性を制御することを目的として、自然言語生成において重要なタスクである。
2017年の最初のニューラルテキストスタイル転送作業以降,100以上の代表的な記事を対象とした,ニューラルテキストスタイル転送の研究の体系的な調査を行う。
タスクの定式化、既存のデータセットとサブタスク、評価、並列データと非並列データの存在下での豊富な方法論について論じる。
論文 参考訳(メタデータ) (2020-11-01T04:04:43Z) - Context Reinforced Neural Topic Modeling over Short Texts [15.487822291146689]
文脈強化ニューラルトピックモデル(CRNTM)を提案する。
CRNTMは各単語のトピックを狭い範囲で推測し、各短いテキストがわずかにまとまったトピックだけをカバーしていると仮定する。
2つのベンチマークデータセットの実験は、トピック発見とテキスト分類の両方において提案モデルの有効性を検証する。
論文 参考訳(メタデータ) (2020-08-11T06:41:53Z) - Topic Adaptation and Prototype Encoding for Few-Shot Visual Storytelling [81.33107307509718]
トピック間一般化の能力をモデル化するためのトピック適応型ストーリーテラを提案する。
また,アトピー内導出能力のモデル化を目的とした符号化手法の試作も提案する。
実験結果から,トピック適応とプロトタイプ符号化構造が相互に利益をもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2020-08-11T03:55:11Z) - Neural Topic Modeling with Continual Lifelong Learning [19.969393484927252]
ニューラルトピックモデリングのための生涯学習フレームワークを提案する。
ドキュメントコレクションのストリームを処理し、トピックを蓄積し、将来のトピックモデリングタスクをガイドすることができる。
パープレキシティ、トピックコヒーレンス、情報検索タスクによって定量化された性能向上を示す。
論文 参考訳(メタデータ) (2020-06-19T00:43:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。