論文の概要: S2vNTM: Semi-supervised vMF Neural Topic Modeling
- arxiv url: http://arxiv.org/abs/2307.04804v1
- Date: Thu, 6 Jul 2023 21:44:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-16 04:03:44.632705
- Title: S2vNTM: Semi-supervised vMF Neural Topic Modeling
- Title(参考訳): S2vNTM: 半教師付きvMFニューラルトピックモデリング
- Authors: Weijie Xu, Jay Desai, Srinivasan Sengamedu, Xiaoyu Jiang, Francis
Iannacci
- Abstract要約: キーワードのような人間の知識を統合するのは難しい。
モデルのトレーニングにはたくさんのリソースが必要です。
大量のテキストデータを事前訓練に頼っていた。
- 参考スコア(独自算出の注目度): 1.5224436211478216
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language model based methods are powerful techniques for text classification.
However, the models have several shortcomings. (1) It is difficult to integrate
human knowledge such as keywords. (2) It needs a lot of resources to train the
models. (3) It relied on large text data to pretrain. In this paper, we propose
Semi-Supervised vMF Neural Topic Modeling (S2vNTM) to overcome these
difficulties. S2vNTM takes a few seed keywords as input for topics. S2vNTM
leverages the pattern of keywords to identify potential topics, as well as
optimize the quality of topics' keywords sets. Across a variety of datasets,
S2vNTM outperforms existing semi-supervised topic modeling methods in
classification accuracy with limited keywords provided. S2vNTM is at least
twice as fast as baselines.
- Abstract(参考訳): 言語モデルに基づく手法はテキスト分類の強力な手法である。
しかし、モデルにはいくつかの欠点がある。
1)キーワードなどの人的知識を統合することは困難である。
(2) モデルをトレーニングするには多くのリソースが必要です。
3) 事前学習には大きなテキストデータに頼った。
本稿では,これらの課題を克服するためのセミスーパービジョンvMFニューラルトピックモデリング(S2vNTM)を提案する。
S2vNTMはいくつかのシードキーワードをトピックの入力として取り込む。
s2vntmはキーワードのパターンを利用して潜在的なトピックを特定し、トピックのキーワードセットの品質を最適化する。
様々なデータセットにおいて、S2vNTMは、限定キーワードによる分類精度において、既存の半教師付きトピックモデリング手法よりも優れている。
S2vNTMはベースラインの少なくとも2倍の速度である。
関連論文リスト
- Triples-to-isiXhosa (T2X): Addressing the Challenges of Low-Resource
Agglutinative Data-to-Text Generation [9.80836683456026]
我々は,低リソースかつ凝集性の高いisiXhosaのデータ・トゥ・テキストに取り組む。
我々はWebNLGのサブセットに基づいた新しいデータセットであるTriples-to-isiXhosa (T2X)を紹介する。
本研究では,T2X の評価フレームワークを開発し,データ記述の精度を計測する。
論文 参考訳(メタデータ) (2024-03-12T11:53:27Z) - KDSTM: Neural Semi-supervised Topic Modeling with Knowledge Distillation [5.688430564294212]
テキスト分類タスクでは、BERT や GPT-3 のような事前訓練された言語モデルを微調整することで、競争精度が向上する。
一般的な話題モデリング手法は、事前学習を必要とせず、意味のある単語のパターンを抽出するために文書を解析する利点がある。
我々は、テキスト分類タスクにおけるトピックモデリングの教師なし洞察抽出を活用するために、知識蒸留半教師付きトピックモデリング(KDSTM)を開発した。
論文 参考訳(メタデータ) (2023-07-04T18:49:19Z) - vONTSS: vMF based semi-supervised neural topic modeling with optimal
transport [6.874745415692134]
この研究は、von Mises-Fisher (vMF) ベースの変分オートエンコーダと最適なトランスポートを用いた半教師付きニューラルトピックモデリング手法 vONTSS を提案する。
実験により、vONTSSは、分類精度と多様性において、既存の半教師付きトピックモデリング手法よりも優れていることが示された。
また、類似の分類性能を達成しつつ、最先端の弱教師付きテキスト分類法よりもはるかに高速である。
論文 参考訳(メタデータ) (2023-07-03T04:23:41Z) - Mitigating Data Imbalance and Representation Degeneration in
Multilingual Machine Translation [103.90963418039473]
Bi-ACLは、MNMTモデルの性能を向上させるために、ターゲット側モノリンガルデータとバイリンガル辞書のみを使用するフレームワークである。
Bi-ACLは、長い尾の言語でも、高リソースの言語でも、より効果的であることを示す。
論文 参考訳(メタデータ) (2023-05-22T07:31:08Z) - Towards Robust k-Nearest-Neighbor Machine Translation [72.9252395037097]
近年,k-Nearest-Neighbor Machine Translation (kNN-MT)がNMTの重要な研究方向となっている。
その主なアイデアは、NMTモデルを更新することなく翻訳を変更するために、追加のデータストアから有用なキーと値のペアを取得することである。
取り出したノイズペアはモデル性能を劇的に低下させる。
ノイズの影響を軽減するために,頑健なトレーニングを施した信頼性向上kNN-MTモデルを提案する。
論文 参考訳(メタデータ) (2022-10-17T07:43:39Z) - SMDT: Selective Memory-Augmented Neural Document Translation [53.4627288890316]
本稿では,文脈の広い仮説空間を含む文書を扱うために,選択的メモリ拡張型ニューラル文書翻訳モデルを提案する。
トレーニングコーパスから類似のバイリンガル文ペアを抽出し,グローバルな文脈を拡大する。
ローカルなコンテキストと多様なグローバルなコンテキストをキャプチャする選択的なメカニズムで、2ストリームのアテンションモデルを拡張する。
論文 参考訳(メタデータ) (2022-01-05T14:23:30Z) - Neural Attention-Aware Hierarchical Topic Model [25.721713066830404]
文と文書語数を共同で再構成する変分自動エンコーダ(VAE)NTMモデルを提案する。
我々のモデルは、各文書の埋め込みを利用して文の正規化を行う階層的なKL分岐も特徴としている。
定量的および定性的な実験は,1) 文レベルと文書レベルの再現誤りを低減し,2) 実世界のデータセットからより一貫性のあるトピックを発見できる。
論文 参考訳(メタデータ) (2021-10-14T05:42:32Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Context Reinforced Neural Topic Modeling over Short Texts [15.487822291146689]
文脈強化ニューラルトピックモデル(CRNTM)を提案する。
CRNTMは各単語のトピックを狭い範囲で推測し、各短いテキストがわずかにまとまったトピックだけをカバーしていると仮定する。
2つのベンチマークデータセットの実験は、トピック発見とテキスト分類の両方において提案モデルの有効性を検証する。
論文 参考訳(メタデータ) (2020-08-11T06:41:53Z) - DiscreTalk: Text-to-Speech as a Machine Translation Problem [52.33785857500754]
本稿ではニューラルマシン翻訳(NMT)に基づくエンドツーエンドテキスト音声合成(E2E-TTS)モデルを提案する。
提案モデルは,非自己回帰ベクトル量子化変分オートエンコーダ(VQ-VAE)モデルと自己回帰トランスフォーマー-NMTモデルという2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2020-05-12T02:45:09Z) - Depth-Adaptive Graph Recurrent Network for Text Classification [71.20237659479703]
S-LSTM(Sentence-State LSTM)は、高効率なグラフリカレントネットワークである。
そこで本研究では,S-LSTMの深度適応機構を提案する。
論文 参考訳(メタデータ) (2020-02-29T03:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。