論文の概要: A Framework for Neural Topic Modeling of Text Corpora
- arxiv url: http://arxiv.org/abs/2108.08946v1
- Date: Thu, 19 Aug 2021 23:32:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-23 23:37:33.003769
- Title: A Framework for Neural Topic Modeling of Text Corpora
- Title(参考訳): テキストコーパスのニューラルトピックモデリングのためのフレームワーク
- Authors: Shayan Fazeli, Majid Sarrafzadeh
- Abstract要約: テキストの特徴を抽出し,組み込むための効率的なメカニズムを実現するためのオープンソースフレームワークであるFAMEを紹介した。
本ライブラリの有効性を示すために,よく知られたNews-Groupデータセットの実験を行った。
- 参考スコア(独自算出の注目度): 6.340447411058068
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Topic Modeling refers to the problem of discovering the main topics that have
occurred in corpora of textual data, with solutions finding crucial
applications in numerous fields. In this work, inspired by the recent
advancements in the Natural Language Processing domain, we introduce FAME, an
open-source framework enabling an efficient mechanism of extracting and
incorporating textual features and utilizing them in discovering topics and
clustering text documents that are semantically similar in a corpus. These
features range from traditional approaches (e.g., frequency-based) to the most
recent auto-encoding embeddings from transformer-based language models such as
BERT model family. To demonstrate the effectiveness of this library, we
conducted experiments on the well-known News-Group dataset. The library is
available online.
- Abstract(参考訳): トピックモデリング(Topic Modeling)は、テキストデータのコーパスで発生した主要なトピックを発見する問題であり、多くの分野において重要なアプリケーションを見つけるソリューションである。
本稿では,自然言語処理領域の最近の進歩に触発されて,テキストの特徴を抽出・統合し,それらをコーパスで意味的に類似したトピックやテキスト文書のクラスタリングに活用する,効率的なメカニズムを実現するオープンソースフレームワークであるfamを紹介する。
これらの特徴は、従来のアプローチ(例えば周波数ベース)から、BERTモデルファミリのようなトランスフォーマーベースの言語モデルからの最新の自動エンコード埋め込みまで様々である。
本ライブラリの有効性を示すために,よく知られたNews-Groupデータセットの実験を行った。
図書館はオンラインで入手できる。
関連論文リスト
- Retrieval is Accurate Generation [104.21926758253286]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。
本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-02-27T14:16:19Z) - GPT Struct Me: Probing GPT Models on Narrative Entity Extraction [2.049592435988883]
我々は,2つの最先端言語モデル(GPT-3とGPT-3.5)の物語の抽出能力を評価する。
本研究はポルトガルの119のニュース記事を集めたText2Story Lusaデータセットを用いて行った。
論文 参考訳(メタデータ) (2023-11-24T16:19:04Z) - A survey on text generation using generative adversarial networks [0.0]
本研究は, ジェネレーティブ・アドバイサル・ネットワークを用いた最近の研究とテキスト生成の進展について, 徹底的なレビューを行う。
テキスト生成における敵対的学習の使用は、いわゆる「自然な」言語を生成する代替手段を提供するので、有望である。
論文 参考訳(メタデータ) (2022-12-20T17:54:08Z) - An Overview on Controllable Text Generation via Variational
Auto-Encoders [15.97186478109836]
ニューラルベース生成モデリングの最近の進歩は、コンピュータシステムが人間と会話できるという期待を再燃させた。
変分自動エンコーダ(VAE)のような潜在変数モデル(LVM)は、テキストデータの分布パターンを特徴付けるように設計されている。
この概要は、既存の生成方式、テキスト変分自動エンコーダに関連する問題、および制御可能な生成に関するいくつかのアプリケーションについて概説する。
論文 参考訳(メタデータ) (2022-11-15T07:36:11Z) - Topic Discovery via Latent Space Clustering of Pretrained Language Model
Representations [35.74225306947918]
本研究では, PLM 埋め込みを基盤とした空間学習とクラスタリングの連携フレームワークを提案する。
提案モデルでは,トピック発見のためにPLMがもたらす強力な表現力と言語的特徴を効果的に活用する。
論文 参考訳(メタデータ) (2022-02-09T17:26:08Z) - BERT: A Review of Applications in Natural Language Processing and
Understanding [0.0]
本稿では,最も人気のあるディープラーニングベースの言語モデルであるBERTの応用について述べる。
このレビューの準備では、科学界で最も注目を集めた過去数年間に発表された数十のオリジナルの科学論文のデータが体系化されました。
論文 参考訳(メタデータ) (2021-03-22T15:34:39Z) - Positioning yourself in the maze of Neural Text Generation: A
Task-Agnostic Survey [54.34370423151014]
本稿では, ストーリーテリング, 要約, 翻訳など, 世代ごとのタスクインパクトをリレーする手法の構成要素について検討する。
本稿では,学習パラダイム,事前学習,モデリングアプローチ,復号化,各分野における重要な課題について,命令的手法の抽象化を提案する。
論文 参考訳(メタデータ) (2020-10-14T17:54:42Z) - Neural Entity Linking: A Survey of Models Based on Deep Learning [82.43751915717225]
本調査では,2015年以降に開発されたニューラルエンティティリンク(EL)システムの包括的記述について報告する。
その目標は、ニューラルエンティティリンクシステムの設計機能を体系化し、それらのパフォーマンスを一般的なベンチマーク上の注目すべき古典的手法と比較することである。
この調査はエンティティリンクの応用に焦点をあて、最近出現した、深い事前訓練されたマスキング言語モデルを強化するユースケースに焦点を当てている。
論文 参考訳(メタデータ) (2020-05-31T18:02:26Z) - A Multi-Perspective Architecture for Semantic Code Search [58.73778219645548]
テキストマッチングのための新しい多言語間ニューラルネットワークを提案する。
CoNaLaデータセットを用いた実験により,提案したモデルでは,従来の手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-05-06T04:46:11Z) - Few-shot Natural Language Generation for Task-Oriented Dialog [113.07438787659859]
FewShotWozは,タスク指向対話システムにおける数ショットの学習設定をシミュレートする最初の NLG ベンチマークである。
我々は, SC-GPTモデルを開発し, その制御可能な生成能力を得るために, 注釈付きNLGコーパスの大規模なセットで事前学習を行った。
FewShotWozとMulti-Domain-WOZデータセットの実験は、提案したSC-GPTが既存の手法を大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2020-02-27T18:48:33Z) - Exploring the Limits of Transfer Learning with a Unified Text-to-Text
Transformer [64.22926988297685]
下流タスクで微調整される前に、まずデータリッチタスクでモデルが事前訓練されるトランスファーラーニングは、自然言語処理(NLP)において強力な手法として登場した。
本稿では,すべてのテキストベースの言語問題をテキスト・トゥ・テキスト・フォーマットに変換する統一フレームワークにより,NLPのためのトランスファー学習手法を導入する状況について検討する。
論文 参考訳(メタデータ) (2019-10-23T17:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。