論文の概要: An Intelligent CNN-VAE Text Representation Technology Based on Text
Semantics for Comprehensive Big Data
- arxiv url: http://arxiv.org/abs/2008.12522v1
- Date: Fri, 28 Aug 2020 07:39:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 01:29:46.384199
- Title: An Intelligent CNN-VAE Text Representation Technology Based on Text
Semantics for Comprehensive Big Data
- Title(参考訳): 総合的ビッグデータのためのテキストセマンティクスに基づく知的CNN-VAEテキスト表現技術
- Authors: Genggeng Liu, Canyang Guo, Lin Xie, Wenxi Liu, Naixue Xiong and
Guolong Chen
- Abstract要約: 畳み込みニューラルネットワーク(CNN)と可変オートエンコーダ(VAE)に基づくテキスト特徴表現モデルを提案する。
提案手法は,k-nearest neighbor (KNN), random forest (RF) および Support vector machine (SVM) 分類アルゴリズムにおいて優れる。
- 参考スコア(独自算出の注目度): 15.680918844684454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the era of big data, a large number of text data generated by the Internet
has given birth to a variety of text representation methods. In natural
language processing (NLP), text representation transforms text into vectors
that can be processed by computer without losing the original semantic
information. However, these methods are difficult to effectively extract the
semantic features among words and distinguish polysemy in language. Therefore,
a text feature representation model based on convolutional neural network (CNN)
and variational autoencoder (VAE) is proposed to extract the text features and
apply the obtained text feature representation on the text classification
tasks. CNN is used to extract the features of text vector to get the semantics
among words and VAE is introduced to make the text feature space more
consistent with Gaussian distribution. In addition, the output of the improved
word2vec model is employed as the input of the proposed model to distinguish
different meanings of the same word in different contexts. The experimental
results show that the proposed model outperforms in k-nearest neighbor (KNN),
random forest (RF) and support vector machine (SVM) classification algorithms.
- Abstract(参考訳): ビッグデータの時代には、インターネットによって生成された大量のテキストデータが、さまざまなテキスト表現方法を生み出した。
自然言語処理(NLP)では、テキスト表現は、元の意味情報を失うことなく、コンピュータで処理できるベクトルに変換する。
しかし、これらの手法では、単語間の意味的特徴を効果的に抽出し、言語でポリセミーを区別することは困難である。
そこで、畳み込みニューラルネットワーク(CNN)と変分オートエンコーダ(VAE)に基づくテキスト特徴表現モデルを提案し、テキスト特徴を抽出し、得られたテキスト特徴表現をテキスト分類タスクに適用する。
CNNはテキストベクトルの特徴を抽出して単語間のセマンティクスを取得し、VAEを導入してテキスト特徴空間をガウス分布とより整合させる。
さらに、改良されたWord2vecモデルの出力を提案モデルの入力として使用し、同じ単語の異なる意味を異なる文脈で識別する。
実験結果から,k-nearest neighbor (KNN), random forest (RF) および Support vector machine (SVM) の分類アルゴリズムにおいて,提案モデルが優れていることが示された。
関連論文リスト
- RegaVAE: A Retrieval-Augmented Gaussian Mixture Variational Auto-Encoder
for Language Modeling [79.56442336234221]
可変オートエンコーダ(VAE)に基づく検索拡張言語モデルであるRegaVAEを紹介する。
テキストコーパスを潜在空間にエンコードし、ソースとターゲットの両方のテキストから現在と将来の情報をキャプチャする。
各種データセットに対する実験結果から,テキスト生成品質と幻覚除去の大幅な改善が示された。
論文 参考訳(メタデータ) (2023-10-16T16:42:01Z) - Description-Based Text Similarity [59.552704474862004]
我々は、その内容の抽象的な記述に基づいて、テキストを検索する必要性を特定する。
そこで本研究では,近隣の標準探索で使用する場合の精度を大幅に向上する代替モデルを提案する。
論文 参考訳(メタデータ) (2023-05-21T17:14:31Z) - SLCNN: Sentence-Level Convolutional Neural Network for Text
Classification [0.0]
畳み込みニューラルネットワーク(CNN)は,テキスト分類のタスクにおいて顕著な成功を収めている。
CNNを用いたテキスト分類のための新しいベースラインモデルが研究されている。
結果から,提案したモデルの性能は,特に長いドキュメントにおいて向上していることがわかった。
論文 参考訳(メタデータ) (2023-01-27T13:16:02Z) - Text Revision by On-the-Fly Representation Optimization [76.11035270753757]
現在の最先端手法は、これらのタスクをシーケンスからシーケンスまでの学習問題として定式化している。
並列データを必要としないテキストリビジョンのための反復的なインプレース編集手法を提案する。
テキストの単純化に関する最先端の教師付き手法よりも、競争力があり、パフォーマンスも向上する。
論文 参考訳(メタデータ) (2022-04-15T07:38:08Z) - TextConvoNet:A Convolutional Neural Network based Architecture for Text
Classification [0.34410212782758043]
CNNベースのアーキテクチャTextConvoNetは、文内n-gram特徴を抽出するだけでなく、入力されたテキストデータ中の文間n-gram特徴をキャプチャする。
実験の結果,提案したTextConvoNetは,テキスト分類のための最先端の機械学習モデルやディープラーニングモデルよりも優れていた。
論文 参考訳(メタデータ) (2022-03-10T06:09:56Z) - Text Smoothing: Enhance Various Data Augmentation Methods on Text
Classification Tasks [47.5423959822716]
滑らかな表現は、事前訓練されたマスキング言語モデルから得られる候補トークンの確率である。
本研究では,テキストの平滑化という効率的なデータ拡張手法を提案し,文を1ホット表現から制御可能な平滑表現に変換する。
論文 参考訳(メタデータ) (2022-02-28T14:54:08Z) - Dependency Parsing based Semantic Representation Learning with Graph
Neural Network for Enhancing Expressiveness of Text-to-Speech [49.05471750563229]
文の依存性関係を考慮したグラフニューラルネットワークに基づく意味表現学習手法を提案する。
提案手法は,LJSpeech と Bilzzard Challenge 2013 のデータセットにおいて,バニラBERT の機能をベースラインより優れていることを示す。
論文 参考訳(メタデータ) (2021-04-14T13:09:51Z) - Contextualized Spoken Word Representations from Convolutional
Autoencoders [2.28438857884398]
本稿では,畳み込み型オートエンコーダに基づくニューラルアーキテクチャを提案し,様々な長さの音声単語の構文的かつ意味論的に適切な文脈化表現をモデル化する。
提案モデルでは,他の2つの言語モデルと比較して頑健性を示すことができた。
論文 参考訳(メタデータ) (2020-07-06T16:48:11Z) - Context based Text-generation using LSTM networks [0.5330240017302621]
提案モデルでは,与えられた入力単語の集合とコンテキストベクトルのテキストを生成するように訓練されている。
生成したテキストのコンテキストに対するセマンティック・クローズネスに基づいて評価を行う。
論文 参考訳(メタデータ) (2020-04-30T18:39:25Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。