論文の概要: Text classification with word embedding regularization and soft
similarity measure
- arxiv url: http://arxiv.org/abs/2003.05019v1
- Date: Tue, 10 Mar 2020 22:07:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 20:44:01.466252
- Title: Text classification with word embedding regularization and soft
similarity measure
- Title(参考訳): 単語埋め込み規則化とソフト類似度尺度を用いたテキスト分類
- Authors: V\'it Novotn\'y, Eniafe Festus Ayetiran, Michal \v{S}tef\'anik, and
Petr Sojka
- Abstract要約: 2つの単語埋め込み正規化技術は、ストレージとメモリコストを削減し、トレーニング速度、文書処理速度、タスクパフォーマンスを改善する。
正規化単語埋め込みによる平均$k$NNテスト誤差の39%を非正規化単語埋め込みと比較した。
また,正規化単語埋め込みを用いたSCMはテキスト分類においてWMDを著しく上回り,1万倍以上高速であることを示す。
- 参考スコア(独自算出の注目度): 0.20999222360659603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Since the seminal work of Mikolov et al., word embeddings have become the
preferred word representations for many natural language processing tasks.
Document similarity measures extracted from word embeddings, such as the soft
cosine measure (SCM) and the Word Mover's Distance (WMD), were reported to
achieve state-of-the-art performance on semantic text similarity and text
classification.
Despite the strong performance of the WMD on text classification and semantic
text similarity, its super-cubic average time complexity is impractical. The
SCM has quadratic worst-case time complexity, but its performance on text
classification has never been compared with the WMD. Recently, two word
embedding regularization techniques were shown to reduce storage and memory
costs, and to improve training speed, document processing speed, and task
performance on word analogy, word similarity, and semantic text similarity.
However, the effect of these techniques on text classification has not yet been
studied.
In our work, we investigate the individual and joint effect of the two word
embedding regularization techniques on the document processing speed and the
task performance of the SCM and the WMD on text classification. For evaluation,
we use the $k$NN classifier and six standard datasets: BBCSPORT, TWITTER,
OHSUMED, REUTERS-21578, AMAZON, and 20NEWS.
We show 39% average $k$NN test error reduction with regularized word
embeddings compared to non-regularized word embeddings. We describe a practical
procedure for deriving such regularized embeddings through Cholesky
factorization. We also show that the SCM with regularized word embeddings
significantly outperforms the WMD on text classification and is over 10,000
times faster.
- Abstract(参考訳): Mikolovらの独創的な作品以来、単語の埋め込みは多くの自然言語処理タスクにおいて好まれる単語表現となっている。
SCM(Soft Cosine measure)やWord Mover's Distance(Word Mover's Distance)などの単語埋め込みから抽出した文書類似度尺度を報告し,意味的テキスト類似度とテキスト分類の最先端性能を実現する。
テキスト分類と意味的テキスト類似性においてWMDの強い性能にもかかわらず、その超キュービック平均時間複雑性は実用的ではない。
SCMは2次最悪の時間複雑性を持つが、テキスト分類における性能はWMDと比較されることはなかった。
近年, 2つの単語埋め込み正規化手法が, 記憶コストと記憶コストの低減, 学習速度の向上, 文書処理速度の向上, 単語アナロジー, 単語類似性, 意味テキスト類似性の向上に寄与した。
しかし,これらの手法がテキスト分類に与える影響についてはまだ研究されていない。
本研究では,文書処理速度と文書分類におけるscmとwmdのタスク性能に対する2つの単語埋め込み正規化手法の個人および共同効果について検討した。
評価には、$k$NN分類器と、BBCSport、TWITTER、OHSUMED、REUTERS-21578、AMAZON、20NEWSの6つの標準データセットを使用する。
正規化単語埋め込みによる平均$k$NNテスト誤差の39%を非正規化単語埋め込みと比較した。
本稿では,コレスキー分解による正規化埋め込みの導出について述べる。
また、正規化語埋め込みによるSCMはテキスト分類においてWMDよりも優れ、1万倍以上高速であることを示す。
関連論文リスト
- Integrating Bidirectional Long Short-Term Memory with Subword Embedding
for Authorship Attribution [2.3429306644730854]
マニフォールド語に基づくスタイリスティックマーカーは、著者帰属の本質的な問題に対処するために、ディープラーニング手法でうまく使われてきた。
提案手法は,CCAT50,IMDb62,Blog50,Twitter50の公営企業における最先端手法に対して実験的に評価された。
論文 参考訳(メタデータ) (2023-06-26T11:35:47Z) - Textual Entailment Recognition with Semantic Features from Empirical
Text Representation [60.31047947815282]
テキストが仮説を包含するのは、仮説の真の価値がテキストに従う場合に限る。
本稿では,テキストと仮説のテキストの包含関係を同定する新しい手法を提案する。
本手法では,テキスト・ハイブリッド・ペア間の意味的含意関係を識別できる要素ワイド・マンハッタン距離ベクトルベースの特徴を用いる。
論文 参考訳(メタデータ) (2022-10-18T10:03:51Z) - SynWMD: Syntax-aware Word Mover's Distance for Sentence Similarity
Evaluation [36.5590780726458]
Word Mover's Distance (WMD)は、単語とモデル間の距離を、2つのテキストシーケンスにおける単語間の移動コストと類似性を計算する。
SynWMD(Syntax-aware Word Mover's Distance)と呼ばれる構文解析木を用いた改良WMD法を提案する。
論文 参考訳(メタデータ) (2022-06-20T22:30:07Z) - Many-Class Text Classification with Matching [65.74328417321738]
textbfText textbfClassification をテキストとラベル間のtextbfMatching 問題として定式化し,TCM というシンプルなフレームワークを提案する。
従来のテキスト分類手法と比較して、TCMは分類ラベルのきめ細かい意味情報を活用している。
論文 参考訳(メタデータ) (2022-05-23T15:51:19Z) - FastKASSIM: A Fast Tree Kernel-Based Syntactic Similarity Metric [48.66580267438049]
我々は,発話レベルと文書レベルの構文的類似性の指標であるFastKASSIMを提案する。
ツリーカーネルに基づいたドキュメントのペア間で、最も類似した依存関係解析ツリーをペア化し、平均化する。
r/ChangeMyViewコーパス内のドキュメントのベースラインメソッドよりも最大5.2倍高速に動作します。
論文 参考訳(メタデータ) (2022-03-15T22:33:26Z) - Divide and Conquer: Text Semantic Matching with Disentangled Keywords
and Intents [19.035917264711664]
本稿では,キーワードを意図から切り離してテキストセマンティックマッチングを行うためのトレーニング戦略を提案する。
提案手法は,予測効率に影響を与えることなく,事前学習言語モデル(PLM)と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2022-03-06T07:48:24Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Semantic-Preserving Adversarial Text Attacks [85.32186121859321]
深層モデルの脆弱性を調べるために, Bigram と Unigram を用いた適応的セマンティック保存最適化法 (BU-SPO) を提案する。
提案手法は,既存手法と比較して最小の単語数を変更することで,攻撃成功率とセマンティックス率を最大化する。
論文 参考訳(メタデータ) (2021-08-23T09:05:18Z) - EDS-MEMBED: Multi-sense embeddings based on enhanced distributional
semantic structures via a graph walk over word senses [0.0]
WordNetの豊富なセマンティック構造を活用して、マルチセンス埋め込みの品質を高めます。
M-SEの新たな分布意味類似度測定法を先行して導出する。
WSDとWordの類似度タスクを含む11のベンチマークデータセットの評価結果を報告します。
論文 参考訳(メタデータ) (2021-02-27T14:36:55Z) - Accelerating Text Mining Using Domain-Specific Stop Word Lists [57.76576681191192]
本稿では,超平面的アプローチと呼ばれるドメイン固有語の自動抽出手法を提案する。
ハイパープレーンベースのアプローチは、無関係な特徴を排除することによって、テキストの寸法を著しく削減することができる。
その結果,超平面型アプローチはコーパスの寸法を90%削減し,相互情報より優れることがわかった。
論文 参考訳(メタデータ) (2020-11-18T17:42:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。