論文の概要: On Extending NLP Techniques from the Categorical to the Latent Space: KL
Divergence, Zipf's Law, and Similarity Search
- arxiv url: http://arxiv.org/abs/2012.01941v1
- Date: Wed, 2 Dec 2020 17:35:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-25 04:12:45.266765
- Title: On Extending NLP Techniques from the Categorical to the Latent Space: KL
Divergence, Zipf's Law, and Similarity Search
- Title(参考訳): カテゴリーから潜在空間へのNLP手法の拡張について:KL多様性,Zipfの法則,類似性探索
- Authors: Adam Hare, Yu Chen, Yinan Liu, Zhenming Liu, Christopher G. Brinton
- Abstract要約: 単語埋め込みを用いて,エントロピーとKulback-Leiblerの発散を効率的に推定できることを示す。
次に、分類空間から潜在空間へ頻繁に観測されるZipfの法則として知られる重み付き分布をリキャストする。
最後に, 類似文を識別する新しい手法を導入することにより, 文章提案のためのジャカード類似度尺度の改善を図る。
- 参考スコア(独自算出の注目度): 13.039919885862798
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the recent successes of deep learning in natural language processing
(NLP), there remains widespread usage of and demand for techniques that do not
rely on machine learning. The advantage of these techniques is their
interpretability and low cost when compared to frequently opaque and expensive
machine learning models. Although they may not be be as performant in all
cases, they are often sufficient for common and relatively simple problems. In
this paper, we aim to modernize these older methods while retaining their
advantages by extending approaches from categorical or bag-of-words
representations to word embeddings representations in the latent space. First,
we show that entropy and Kullback-Leibler divergence can be efficiently
estimated using word embeddings and use this estimation to compare text across
several categories. Next, we recast the heavy-tailed distribution known as
Zipf's law that is frequently observed in the categorical space to the latent
space. Finally, we look to improve the Jaccard similarity measure for sentence
suggestion by introducing a new method of identifying similar sentences based
on the set cover problem. We compare the performance of this algorithm against
several baselines including Word Mover's Distance and the Levenshtein distance.
- Abstract(参考訳): 自然言語処理(nlp)におけるディープラーニングの最近の成功にもかかわらず、機械学習に依存しない技術に対する幅広い利用と需要が残っている。
これらの技術の利点は、しばしば不透明で高価な機械学習モデルと比較した場合の解釈可能性と低コストである。
どのケースでもパフォーマンスは良くないかもしれないが、一般的な問題や比較的単純な問題には十分であることが多い。
本稿では,単語の分類的表現から単語の埋め込み表現へのアプローチを潜時空間に拡張し,それらの利点を維持しつつ,これらの古い手法の近代化を目指す。
まず,単語埋め込みを用いてエントロピーとKulback-Leiblerの発散を効率的に推定し,この推定を用いて複数のカテゴリのテキストを比較した。
次に、分類空間から潜在空間へ頻繁に観測されるZipfの法則として知られる重み付き分布をリキャストする。
最後に, 集合被覆問題に基づいて類似文を識別する新しい手法を導入することにより, 提案文に対するjaccard類似度尺度の改善を目指す。
本稿では,このアルゴリズムの性能をWord Moverの距離やLevenshtein距離などいくつかのベースラインと比較する。
関連論文リスト
- Mitigating Boundary Ambiguity and Inherent Bias for Text Classification in the Era of Large Language Models [24.085614720512744]
本研究では,大規模言語モデル (LLM) がテキスト分類における選択肢の数や配置の変化に対して脆弱であることを示す。
重要なボトルネックは、曖昧な決定境界と、特定のトークンや位置に対する固有のバイアスから生じます。
我々のアプローチは、ペア比較が境界のあいまいさと固有のバイアスを効果的に緩和できるという経験的観察に基づいている。
論文 参考訳(メタデータ) (2024-06-11T06:53:19Z) - A Comparative Study of Sentence Embedding Models for Assessing Semantic
Variation [0.0]
本稿では,複数の文献において,連続する文間の意味的類似性の時系列と対の文類似性の行列を用いた最近の文埋め込み法について比較する。
文の埋め込み手法のほとんどは、ある文書において意味的類似性の高相関パターンを推定するが、興味深い相違が見られる。
論文 参考訳(メタデータ) (2023-08-08T23:31:10Z) - Free Lunch for Efficient Textual Commonsense Integration in Language
Models [20.02647320786556]
類似したコモンセンス記述を持つサンプルを1つのバッチにグループ化し、複数のサンプル間でエンコードされた記述を再利用する。
大規模な実験では、提案したバッチ分割手法が性能を保ちながら計算コストを効果的に削減することを示した。
効率の改善は、大規模なデータセットや、メモリ容量の大きいデバイスでより顕著であり、大規模なアプリケーションに実用性があることを証明している。
論文 参考訳(メタデータ) (2023-05-24T19:14:57Z) - Learning Context-aware Classifier for Semantic Segmentation [88.88198210948426]
本稿では,文脈認識型分類器の学習を通じて文脈ヒントを利用する。
本手法はモデルに依存しないため,ジェネリックセグメンテーションモデルにも容易に適用できる。
無視できる追加パラメータと+2%の推論時間だけで、小型モデルと大型モデルの両方で十分な性能向上が達成されている。
論文 参考訳(メタデータ) (2023-03-21T07:00:35Z) - SparseDet: Improving Sparsely Annotated Object Detection with
Pseudo-positive Mining [76.95808270536318]
Pseudo- positive mining を用いてラベル付き地域とラベルなし地域を分離するエンド・ツー・エンドシステムを提案する。
ラベル付き領域は通常通り処理されるが、ラベルなし領域の処理には自己教師付き学習が使用される。
我々は,PASCAL-VOCとCOCOデータセットの5つの分割に対して,最先端の性能を達成するための徹底的な実験を行った。
論文 参考訳(メタデータ) (2022-01-12T18:57:04Z) - On-the-Fly Rectification for Robust Large-Vocabulary Topic Inference [14.664456948527292]
オブジェクト語彙が大きくなるにつれて、共起統計に基づく推論アルゴリズムの保存と実行がより高価になる。
本稿では,共起統計を同時に圧縮・修正する新しい手法を提案する。
また、圧縮された統計量から潜伏変数を学習し、テキストデータと非テキストデータの両方において従来の手法と相容れない性能を検証した。
論文 参考訳(メタデータ) (2021-11-12T06:44:04Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Obtaining Better Static Word Embeddings Using Contextual Embedding
Models [53.86080627007695]
提案手法はCBOWをベースとした簡易な蒸留法である。
副作用として、我々の手法は文脈的および静的な埋め込みの公正な比較を可能にする。
論文 参考訳(メタデータ) (2021-06-08T12:59:32Z) - Denoising Word Embeddings by Averaging in a Shared Space [34.175826109538676]
単語埋め込みの品質を円滑にし,改善するための新しい手法を提案する。
一般化プロクリスト解析(GPA)手法の効率的な実装を用いて,すべてのモデルを共有ベクトル空間に投影する。
新しい表現はより安定し信頼性が高いため、稀な単語評価において顕著な改善がある。
論文 参考訳(メタデータ) (2021-06-05T19:49:02Z) - CIMON: Towards High-quality Hash Codes [63.37321228830102]
我々はtextbfComprehensive stextbfImilarity textbfMining と ctextbfOnsistency leartextbfNing (CIMON) という新しい手法を提案する。
まず、グローバルな洗練と類似度統計分布を用いて、信頼性とスムーズなガイダンスを得る。第二に、意味的整合性学習とコントラスト的整合性学習の両方を導入して、乱不変と差別的ハッシュコードの両方を導出する。
論文 参考訳(メタデータ) (2020-10-15T14:47:14Z) - Robust Cross-lingual Embeddings from Parallel Sentences [65.85468628136927]
本稿では,文整合コーパスを利用して頑健な言語間単語表現を実現するCBOW手法のバイリンガル拡張を提案する。
提案手法は,他のすべての手法と比較して,言語間文検索性能を著しく向上させる。
また、ゼロショットのクロスランガル文書分類タスクにおいて、ディープRNN法と同等性を実現する。
論文 参考訳(メタデータ) (2019-12-28T16:18:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。