論文の概要: Customized determination of stop words using Random Matrix Theory
approach
- arxiv url: http://arxiv.org/abs/2104.08642v1
- Date: Sat, 17 Apr 2021 20:42:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-20 14:12:01.051661
- Title: Customized determination of stop words using Random Matrix Theory
approach
- Title(参考訳): Random Matrix Theory を用いたストップワードのカスタマイズ決定
- Authors: Bogdan {\L}obodzi\'nski
- Abstract要約: 単語単位で計算された単語間の距離を研究し、ランダム行列理論(RMT)の分布と比較する。
一組のテキストで与えられた単語間の距離は混合ダイナミクスを示し、規則的およびカオス的体制が共存する。
我々は、単語に基づく任意の言語におけるテキストの停止単語のカスタマイズセットの作成に使用できる、完全に無依存なレシピを定式化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The distances between words calculated in word units are studied and compared
with the distributions of the Random Matrix Theory (RMT). It is found that the
distribution of distance between the same words can be well described by the
single-parameter Brody distribution. Using the Brody distribution fit, we found
that the distance between given words in a set of texts can show mixed
dynamics, coexisting regular and chaotic regimes. It is found that
distributions correctly fitted by the Brody distribution with a certain
goodness of the fit threshold can be identifid as stop words, usually
considered as the uninformative part of the text. By applying various threshold
values for the goodness of fit, we can extract uninformative words from the
texts under analysis to the desired extent. On this basis we formulate a fully
agnostic recipe that can be used in the creation of a customized set of stop
words for texts in any language based on words.
- Abstract(参考訳): 単語単位で計算された単語間の距離を研究し、ランダム行列理論(rmt)の分布と比較する。
その結果,同じ単語間の距離分布は,単一パラメータブロディ分布によってよく説明できることがわかった。
ブロディ分布の適合性を用いて、一連のテキスト中の与えられた単語間の距離が混合ダイナミクスを示し、規則的およびカオス的レジームが共存することを発見した。
適合閾値の一定の良さでブロディ分布に正しく適合した分布は、通常、テキストの非形式的部分と見なされる停止語として識別できることが判明した。
適合の良さに様々なしきい値を適用することで、分析対象のテキストから所望の程度まで不規則な単語を抽出することができる。
そこで本研究では,単語に基づく任意の言語におけるテキストに対する停止語セットのカスタマイズに使用可能な,完全非依存のレシピを定式化する。
関連論文リスト
- Unsupervised extraction of local and global keywords from a single text [0.0]
テキストからキーワードを抽出する非教師付きコーパス非依存手法を提案する。
それは、単語の空間分布と、単語のランダムな置換に対するこの分布の応答に基づいている。
論文 参考訳(メタデータ) (2023-07-26T07:36:25Z) - Unsupervised Semantic Variation Prediction using the Distribution of
Sibling Embeddings [17.803726860514193]
単語の意味的変化の検出は,様々なNLPアプリケーションにおいて重要な課題である。
意味表現だけではそのような意味的バリエーションを正確に捉えることはできないと我々は主張する。
対象単語の文脈的埋め込みのコホート全体を利用する手法を提案する。
論文 参考訳(メタデータ) (2023-05-15T13:58:21Z) - Relational Sentence Embedding for Flexible Semantic Matching [86.21393054423355]
文埋め込みの可能性を明らかにするための新しいパラダイムとして,文埋め込み(Sentence Embedding, RSE)を提案する。
RSEは文関係のモデル化に有効で柔軟性があり、一連の最先端の埋め込み手法より優れている。
論文 参考訳(メタデータ) (2022-12-17T05:25:17Z) - The distribution of syntactic dependency distances [0.7614628596146599]
我々は,構文的依存距離の実際の分布のキャラクタリゼーションに寄与する。
ブレークポイント後の確率の減衰を許容する新しい二重指数モデルを提案する。
2つの登録モデルが、私たちが検討した20言語の中で、最も可能性の高いモデルであることが分かりました。
論文 参考訳(メタデータ) (2022-11-26T17:31:25Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - SemGloVe: Semantic Co-occurrences for GloVe from BERT [55.420035541274444]
GloVeは単語共起行列からの統計情報を利用して単語埋め込みを学ぶ。
BERTから静的なGloVeワード埋め込みに意味的共起を蒸留するSemGloVeを提案します。
論文 参考訳(メタデータ) (2020-12-30T15:38:26Z) - MASKER: Masked Keyword Regularization for Reliable Text Classification [73.90326322794803]
文脈に基づく予測を容易にする微調整手法であるマスク付きキーワード正規化(MASKER)を提案する。
maskerはモデルを規則化し、他の単語からキーワードを再構築し、十分な文脈なしに低信頼の予測を行う。
分類精度を低下させることなくOOD検出とクロスドメインの一般化を改善したMASKERを提案する。
論文 参考訳(メタデータ) (2020-12-17T04:54:16Z) - PBoS: Probabilistic Bag-of-Subwords for Generalizing Word Embedding [16.531103175919924]
単語の埋め込みを一般化する作業について検討する。
有限語彙上の事前訓練された単語ベクトルの集合が与えられた場合、その目標は語彙外単語に対する埋め込みベクトルを予測することである。
サブワードセグメント化を同時にモデル化し,サブワードをベースとした合成単語の埋め込みを計算できるモデルを提案する。
論文 参考訳(メタデータ) (2020-10-21T08:11:08Z) - Lexical Sememe Prediction using Dictionary Definitions by Capturing
Local Semantic Correspondence [94.79912471702782]
セメムは人間の言語の最小の意味単位として定義されており、多くのNLPタスクで有用であることが証明されている。
本稿では,このようなマッチングを捕捉し,セメムを予測できるセメム対応プールモデルを提案する。
我々は,有名なSememe KB HowNetのモデルとベースライン手法を評価し,そのモデルが最先端のパフォーマンスを実現することを発見した。
論文 参考訳(メタデータ) (2020-01-16T17:30:36Z) - Multiplex Word Embeddings for Selectional Preference Acquisition [70.33531759861111]
単語間の様々な関係に応じて容易に拡張できる多重単語埋め込みモデルを提案する。
本モデルでは,不必要なスパース性を導入することなく,関係の異なる単語を効果的に識別することができる。
論文 参考訳(メタデータ) (2020-01-09T04:47:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。