論文の概要: Boosting word frequencies in authorship attribution
- arxiv url: http://arxiv.org/abs/2211.01289v1
- Date: Wed, 2 Nov 2022 17:11:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 12:16:02.751481
- Title: Boosting word frequencies in authorship attribution
- Title(参考訳): オーサシップ・アトリビューションにおける単語頻度の増大
- Authors: Maciej Eder
- Abstract要約: 本稿では,著者帰属や類似のテクスチャタスクに対して,比較的簡単な単語頻度計算手法を提案する。
関連する単語の概念は同義語を含み、通常、ある意味的にある単語に類似したいくつかの他の単語を含む。
提案手法は古典的最頻単語のアプローチを大幅に上回る。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, I introduce a simple method of computing relative word
frequencies for authorship attribution and similar stylometric tasks. Rather
than computing relative frequencies as the number of occurrences of a given
word divided by the total number of tokens in a text, I argue that a more
efficient normalization factor is the total number of relevant tokens only. The
notion of relevant words includes synonyms and, usually, a few dozen other
words in some ways semantically similar to a word in question. To determine
such a semantic background, one of word embedding models can be used. The
proposed method outperforms classical most-frequent-word approaches
substantially, usually by a few percentage points depending on the input
settings.
- Abstract(参考訳): 本稿では,著者帰属や類似のテクスチャタスクに対して,比較的簡単な単語頻度計算手法を提案する。
テキスト中のトークンの総数で割った単語の発生回数として相対周波数を計算するのではなく、より効率的な正規化係数は関連するトークンの総数のみである、と私は主張する。
関連する単語の概念は同義語を含み、通常、ある意味的にある単語に類似したいくつかの他の単語を含む。
このような意味的背景を決定するために、単語埋め込みモデルの1つを用いることができる。
提案手法は、入力設定に応じて、通常、数パーセントの割合で、古典的な最頻語アプローチを大幅に上回る。
関連論文リスト
- Batching BPE Tokenization Merges [55.2480439325792]
BatchBPEはByte PairアルゴリズムのPython実装である。
ベーシックラップトップ上で高品質なトークンをトレーニングするために使用される。
論文 参考訳(メタデータ) (2024-08-05T09:37:21Z) - Unsupervised extraction of local and global keywords from a single text [0.0]
テキストからキーワードを抽出する非教師付きコーパス非依存手法を提案する。
それは、単語の空間分布と、単語のランダムな置換に対するこの分布の応答に基づいている。
論文 参考訳(メタデータ) (2023-07-26T07:36:25Z) - Assessing the Importance of Frequency versus Compositionality for
Subword-based Tokenization in NMT [7.600968522331612]
サブワードトークン化は、ニューラルネットワークモデルと機械翻訳システムにおけるトークン化のデファクトスタンダードである。
3つの利点は、頻繁なトークンの符号化の短縮、サブワードの合成性、未知の単語を扱う能力である。
コンポジション性から周波数を分離できるトークン化手法を提案する。
論文 参考訳(メタデータ) (2023-06-02T09:39:36Z) - Multi hash embeddings in spaCy [1.6790532021482656]
spaCyは、単語の複数埋め込み表現を生成する機械学習システムである。
SpaCyのデフォルトの埋め込み層は、ハッシュ埋め込み層である。
この技術レポートでは、いくつかの歴史を概説し、paCyに埋め込み手法を詳しく紹介します。
論文 参考訳(メタデータ) (2022-12-19T06:03:04Z) - Investigating the Frequency Distortion of Word Embeddings and Its Impact
on Bias Metrics [2.1374208474242815]
いくつかの静的単語埋め込みにおける周波数と意味的類似性の関係を体系的に研究する。
Skip-gram、GloVe、FastTextの埋め込みは、他の周波数の組み合わせよりも高周波ワード間の意味的類似性が高い傾向にある。
論文 参考訳(メタデータ) (2022-11-15T15:11:06Z) - Textual Entailment Recognition with Semantic Features from Empirical
Text Representation [60.31047947815282]
テキストが仮説を包含するのは、仮説の真の価値がテキストに従う場合に限る。
本稿では,テキストと仮説のテキストの包含関係を同定する新しい手法を提案する。
本手法では,テキスト・ハイブリッド・ペア間の意味的含意関係を識別できる要素ワイド・マンハッタン距離ベクトルベースの特徴を用いる。
論文 参考訳(メタデータ) (2022-10-18T10:03:51Z) - Divide and Conquer: Text Semantic Matching with Disentangled Keywords
and Intents [19.035917264711664]
本稿では,キーワードを意図から切り離してテキストセマンティックマッチングを行うためのトレーニング戦略を提案する。
提案手法は,予測効率に影響を与えることなく,事前学習言語モデル(PLM)と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2022-03-06T07:48:24Z) - UCPhrase: Unsupervised Context-aware Quality Phrase Tagging [63.86606855524567]
UCPhraseは、教師なしの文脈対応のフレーズタグである。
我々は,一貫した単語列から,高品質なフレーズを銀のラベルとして表現する。
我々の設計は、最先端の事前訓練、教師なし、遠隔管理の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-05-28T19:44:24Z) - Match-Ignition: Plugging PageRank into Transformer for Long-form Text
Matching [66.71886789848472]
実効性と効率性に対処する新しい階層型ノイズフィルタリングモデルであるMatch-Ignitionを提案する。
基本的なアイデアは、よく知られたPageRankアルゴリズムをTransformerに接続し、文と単語レベルの騒々しい情報を識別およびフィルタリングすることです。
文が長文の基本単位であるため、ノイズの多い文はたいてい簡単に検出できるので、PageRankを直接使用してそのような情報をフィルタリングする。
論文 参考訳(メタデータ) (2021-01-16T10:34:03Z) - MASKER: Masked Keyword Regularization for Reliable Text Classification [73.90326322794803]
文脈に基づく予測を容易にする微調整手法であるマスク付きキーワード正規化(MASKER)を提案する。
maskerはモデルを規則化し、他の単語からキーワードを再構築し、十分な文脈なしに低信頼の予測を行う。
分類精度を低下させることなくOOD検出とクロスドメインの一般化を改善したMASKERを提案する。
論文 参考訳(メタデータ) (2020-12-17T04:54:16Z) - Accelerating Text Mining Using Domain-Specific Stop Word Lists [57.76576681191192]
本稿では,超平面的アプローチと呼ばれるドメイン固有語の自動抽出手法を提案する。
ハイパープレーンベースのアプローチは、無関係な特徴を排除することによって、テキストの寸法を著しく削減することができる。
その結果,超平面型アプローチはコーパスの寸法を90%削減し,相互情報より優れることがわかった。
論文 参考訳(メタデータ) (2020-11-18T17:42:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。