論文の概要: Integrating Bidirectional Long Short-Term Memory with Subword Embedding
for Authorship Attribution
- arxiv url: http://arxiv.org/abs/2306.14933v1
- Date: Mon, 26 Jun 2023 11:35:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-28 15:58:05.809576
- Title: Integrating Bidirectional Long Short-Term Memory with Subword Embedding
for Authorship Attribution
- Title(参考訳): 著者帰属のための単語埋め込みによる双方向長期記憶の統合
- Authors: Abiodun Modupe, Turgay Celik, Vukosi Marivate and Oludayo O. Olugbara
- Abstract要約: マニフォールド語に基づくスタイリスティックマーカーは、著者帰属の本質的な問題に対処するために、ディープラーニング手法でうまく使われてきた。
提案手法は,CCAT50,IMDb62,Blog50,Twitter50の公営企業における最先端手法に対して実験的に評価された。
- 参考スコア(独自算出の注目度): 2.3429306644730854
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The problem of unveiling the author of a given text document from multiple
candidate authors is called authorship attribution. Manifold word-based
stylistic markers have been successfully used in deep learning methods to deal
with the intrinsic problem of authorship attribution. Unfortunately, the
performance of word-based authorship attribution systems is limited by the
vocabulary of the training corpus. Literature has recommended character-based
stylistic markers as an alternative to overcome the hidden word problem.
However, character-based methods often fail to capture the sequential
relationship of words in texts which is a chasm for further improvement. The
question addressed in this paper is whether it is possible to address the
ambiguity of hidden words in text documents while preserving the sequential
context of words. Consequently, a method based on bidirectional long short-term
memory (BLSTM) with a 2-dimensional convolutional neural network (CNN) is
proposed to capture sequential writing styles for authorship attribution. The
BLSTM was used to obtain the sequential relationship among characteristics
using subword information. The 2-dimensional CNN was applied to understand the
local syntactical position of the style from unlabeled input text. The proposed
method was experimentally evaluated against numerous state-of-the-art methods
across the public corporal of CCAT50, IMDb62, Blog50, and Twitter50.
Experimental results indicate accuracy improvement of 1.07\%, and 0.96\% on
CCAT50 and Twitter, respectively, and produce comparable results on the
remaining datasets.
- Abstract(参考訳): 複数の候補著者から与えられたテキスト文書の著者を公表する問題は著者帰属と呼ばれる。
マニフォールド語に基づくスタイリスティックマーカーは、著者帰属の本質的な問題に対処するために、ディープラーニング手法でうまく使われてきた。
残念ながら、単語ベースの著者帰属システムの性能は、トレーニングコーパスの語彙によって制限されている。
文学は、隠れた単語問題を克服する代替手段として、文字ベースのスタイルマーカーを推奨している。
しかし、文字ベースの手法は、さらなる改善のためのシャームであるテキスト中の単語の逐次的関係を捉えるのに失敗することが多い。
本稿では,テキスト文書中の隠れた単語のあいまいさを,逐次的文脈を保ちながら解決できるかどうかを問う。
そこで,2次元畳み込みニューラルネットワーク(CNN)を用いた双方向長短期記憶(BLSTM)に基づく手法を提案し,著者帰属のための逐次書き起こしスタイルを抽出した。
BLSTMはサブワード情報を用いて特徴間の逐次的関係を得る。
2次元CNNを用いて,未ラベル入力テキストからスタイルの局所的構文的位置を理解する。
提案手法は,CCAT50,IMDb62,Blog50,Twitter50の公営企業における最先端手法に対して実験的に評価された。
実験結果は、CCAT50とTwitterでそれぞれ1.07\%と0.96\%の精度向上を示し、残りのデータセットで同等の結果を生成する。
関連論文リスト
- Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。
また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - CAST: Corpus-Aware Self-similarity Enhanced Topic modelling [16.562349140796115]
CAST: Corpus-Aware Self-similarity Enhanced Topic modelling, a novel topic modelling methodを紹介する。
機能的単語が候補話題語として振る舞うのを防ぐための効果的な指標として自己相似性を見出した。
提案手法は,生成したトピックの一貫性と多様性,およびノイズの多いデータを扱うトピックモデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-19T15:27:11Z) - An Evaluation of Sindhi Word Embedding in Semantic Analogies and Downstream Tasks [2.3624125155742064]
我々は,複数のWebリソースから6100万以上の単語をクロールする新しい単語埋め込み型コーパスを提案する。
クロールデータから不要なテキストをフィルタリングするための前処理パイプラインを設計する。
クリーニングされた語彙は、最先端の連続バグ・オブ・ワード、スキップグラム、GloVeワード埋め込みアルゴリズムに供給される。
論文 参考訳(メタデータ) (2024-08-28T11:36:29Z) - TransLIST: A Transformer-Based Linguistically Informed Sanskrit
Tokenizer [11.608920658638976]
サンスクリットワードアルゴリズム(SWS)は、デジタル化されたテキストを利用できるようにし、下流のタスクをデプロイするのに不可欠である。
我々はTransLIST(Transformer based Linguistically Informed Sanskrit Tokenizer)を提案する。
TransLISTは、SWS特有のサンディー現象を考慮した潜在単語情報と共に文字入力を符号化する。
論文 参考訳(メタデータ) (2022-10-21T06:15:40Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Semantic-Preserving Adversarial Text Attacks [85.32186121859321]
深層モデルの脆弱性を調べるために, Bigram と Unigram を用いた適応的セマンティック保存最適化法 (BU-SPO) を提案する。
提案手法は,既存手法と比較して最小の単語数を変更することで,攻撃成功率とセマンティックス率を最大化する。
論文 参考訳(メタデータ) (2021-08-23T09:05:18Z) - LexSubCon: Integrating Knowledge from Lexical Resources into Contextual
Embeddings for Lexical Substitution [76.615287796753]
本稿では,コンテキスト埋め込みモデルに基づくエンドツーエンドの語彙置換フレームワークであるLexSubConを紹介する。
これは文脈情報と構造化語彙資源からの知識を組み合わせることで達成される。
我々の実験によると、LexSubConはLS07とCoInCoベンチマークデータセットで従来の最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-07-11T21:25:56Z) - Disentangling Homophemes in Lip Reading using Perplexity Analysis [10.262299768603894]
本稿では,ジェネレーティブ・プレトレーニング・トランスの新しい応用法を提案する。
ヴィセムの形で視覚音声を、単語や文の形で言語に変換する言語モデルとして機能する。
ネットワークは最適なパープレキシティを探索して、ビセメ・ツー・ワードマッピングを実行する。
論文 参考訳(メタデータ) (2020-11-28T12:12:17Z) - Accelerating Text Mining Using Domain-Specific Stop Word Lists [57.76576681191192]
本稿では,超平面的アプローチと呼ばれるドメイン固有語の自動抽出手法を提案する。
ハイパープレーンベースのアプローチは、無関係な特徴を排除することによって、テキストの寸法を著しく削減することができる。
その結果,超平面型アプローチはコーパスの寸法を90%削減し,相互情報より優れることがわかった。
論文 参考訳(メタデータ) (2020-11-18T17:42:32Z) - MuSeM: Detecting Incongruent News Headlines using Mutual Attentive
Semantic Matching [7.608480381965392]
2つのテキスト間の一致を測定することは、Web上での偽ニュースや誤解を招くニュースの見出しの検出など、いくつかの有用な応用をもたらす。
本稿では,オリジナルと合成した見出しの相互注意に基づくセマンティックマッチング手法を提案する。
提案手法は,2つの公開データセットに対して,先行技術よりも優れていた。
論文 参考訳(メタデータ) (2020-10-07T19:19:42Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。