論文の概要: Stylometry Analysis of Multi-authored Documents for Authorship and
Author Style Change Detection
- arxiv url: http://arxiv.org/abs/2401.06752v1
- Date: Fri, 12 Jan 2024 18:36:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 18:32:53.217294
- Title: Stylometry Analysis of Multi-authored Documents for Authorship and
Author Style Change Detection
- Title(参考訳): 著者・著者スタイル変更検出のための複数文献のスティロメトリ解析
- Authors: Muhammad Tayyab Zamir, Muhammad Asif Ayub, Asma Gul, Nasir Ahmad,
Kashif Ahmad
- Abstract要約: 本稿では, 単一文書と複数文書の分類 (i) 単一変更検出 (ii) 単一変更検出 (iii) 複数文書における複数著者切替検出 (iii) の3つの課題について検討する。
我々は,いくつかの最先端自然言語処理(NLP)アルゴリズムと重み付け最適化技術を統合したメリットベース融合フレームワークを提案する。
- 参考スコア(独自算出の注目度): 2.117778717665161
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, the increasing use of Artificial Intelligence based text
generation tools has posed new challenges in document provenance,
authentication, and authorship detection. However, advancements in stylometry
have provided opportunities for automatic authorship and author change
detection in multi-authored documents using style analysis techniques. Style
analysis can serve as a primary step toward document provenance and
authentication through authorship detection. This paper investigates three key
tasks of style analysis: (i) classification of single and multi-authored
documents, (ii) single change detection, which involves identifying the point
where the author switches, and (iii) multiple author-switching detection in
multi-authored documents. We formulate all three tasks as classification
problems and propose a merit-based fusion framework that integrates several
state-of-the-art natural language processing (NLP) algorithms and weight
optimization techniques. We also explore the potential of special characters,
which are typically removed during pre-processing in NLP applications, on the
performance of the proposed methods for these tasks by conducting extensive
experiments on both cleaned and raw datasets. Experimental results demonstrate
significant improvements over existing solutions for all three tasks on a
benchmark dataset.
- Abstract(参考訳): 近年、人工知能を用いたテキスト生成ツールの利用が増加し、文書作成、認証、著者名検出に新たな課題が生じた。
しかし,スタイリメトリーの進歩は,書体解析技術を用いた複数文献の自動作成と書体変更検出の機会を与えている。
スタイル分析は、文書の証明と認証のための主ステップとして機能する。
本稿では,スタイル分析の3つの重要な課題について考察する。
(i)単一文書及び複数文書の分類
(ii) 単一変更検出は、著者が切り替えた点を特定することを含む。
(iii)複数文書における複数の著者切替検出
3つのタスクすべてを分類問題として定式化し,最先端自然言語処理 (nlp) アルゴリズムと重み付け最適化技術を統合するメリットベースの融合フレームワークを提案する。
また,nlpアプリケーションの前処理時に通常除去される特殊文字の可能性についても検討し,クリーンデータと生データの両方について広範な実験を行い,提案手法の性能について検討した。
実験結果は、ベンチマークデータセット上の3つのタスクすべてに対する既存のソリューションよりも大幅に改善されたことを示している。
関連論文リスト
- Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。
本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:42:09Z) - A Novel Dataset for Non-Destructive Inspection of Handwritten Documents [0.0]
法医学的手書き検査は、原稿の著者を適切に定義または仮説化するために手書きの文書を調べることを目的としている。
2つのサブセットからなる新しい挑戦的データセットを提案する。第1は古典的なペンと紙で書かれた21の文書で、後者は後にデジタル化され、タブレットなどの一般的なデバイスで直接取得される。
提案したデータセットの予備的な結果は、第1サブセットで90%の分類精度が得られることを示している。
論文 参考訳(メタデータ) (2024-01-09T09:25:58Z) - On Task-personalized Multimodal Few-shot Learning for Visually-rich
Document Entity Retrieval [59.25292920967197]
VDER(Few-shot document entity search)は、NLPアプリケーションにおいて重要なトピックである。
FewVEXは、エンティティレベルの少数ショットVDERの分野における将来の研究を促進するための、新しいデータセットである。
本稿では,タスクパーソナライズを効果的に実現することを中心に,タスク認識型メタラーニングベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-01T17:51:43Z) - FacTool: Factuality Detection in Generative AI -- A Tool Augmented
Framework for Multi-Task and Multi-Domain Scenarios [87.12753459582116]
より広い範囲のタスクは、生成モデルによって処理されると、事実エラーを含むリスクが増大する。
大規模言語モデルにより生成されたテキストの事実誤りを検出するためのタスクおよびドメインに依存しないフレームワークであるFacToolを提案する。
論文 参考訳(メタデータ) (2023-07-25T14:20:51Z) - Application of Transformers based methods in Electronic Medical Records:
A Systematic Literature Review [77.34726150561087]
本研究は,異なるNLPタスクにおける電子カルテ(EMR)のトランスフォーマーに基づく手法を用いて,最先端技術に関する体系的な文献レビューを行う。
論文 参考訳(メタデータ) (2023-04-05T22:19:42Z) - Document Provenance and Authentication through Authorship Classification [5.2545206693029884]
本稿では,単一文書と複数文書の分類のためのアンサンブルベースのテキスト処理フレームワークを提案する。
提案するフレームワークには,最先端のテキスト分類アルゴリズムがいくつか組み込まれている。
フレームワークは大規模なベンチマークデータセットで評価される。
論文 参考訳(メタデータ) (2023-03-02T12:26:03Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - Continuous Offline Handwriting Recognition using Deep Learning Models [0.0]
手書き文字認識は、自動文書画像解析の分野に大きな関心を持つオープンな問題である。
我々は,畳み込みニューラルネットワーク(CNN)とシーケンス・ツー・シーケンス(seq2seq)という,2種類のディープラーニングアーキテクチャの統合に基づく新しい認識モデルを提案する。
提案した新たなモデルでは,他の確立された方法論と競合する結果が得られる。
論文 参考訳(メタデータ) (2021-12-26T07:31:03Z) - Human-in-the-Loop Disinformation Detection: Stance, Sentiment, or
Something Else? [93.91375268580806]
政治とパンデミックは、機械学習対応の偽ニュース検出アルゴリズムの開発に十分な動機を与えている。
既存の文献は、主に完全自動化されたケースに焦点を当てているが、その結果得られた技術は、軍事応用に必要な様々なトピック、ソース、時間スケールに関する偽情報を確実に検出することはできない。
既に利用可能なアナリストを人間のループとして活用することにより、感情分析、アスペクトベースの感情分析、姿勢検出といった標準的な機械学習技術は、部分的に自動化された偽情報検出システムに使用するためのもっとも有効な方法となる。
論文 参考訳(メタデータ) (2021-11-09T13:30:34Z) - Evaluation of a Region Proposal Architecture for Multi-task Document
Layout Analysis [0.685316573653194]
Mask-RCNNアーキテクチャは、ベースライン検出と領域分割の問題に対処するために設計されている。
2つの手書きテキストデータセットと1つの手書き音楽データセットに関する実験結果を示す。
分析したアーキテクチャは有望な結果をもたらし、3つのデータセットすべてで最先端のテクニックよりも優れています。
論文 参考訳(メタデータ) (2021-06-22T14:07:27Z) - Extracting Procedural Knowledge from Technical Documents [1.0773368566852943]
手続きは、自動化、質問応答、会話の推進のために認知アシスタントが活用できる文書の重要な知識コンポーネントである。
プロダクトマニュアルやユーザガイドといった巨大なドキュメントを解析して,どの部分でプロシージャについて話しているのかを自動的に理解し,それを抽出することは,非常に難しい問題です。
論文 参考訳(メタデータ) (2020-10-20T09:47:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。