論文の概要: Document Provenance and Authentication through Authorship Classification
- arxiv url: http://arxiv.org/abs/2303.01197v1
- Date: Thu, 2 Mar 2023 12:26:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-03 14:37:55.426519
- Title: Document Provenance and Authentication through Authorship Classification
- Title(参考訳): オーサシップ分類による文書証明と認証
- Authors: Muhammad Tayyab Zamir, Muhammad Asif Ayub, Jebran Khan, Muhammad Jawad
Ikram, Nasir Ahmad, Kashif Ahmad
- Abstract要約: 本稿では,単一文書と複数文書の分類のためのアンサンブルベースのテキスト処理フレームワークを提案する。
提案するフレームワークには,最先端のテキスト分類アルゴリズムがいくつか組み込まれている。
フレームワークは大規模なベンチマークデータセットで評価される。
- 参考スコア(独自算出の注目度): 5.2545206693029884
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Style analysis, which is relatively a less explored topic, enables several
interesting applications. For instance, it allows authors to adjust their
writing style to produce a more coherent document in collaboration. Similarly,
style analysis can also be used for document provenance and authentication as a
primary step. In this paper, we propose an ensemble-based text-processing
framework for the classification of single and multi-authored documents, which
is one of the key tasks in style analysis. The proposed framework incorporates
several state-of-the-art text classification algorithms including classical
Machine Learning (ML) algorithms, transformers, and deep learning algorithms
both individually and in merit-based late fusion. For the merit-based late
fusion, we employed several weight optimization and selection methods to assign
merit-based weights to the individual text classification algorithms. We also
analyze the impact of the characters on the task that are usually excluded in
NLP applications during pre-processing by conducting experiments on both clean
and un-clean data. The proposed framework is evaluated on a large-scale
benchmark dataset, significantly improving performance over the existing
solutions.
- Abstract(参考訳): 比較的探求の少ないトピックであるスタイル分析は、いくつかの興味深いアプリケーションを可能にします。
例えば、著者は、コラボレーションでより一貫性のあるドキュメントを作成するために、文章スタイルを調整できる。
同様に、スタイル分析は文書の証明と認証を第一ステップとして使うこともできる。
本稿では,スタイル分析における重要な課題の一つである単一文書と複数文書の分類のためのアンサンブルに基づくテキスト処理フレームワークを提案する。
提案フレームワークは、古典的機械学習(ML)アルゴリズム、トランスフォーマー、深層学習アルゴリズムなど、最先端のテキスト分類アルゴリズムを個別および有益に基づく後期融合に組み込んでいる。
メリットに基づくレイトフュージョンでは、個々のテキスト分類アルゴリズムにメリットに基づく重みを割り当てるために、いくつかの重み付け最適化と選択手法を採用した。
また,クリーンデータと非クリーンデータの両方について実験を行い,nlpアプリケーションで通常除外されるタスクに対する文字の影響を分析した。
提案フレームワークは大規模ベンチマークデータセット上で評価され、既存のソリューションよりも大幅にパフォーマンスが向上する。
関連論文リスト
- Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - Stylometry Analysis of Multi-authored Documents for Authorship and
Author Style Change Detection [2.117778717665161]
本稿では, 単一文書と複数文書の分類 (i) 単一変更検出 (ii) 単一変更検出 (iii) 複数文書における複数著者切替検出 (iii) の3つの課題について検討する。
我々は,いくつかの最先端自然言語処理(NLP)アルゴリズムと重み付け最適化技術を統合したメリットベース融合フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-12T18:36:41Z) - A Gold Standard Dataset for the Reviewer Assignment Problem [117.59690218507565]
類似度スコア(Similarity score)とは、論文のレビューにおいて、レビュアーの専門知識を数値で見積もるものである。
私たちのデータセットは、58人の研究者による477の自己申告された専門知識スコアで構成されています。
2つの論文をレビュアーに関連付けるタスクは、簡単なケースでは12%~30%、ハードケースでは36%~43%である。
論文 参考訳(メタデータ) (2023-03-23T16:15:03Z) - Specialized Document Embeddings for Aspect-based Similarity of Research
Papers [4.661692753666685]
アスペクトベースの類似性は、アスペクト固有の埋め込み空間における古典的ベクトル類似性問題として扱う。
文書は単一の汎用的な埋め込みではなく、複数の専門的な埋め込みとして表現する。
当社のアプローチは、暗黙の偏見から生じる潜在的なリスクを明確化することで軽減します。
論文 参考訳(メタデータ) (2022-03-28T07:35:26Z) - CODER: An efficient framework for improving retrieval through
COntextualized Document Embedding Reranking [11.635294568328625]
本稿では,最小計算コストで広範囲の検索モデルの性能を向上させるためのフレームワークを提案する。
ベース密度検索法により抽出された事前計算された文書表現を利用する。
実行時に第一段階のメソッドの上に無視可能な計算オーバーヘッドを発生させ、最先端の高密度検索手法と簡単に組み合わせられるようにする。
論文 参考訳(メタデータ) (2021-12-16T10:25:26Z) - LeQua@CLEF2022: Learning to Quantify [76.22817970624875]
LeQua 2022は、テキストデータセットで'を定量化する方法を評価するための新しい実験室である。
本研究の目的は、バイナリ設定とシングルラベルのマルチクラス設定の両方において、学習方法の比較評価のための設定を提供することである。
論文 参考訳(メタデータ) (2021-11-22T14:54:20Z) - Conical Classification For Computationally Efficient One-Class Topic
Determination [0.0]
本稿では,特定のトピックに関連する文書を識別するコニカル分類手法を提案する。
分析の結果、我々のアプローチはデータセットの予測能力が高く、計算も高速であることがわかった。
論文 参考訳(メタデータ) (2021-10-31T01:27:12Z) - OPAD: An Optimized Policy-based Active Learning Framework for Document
Content Analysis [6.159771892460152]
文書のコンテンツ検出タスクにおける能動的学習のための強化ポリシーを用いた新しいフレームワークであるtextitOPADを提案する。
フレームワークは、取得機能を学び、パフォーマンスメトリクスを最適化しながら、選択するサンプルを決定する。
本稿では,文書理解に関わる様々なタスクに対する能動的学習のためのテキストOPADフレームワークの優れた性能を示す。
論文 参考訳(メタデータ) (2021-10-01T07:40:56Z) - Comprehensive Studies for Arbitrary-shape Scene Text Detection [78.50639779134944]
ボトムアップに基づくシーンテキスト検出のための統合フレームワークを提案する。
統一されたフレームワークの下では、非コアモジュールの一貫性のある設定が保証されます。
包括的調査と精巧な分析により、以前のモデルの利点と欠点を明らかにしている。
論文 参考訳(メタデータ) (2021-07-25T13:18:55Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。