論文の概要: Same or Different? Diff-Vectors for Authorship Analysis
- arxiv url: http://arxiv.org/abs/2301.09862v1
- Date: Tue, 24 Jan 2023 08:48:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-25 14:10:11.153093
- Title: Same or Different? Diff-Vectors for Authorship Analysis
- Title(参考訳): 同じか違うか?
著者分析のためのディフベクター
- Authors: Silvia Corbara and Alejandro Moreo and Fabrizio Sebastiani
- Abstract要約: 古典的な著作物分析において、特徴ベクトルは文書を表し、特徴の値は文書中の特徴の相対周波数(関数の増大)を表し、クラスラベルは文書の著者を表す。
筆者らの実験は共著者検証,著者検証,クローズドセットの著者帰属に取り組んでおり,DVは自然に第1の問題を解くのに向いているが,第2と第3の問題を解くための2つの新しい方法も提供している。
- 参考スコア(独自算出の注目度): 78.83284164605473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the effects on authorship identification tasks of a
fundamental shift in how to conceive the vectorial representations of documents
that are given as input to a supervised learner. In ``classic'' authorship
analysis a feature vector represents a document, the value of a feature
represents (an increasing function of) the relative frequency of the feature in
the document, and the class label represents the author of the document. We
instead investigate the situation in which a feature vector represents an
unordered pair of documents, the value of a feature represents the absolute
difference in the relative frequencies (or increasing functions thereof) of the
feature in the two documents, and the class label indicates whether the two
documents are from the same author or not. This latter (learner-independent)
type of representation has been occasionally used before, but has never been
studied systematically. We argue that it is advantageous, and that in some
cases (e.g., authorship verification) it provides a much larger quantity of
information to the training process than the standard representation. The
experiments that we carry out on several publicly available datasets (among
which one that we here make available for the first time) show that feature
vectors representing pairs of documents (that we here call Diff-Vectors) bring
about systematic improvements in the effectiveness of authorship identification
tasks, and especially so when training data are scarce (as it is often the case
in real-life authorship identification scenarios). Our experiments tackle
same-author verification, authorship verification, and closed-set authorship
attribution; while DVs are naturally geared for solving the 1st, we also
provide two novel methods for solving the 2nd and 3rd that use a solver for the
1st as a building block.
- Abstract(参考訳): 本研究では,教師付き学習者への入力として与えられた文書のベクトル表現をどのように捉えるかという基本的な変遷の著者識別課題に対する効果について検討する。
`classic'' の著者名分析では、特徴ベクトルは文書を表し、特徴の値は文書内の特徴の相対周波数(関数の増大)を表し、クラスラベルは文書の著者を表す。
代わりに、特徴ベクトルが2つの文書の無順序対を表し、特徴ベクトルの値は2つの文書における特徴の相対周波数(またはそれらの機能の増加)の絶対差を表し、クラスラベルは2つの文書が同一の著者であるか否かを示す。
この後者(リアナー非依存)の表現は、過去にも時々用いられてきたが、体系的に研究されることはなかった。
我々は、それが有利であり、いくつかのケース(例えば、著者の検証)では、標準的な表現よりもトレーニングプロセスにはるかに多くの情報を提供すると論じている。
いくつかの公開データセットで実施した実験では、ドキュメントペア(diff-vectorsと呼ぶ)を表す特徴ベクトルが、オーサシップ識別タスクの有効性を体系的に改善していること、特にトレーニングデータが不足している場合(実際のオーサシップ識別シナリオの場合が多いため)が示されています。
dvsは自然に第1の問題を解決するためのものであるが、第2と第3の問題を解決するための2つの新しい方法を提供し、第1の解法をビルディングブロックとして使用する。
関連論文リスト
- Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。
本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。
次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文 参考訳(メタデータ) (2024-03-27T15:15:14Z) - SelfDocSeg: A Self-Supervised vision-based Approach towards Document
Segmentation [15.953725529361874]
文書レイアウト分析は文書研究コミュニティにとって既知の問題である。
個人生活へのインターネット接続が拡大するにつれ、パブリックドメインでは膨大な量のドキュメントが利用できるようになった。
我々は,この課題に自己監督型文書セグメンテーションアプローチと異なり,自己監督型文書セグメンテーションアプローチを用いて対処する。
論文 参考訳(メタデータ) (2023-05-01T12:47:55Z) - Searching for Discriminative Words in Multidimensional Continuous
Feature Space [0.0]
文書から識別キーワードを抽出する新しい手法を提案する。
異なる差別的指標が全体的な結果にどのように影響するかを示す。
単語特徴ベクトルは文書の意味のトピック的推論を大幅に改善することができると結論付けている。
論文 参考訳(メタデータ) (2022-11-26T18:05:11Z) - PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。
以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。
セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - Identity Documents Authentication based on Forgery Detection of
Guilloche Pattern [2.606834301724095]
ギロシェパターンの偽造検出に基づく識別文書の認証モデルを提案する。
認証性能を高めるために、最も適切なパラメータを分析し、識別するために実験を行う。
論文 参考訳(メタデータ) (2022-06-22T11:37:10Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - Single versus Multiple Annotation for Named Entity Recognition of
Mutations [4.213427823201119]
我々は,複数のアノテータが必要かどうかを測定するために,1つのアノテータ対2のアノテータによる影響について論じる。
単一アノテータを使用する場合のパフォーマンス損失を評価すると、第2のアノテーションのためにトレーニングデータをサンプルするために異なる方法を適用する。
保持されたダブルアノテートデータを使用して、異なるタイプのランキングを持つ2つのシナリオを構築します。
i)誤ったトレーニングインスタンスを識別する能力、(ii)最先端技術におけるミューテーションNERのパフォーマンスについて、両方のアプローチを評価する。
論文 参考訳(メタデータ) (2021-01-19T03:54:17Z) - Evidence-Aware Inferential Text Generation with Vector Quantised
Variational AutoEncoder [104.25716317141321]
本稿では,大規模なテキストコーパスからイベントの証拠を自動的に発見し,その証拠を利用して推論テキストの生成を導く手法を提案する。
このアプローチは、Event2MindとATOMICの両方のデータセットで最先端のパフォーマンスを提供します。
論文 参考訳(メタデータ) (2020-06-15T02:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。