論文の概要: The Topic Confusion Task: A Novel Scenario for Authorship Attribution
- arxiv url: http://arxiv.org/abs/2104.08530v1
- Date: Sat, 17 Apr 2021 12:50:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-23 12:15:03.154144
- Title: The Topic Confusion Task: A Novel Scenario for Authorship Attribution
- Title(参考訳): The Topic Confusion Task: A novel Scenario for Authorship Attribution
- Authors: Malik H. Altakrori (1 and 3), Jackie Chi Kit Cheung (1 and 3),
Benjamin C. M. Fung (2 and 3) ((1) School of Computer Science -McGill
University, (2) School of Information Studies-McGill University, (3) Mila)
- Abstract要約: 著者の帰属(authorship attribution)は、候補者の著者群から匿名のテキストの最も信頼できる著者を特定する問題である。
そこで本稿では,著者とトピックの構成をトレーニングとテストセットに切り替えるemphtopic confusionタスクを提案する。
特徴の異なる特徴を評価した結果, 話題の変動の影響を受けにくく, 帰属過程の精度を高めることができることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Authorship attribution is the problem of identifying the most plausible
author of an anonymous text from a set of candidate authors. Researchers have
investigated same-topic and cross-topic scenarios of authorship attribution,
which differ according to whether unseen topics are used in the testing phase.
However, neither scenario allows us to explain whether errors are caused by
failure to capture authorship style, by the topic shift or by other factors.
Motivated by this, we propose the \emph{topic confusion} task, where we switch
the author-topic configuration between training and testing set. This setup
allows us to probe errors in the attribution process. We investigate the
accuracy and two error measures: one caused by the models' confusion by the
switch because the features capture the topics, and one caused by the features'
inability to capture the writing styles, leading to weaker models. By
evaluating different features, we show that stylometric features with
part-of-speech tags are less susceptible to topic variations and can increase
the accuracy of the attribution process. We further show that combining them
with word-level $n$-grams can outperform the state-of-the-art technique in the
cross-topic scenario. Finally, we show that pretrained language models such as
BERT and RoBERTa perform poorly on this task, and are outperformed by simple
$n$-gram features.
- Abstract(参考訳): 著者の帰属(authorship attribution)は、候補者の著者群から匿名のテキストの最も信頼できる著者を特定する問題である。
研究者は、未確認のトピックがテストフェーズで使用されるかどうかによって異なる、著者帰属の同じトピックと横断的なシナリオを調査した。
しかし、どちらのシナリオも、著者のスタイルを捉えなかったり、トピックシフトによってエラーが発生したり、他の要因によってエラーが発生したりすることを説明できない。
そこで,本論文では,著者と著者の対話的構成をトレーニングセットとテストセットに切り替える「emph{topic confusion}」タスクを提案する。
このセットアップにより、アトリビューションプロセスのエラーを調査できます。
特徴がトピックを捉えているため,スイッチによってモデルの混乱が引き起こされ,特徴が書き込みスタイルをキャプチャできないため,モデルが弱くなるという,正確性と2つのエラー対策について検討した。
特徴の異なる特徴を評価した結果,話題の変動の影響を受けにくく,帰属過程の精度を高めることができることがわかった。
さらに,単語レベルの$n$-gramと組み合わせることで,クロストピックシナリオにおける最先端技術よりも優れていることを示す。
最後に,BERT や RoBERTa のような事前学習型言語モデルは,このタスクでは性能が悪く,単純な$n$-gram 機能により性能が向上していることを示す。
関連論文リスト
- Can Authorship Attribution Models Distinguish Speakers in Speech
Transcripts? [4.662759517294026]
オーサシップ検証は、2つの異なる書き込みサンプルが同じ著者を共有するかどうかを決定するタスクである。
本稿では,新たな課題を提起する書き起こし音声の属性について考察する。
会話音声の書き起こしに焦点をあてた話者属性のための新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2023-11-13T18:54:17Z) - PRIME: Prioritizing Interpretability in Failure Mode Extraction [49.93565079216376]
訓練された画像分類モデルにおいて、故障モードに対する人間の理解可能な記述を提供することの課題について検討する。
本稿では,この問題における解釈可能性を重視した新しい手法を提案する。
本手法は,障害モードの同定に成功し,それに関連する高品質なテキスト記述を生成する。
論文 参考訳(メタデータ) (2023-09-29T22:00:12Z) - MetricPrompt: Prompting Model as a Relevance Metric for Few-shot Text
Classification [65.51149771074944]
MetricPromptは、数発のテキスト分類タスクをテキストペア関連性推定タスクに書き換えることで、言語設計の難易度を緩和する。
広範に使われている3つのテキスト分類データセットを4つのショット・セッティングで実験する。
結果から,MetricPromptは,手動弁証法や自動弁証法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-06-15T06:51:35Z) - Verifying the Robustness of Automatic Credibility Assessment [79.08422736721764]
テキスト分類法は信頼性の低い内容を検出する手段として広く研究されている。
入力テキストの無意味な変更は、モデルを誤解させることがある。
偽情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAを紹介する。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。
以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。
セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - Experiments with adversarial attacks on text genres [0.0]
BERTやXLM-RoBERTaのような事前学習されたトランスフォーマーに基づくニューラルモデルは、多くのNLPタスクにおいてSOTA結果を示す。
そこで本研究では,最も重要な単語のいくつかを類似した単語に置き換えることができる埋め込み型アルゴリズムが,モデル予測にかなりの割合で影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2021-07-05T19:37:59Z) - Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文 参考訳(メタデータ) (2021-04-16T14:37:27Z) - Narrative Incoherence Detection [76.43894977558811]
本稿では,文間セマンティック理解のための新たなアリーナとして,物語不整合検出の課題を提案する。
複数文の物語を考えると、物語の流れに意味的な矛盾があるかどうかを決定します。
論文 参考訳(メタデータ) (2020-12-21T07:18:08Z) - Robust Document Representations using Latent Topics and Metadata [17.306088038339336]
本稿では,文書分類問題に対する事前学習型ニューラルネットワークモデルの微調整手法を提案する。
テキストとメタデータの両方をタスク形式でキャプチャする文書表現を生成します。
私たちのソリューションでは、メタデータを単にテキストで拡張するのではなく、明示的に組み込んでいます。
論文 参考訳(メタデータ) (2020-10-23T21:52:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。