論文の概要: The Topic Confusion Task: A Novel Scenario for Authorship Attribution
- arxiv url: http://arxiv.org/abs/2104.08530v1
- Date: Sat, 17 Apr 2021 12:50:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-23 12:15:03.154144
- Title: The Topic Confusion Task: A Novel Scenario for Authorship Attribution
- Title(参考訳): The Topic Confusion Task: A novel Scenario for Authorship Attribution
- Authors: Malik H. Altakrori (1 and 3), Jackie Chi Kit Cheung (1 and 3),
Benjamin C. M. Fung (2 and 3) ((1) School of Computer Science -McGill
University, (2) School of Information Studies-McGill University, (3) Mila)
- Abstract要約: 著者の帰属(authorship attribution)は、候補者の著者群から匿名のテキストの最も信頼できる著者を特定する問題である。
そこで本稿では,著者とトピックの構成をトレーニングとテストセットに切り替えるemphtopic confusionタスクを提案する。
特徴の異なる特徴を評価した結果, 話題の変動の影響を受けにくく, 帰属過程の精度を高めることができることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Authorship attribution is the problem of identifying the most plausible
author of an anonymous text from a set of candidate authors. Researchers have
investigated same-topic and cross-topic scenarios of authorship attribution,
which differ according to whether unseen topics are used in the testing phase.
However, neither scenario allows us to explain whether errors are caused by
failure to capture authorship style, by the topic shift or by other factors.
Motivated by this, we propose the \emph{topic confusion} task, where we switch
the author-topic configuration between training and testing set. This setup
allows us to probe errors in the attribution process. We investigate the
accuracy and two error measures: one caused by the models' confusion by the
switch because the features capture the topics, and one caused by the features'
inability to capture the writing styles, leading to weaker models. By
evaluating different features, we show that stylometric features with
part-of-speech tags are less susceptible to topic variations and can increase
the accuracy of the attribution process. We further show that combining them
with word-level $n$-grams can outperform the state-of-the-art technique in the
cross-topic scenario. Finally, we show that pretrained language models such as
BERT and RoBERTa perform poorly on this task, and are outperformed by simple
$n$-gram features.
- Abstract(参考訳): 著者の帰属(authorship attribution)は、候補者の著者群から匿名のテキストの最も信頼できる著者を特定する問題である。
研究者は、未確認のトピックがテストフェーズで使用されるかどうかによって異なる、著者帰属の同じトピックと横断的なシナリオを調査した。
しかし、どちらのシナリオも、著者のスタイルを捉えなかったり、トピックシフトによってエラーが発生したり、他の要因によってエラーが発生したりすることを説明できない。
そこで,本論文では,著者と著者の対話的構成をトレーニングセットとテストセットに切り替える「emph{topic confusion}」タスクを提案する。
このセットアップにより、アトリビューションプロセスのエラーを調査できます。
特徴がトピックを捉えているため,スイッチによってモデルの混乱が引き起こされ,特徴が書き込みスタイルをキャプチャできないため,モデルが弱くなるという,正確性と2つのエラー対策について検討した。
特徴の異なる特徴を評価した結果,話題の変動の影響を受けにくく,帰属過程の精度を高めることができることがわかった。
さらに,単語レベルの$n$-gramと組み合わせることで,クロストピックシナリオにおける最先端技術よりも優れていることを示す。
最後に,BERT や RoBERTa のような事前学習型言語モデルは,このタスクでは性能が悪く,単純な$n$-gram 機能により性能が向上していることを示す。
関連論文リスト
- Attacking Misinformation Detection Using Adversarial Examples Generated by Language Models [0.0]
テキスト分類アルゴリズムのロバスト性をテストするために,逆例を生成するという課題について検討する。
我々は、攻撃者が試すことができるクエリ数に現実的な制限を設定することで、コンテンツモデレーションのシミュレーションに焦点を当てる。
論文 参考訳(メタデータ) (2024-10-28T11:46:30Z) - IDT: Dual-Task Adversarial Attacks for Privacy Protection [8.312362092693377]
プライバシを保護するには、センシティブな属性を検出できないモデル内の表現を使用する必要がある。
補助的および解釈可能なモデルによる予測を分析し,どのトークンが変更に重要かを識別する手法であるIDTを提案する。
我々は、異なるタスクに適したNLPのための異なるデータセットを評価する。
論文 参考訳(メタデータ) (2024-06-28T04:14:35Z) - Forging the Forger: An Attempt to Improve Authorship Verification via Data Augmentation [52.72682366640554]
著者検証(英語: Authorship Verification, AV)とは、ある特定の著者によって書かれたか、別の人物によって書かれたのかを推測するテキスト分類タスクである。
多くのAVシステムは敵の攻撃に弱いことが示されており、悪意のある著者は、その書体スタイルを隠蔽するか、あるいは他の著者の書体を模倣することによって、積極的に分類者を騙そうとしている。
論文 参考訳(メタデータ) (2024-03-17T16:36:26Z) - Can Authorship Attribution Models Distinguish Speakers in Speech Transcripts? [4.148732457277201]
オーサシップ検証は、2つの異なる書き込みサンプルが同じ著者を共有するかどうかを決定するタスクである。
本稿では,新たな課題を提起する書き起こし音声の属性について考察する。
そこで本研究では,人間が書き起こした会話音声の書き起こしに焦点をあてた話者属性のための新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2023-11-13T18:54:17Z) - PRIME: Prioritizing Interpretability in Failure Mode Extraction [49.93565079216376]
訓練された画像分類モデルにおいて、故障モードに対する人間の理解可能な記述を提供することの課題について検討する。
本稿では,この問題における解釈可能性を重視した新しい手法を提案する。
本手法は,障害モードの同定に成功し,それに関連する高品質なテキスト記述を生成する。
論文 参考訳(メタデータ) (2023-09-29T22:00:12Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。
以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。
セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - Experiments with adversarial attacks on text genres [0.0]
BERTやXLM-RoBERTaのような事前学習されたトランスフォーマーに基づくニューラルモデルは、多くのNLPタスクにおいてSOTA結果を示す。
そこで本研究では,最も重要な単語のいくつかを類似した単語に置き換えることができる埋め込み型アルゴリズムが,モデル予測にかなりの割合で影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2021-07-05T19:37:59Z) - Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文 参考訳(メタデータ) (2021-04-16T14:37:27Z) - Narrative Incoherence Detection [76.43894977558811]
本稿では,文間セマンティック理解のための新たなアリーナとして,物語不整合検出の課題を提案する。
複数文の物語を考えると、物語の流れに意味的な矛盾があるかどうかを決定します。
論文 参考訳(メタデータ) (2020-12-21T07:18:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。