Fugu-MT 論文翻訳(概要): The Topic Confusion Task: A Novel Scenario for Authorship Attribution

論文の概要: The Topic Confusion Task: A Novel Scenario for Authorship Attribution

arxiv url: http://arxiv.org/abs/2104.08530v1
Date: Sat, 17 Apr 2021 12:50:58 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-23 12:15:03.154144
Title: The Topic Confusion Task: A Novel Scenario for Authorship Attribution
Title（参考訳）: The Topic Confusion Task: A novel Scenario for Authorship Attribution
Authors: Malik H. Altakrori (1 and 3), Jackie Chi Kit Cheung (1 and 3), Benjamin C. M. Fung (2 and 3) ((1) School of Computer Science -McGill University, (2) School of Information Studies-McGill University, (3) Mila)
Abstract要約: 著者の帰属(authorship attribution)は、候補者の著者群から匿名のテキストの最も信頼できる著者を特定する問題である。そこで本稿では,著者とトピックの構成をトレーニングとテストセットに切り替えるemphtopic confusionタスクを提案する。特徴の異なる特徴を評価した結果, 話題の変動の影響を受けにくく, 帰属過程の精度を高めることができることがわかった。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Authorship attribution is the problem of identifying the most plausible author of an anonymous text from a set of candidate authors. Researchers have investigated same-topic and cross-topic scenarios of authorship attribution, which differ according to whether unseen topics are used in the testing phase. However, neither scenario allows us to explain whether errors are caused by failure to capture authorship style, by the topic shift or by other factors. Motivated by this, we propose the \emph{topic confusion} task, where we switch the author-topic configuration between training and testing set. This setup allows us to probe errors in the attribution process. We investigate the accuracy and two error measures: one caused by the models' confusion by the switch because the features capture the topics, and one caused by the features' inability to capture the writing styles, leading to weaker models. By evaluating different features, we show that stylometric features with part-of-speech tags are less susceptible to topic variations and can increase the accuracy of the attribution process. We further show that combining them with word-level $n$-grams can outperform the state-of-the-art technique in the cross-topic scenario. Finally, we show that pretrained language models such as BERT and RoBERTa perform poorly on this task, and are outperformed by simple $n$-gram features.
Abstract（参考訳）: 著者の帰属(authorship attribution)は、候補者の著者群から匿名のテキストの最も信頼できる著者を特定する問題である。研究者は、未確認のトピックがテストフェーズで使用されるかどうかによって異なる、著者帰属の同じトピックと横断的なシナリオを調査した。しかし、どちらのシナリオも、著者のスタイルを捉えなかったり、トピックシフトによってエラーが発生したり、他の要因によってエラーが発生したりすることを説明できない。そこで,本論文では,著者と著者の対話的構成をトレーニングセットとテストセットに切り替える「emph{topic confusion}」タスクを提案する。このセットアップにより、アトリビューションプロセスのエラーを調査できます。特徴がトピックを捉えているため,スイッチによってモデルの混乱が引き起こされ,特徴が書き込みスタイルをキャプチャできないため,モデルが弱くなるという,正確性と2つのエラー対策について検討した。特徴の異なる特徴を評価した結果,話題の変動の影響を受けにくく,帰属過程の精度を高めることができることがわかった。さらに,単語レベルの$n$-gramと組み合わせることで,クロストピックシナリオにおける最先端技術よりも優れていることを示す。最後に,BERT や RoBERTa のような事前学習型言語モデルは,このタスクでは性能が悪く,単純な$n$-gram 機能により性能が向上していることを示す。

関連論文リスト

Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。これらの課題を克服するために、新しい方法論とデータセットを導入します。人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文参考訳（メタデータ） (2024-12-17T08:47:41Z)
Attacking Misinformation Detection Using Adversarial Examples Generated by Language Models [0.0]
テキスト分類アルゴリズムのロバスト性をテストするために,逆例を生成するという課題について検討する。我々は、攻撃者が試すことができるクエリ数に現実的な制限を設定することで、コンテンツモデレーションのシミュレーションに焦点を当てる。
論文参考訳（メタデータ） (2024-10-28T11:46:30Z)
IDT: Dual-Task Adversarial Attacks for Privacy Protection [8.312362092693377]
プライバシを保護するには、センシティブな属性を検出できないモデル内の表現を使用する必要がある。補助的および解釈可能なモデルによる予測を分析し,どのトークンが変更に重要かを識別する手法であるIDTを提案する。我々は、異なるタスクに適したNLPのための異なるデータセットを評価する。
論文参考訳（メタデータ） (2024-06-28T04:14:35Z)
Forging the Forger: An Attempt to Improve Authorship Verification via Data Augmentation [52.72682366640554]
著者検証(英語: Authorship Verification, AV)とは、ある特定の著者によって書かれたか、別の人物によって書かれたのかを推測するテキスト分類タスクである。多くのAVシステムは敵の攻撃に弱いことが示されており、悪意のある著者は、その書体スタイルを隠蔽するか、あるいは他の著者の書体を模倣することによって、積極的に分類者を騙そうとしている。
論文参考訳（メタデータ） (2024-03-17T16:36:26Z)
Can Authorship Attribution Models Distinguish Speakers in Speech Transcripts? [4.148732457277201]
オーサシップ検証は、2つの異なる書き込みサンプルが同じ著者を共有するかどうかを決定するタスクである。本稿では,新たな課題を提起する書き起こし音声の属性について考察する。そこで本研究では,人間が書き起こした会話音声の書き起こしに焦点をあてた話者属性のための新しいベンチマークを提案する。
論文参考訳（メタデータ） (2023-11-13T18:54:17Z)
PRIME: Prioritizing Interpretability in Failure Mode Extraction [49.93565079216376]
訓練された画像分類モデルにおいて、故障モードに対する人間の理解可能な記述を提供することの課題について検討する。本稿では,この問題における解釈可能性を重視した新しい手法を提案する。本手法は,障害モードの同定に成功し,それに関連する高品質なテキスト記述を生成する。
論文参考訳（メタデータ） (2023-09-29T22:00:12Z)
Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文参考訳（メタデータ） (2023-03-14T16:11:47Z)
PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文参考訳（メタデータ） (2022-09-30T11:08:39Z)
Experiments with adversarial attacks on text genres [0.0]
BERTやXLM-RoBERTaのような事前学習されたトランスフォーマーに基づくニューラルモデルは、多くのNLPタスクにおいてSOTA結果を示す。そこで本研究では,最も重要な単語のいくつかを類似した単語に置き換えることができる埋め込み型アルゴリズムが,モデル予測にかなりの割合で影響を及ぼすことを示す。
論文参考訳（メタデータ） (2021-07-05T19:37:59Z)
Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文参考訳（メタデータ） (2021-04-16T14:37:27Z)
Narrative Incoherence Detection [76.43894977558811]
本稿では,文間セマンティック理解のための新たなアリーナとして,物語不整合検出の課題を提案する。複数文の物語を考えると、物語の流れに意味的な矛盾があるかどうかを決定します。
論文参考訳（メタデータ） (2020-12-21T07:18:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。