論文の概要: On the State of the Art in Authorship Attribution and Authorship
Verification
- arxiv url: http://arxiv.org/abs/2209.06869v1
- Date: Wed, 14 Sep 2022 18:32:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-16 11:52:11.576023
- Title: On the State of the Art in Authorship Attribution and Authorship
Verification
- Title(参考訳): 著作者の帰属と著作者の検証における芸術の現状について
- Authors: Jacob Tyo, Bhuwan Dhingra, Zachary C. Lipton
- Abstract要約: 本稿ではオーサシップ属性(AA)とオーサシップ検証(AV)の分野について調査する。
AA/AVデータセットとメトリクスを標準化し、ベンチマークするVallaを紹介します。
AV法は, 強陰性マイニングの適用により, AA法と競合する代替手段であることを示す。
- 参考スコア(独自算出の注目度): 32.68627745840088
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite decades of research on authorship attribution (AA) and authorship
verification (AV), inconsistent dataset splits/filtering and mismatched
evaluation methods make it difficult to assess the state of the art. In this
paper, we present a survey of the fields, resolve points of confusion,
introduce Valla that standardizes and benchmarks AA/AV datasets and metrics,
provide a large-scale empirical evaluation, and provide apples-to-apples
comparisons between existing methods. We evaluate eight promising methods on
fifteen datasets (including distribution-shifted challenge sets) and introduce
a new large-scale dataset based on texts archived by Project Gutenberg.
Surprisingly, we find that a traditional Ngram-based model performs best on 5
(of 7) AA tasks, achieving an average macro-accuracy of $76.50\%$ (compared to
$66.71\%$ for a BERT-based model). However, on the two AA datasets with the
greatest number of words per author, as well as on the AV datasets, BERT-based
models perform best. While AV methods are easily applied to AA, they are seldom
included as baselines in AA papers. We show that through the application of
hard-negative mining, AV methods are competitive alternatives to AA methods.
Valla and all experiment code can be found here:
https://github.com/JacobTyo/Valla
- Abstract(参考訳): オーサシップ属性(AA)とオーサシップ検証(AV)に関する何十年にもわたっての研究にもかかわらず、一貫性のないデータセットの分割/フィルタリングとミスマッチした評価手法は、アートの状態を評価することが困難である。
本稿では,フィールドの調査,混乱点の解決,A/AVデータセットとメトリクスの標準化とベンチマークを行うVallaの導入,大規模な経験的評価,既存手法間のリンゴとアプリケーションの比較を行う。
我々は15のデータセット(分散シフトチャレンジセットを含む)に対して8つの有望な手法を評価し、Project Gutenbergがアーカイブしたテキストに基づく新しい大規模データセットを導入する。
驚いたことに、従来のNgramベースのモデルは、平均的なマクロ精度を76.50セント(BERTベースのモデルでは6.71セント)で達成し、AAタスクの5つ(7つ)で最高のパフォーマンスを発揮する。
しかし、著者1人当たりの単語数が最も多い2つのAAデータセットとAVデータセットでは、BERTベースのモデルが最もよく機能する。
AV法はAAに容易に適用できるが、AA論文のベースラインには含まれない。
AV法は, 強陰性マイニングの適用により, AA法と競合する代替手段であることを示す。
Vallaとすべての実験コードはここにある。
関連論文リスト
- A Coreset Learning Reality Check [33.002265576337486]
サブサンプリングアルゴリズムは、巨大なデータセットにモデルを適合させる前に、データサイズを減らすための自然なアプローチである。
近年,データ行列から行をサブサンプリングする手法がいくつか提案されている。
コアセットおよび最適サブサンプリング文献から引き出されたロジスティック回帰の複数の手法を比較し,その有効性の矛盾を明らかにする。
論文 参考訳(メタデータ) (2023-01-15T19:26:17Z) - Adaptive Self-Training for Object Detection [13.07105239116411]
オブジェクト検出のための自己評価手法(ASTOD)を提案する。
ASTODはスコアヒストグラムの基底値に基づいて閾値を決定する。
擬似ラベル付けの段階では, ラベル付き画像の異なるビューを用いて, 誤り予測の回数を減らす。
論文 参考訳(メタデータ) (2022-12-07T15:10:40Z) - Bi-level Alignment for Cross-Domain Crowd Counting [113.78303285148041]
現在の手法は、補助的なタスクを訓練したり、高価な粗大な見積もりを適用したりするための外部データに依存している。
そこで我々は, 簡易かつ効率的に適用可能な, 逆学習に基づく新しい手法を開発した。
実世界の5つのクラウドカウントベンチマークに対するアプローチを評価し、既存のアプローチを大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-05-12T02:23:25Z) - Self-Trained One-class Classification for Unsupervised Anomaly Detection [56.35424872736276]
異常検出(AD)は、製造から医療まで、さまざまな分野に応用されている。
本研究は、トレーニングデータ全体がラベル付けされておらず、正規サンプルと異常サンプルの両方を含む可能性のある、教師なしAD問題に焦点を当てる。
この問題に対処するため,データリファインメントによる堅牢な一級分類フレームワークを構築した。
本手法は6.3AUCと12.5AUCの平均精度で最先端の1クラス分類法より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-11T01:36:08Z) - Towards Good Practices for Efficiently Annotating Large-Scale Image
Classification Datasets [90.61266099147053]
多数の画像の分類ラベルを収集するための効率的なアノテーション戦略を検討する。
人間のラベリング作業を最小化するための修正とベストプラクティスを提案します。
ImageNet100の125kイメージサブセットのシミュレーション実験では、平均で0.35のアノテーションで80%のトップ-1の精度でアノテートできることが示されている。
論文 参考訳(メタデータ) (2021-04-26T16:29:32Z) - A Critical Assessment of State-of-the-Art in Entity Alignment [1.7725414095035827]
本稿では,知識グラフにおけるエンティティアライメントのタスクに対する2つの最先端(SotA)手法について検討する。
まず、ベンチマークプロセスについて慎重に検討し、いくつかの欠点を特定した。
論文 参考訳(メタデータ) (2020-10-30T15:09:19Z) - Exploring and Evaluating Attributes, Values, and Structures for Entity
Alignment [100.19568734815732]
エンティティアライメント(EA)は、さまざまなKGから等価なエンティティをリンクすることで、リッチコンテンツの統合知識グラフ(KG)を構築することを目的としている。
属性・トリプルは重要なアライメント信号も提供できますが、まだ十分に調査されていません。
本稿では,属性値エンコーダを用いてKGをサブグラフに分割し,属性の様々なタイプを効率的にモデル化することを提案する。
論文 参考訳(メタデータ) (2020-10-07T08:03:58Z) - Evaluating Models' Local Decision Boundaries via Contrast Sets [119.38387782979474]
テストデータの体系的なギャップを埋めるのに役立つNLPのための新しいアノテーションパラダイムを提案する。
10種類のNLPデータセットに対してコントラストセットを作成することで,コントラストセットの有効性を示す。
我々のコントラストセットは明示的には逆ではないが、モデルの性能は元のテストセットよりも大幅に低い。
論文 参考訳(メタデータ) (2020-04-06T14:47:18Z) - G2MF-WA: Geometric Multi-Model Fitting with Weakly Annotated Data [15.499276649167975]
弱いアノテーションでは、ほとんどの手動アノテーションは正しくなければならないが、必然的に間違ったアノテーションと混同されている。
本稿では,WAデータを完全に活用してマルチモデル適合性能を向上させる手法を提案する。
論文 参考訳(メタデータ) (2020-01-20T04:22:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。