論文の概要: Authorship Verification based on the Likelihood Ratio of Grammar Models
- arxiv url: http://arxiv.org/abs/2403.08462v1
- Date: Wed, 13 Mar 2024 12:25:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 14:43:45.071012
- Title: Authorship Verification based on the Likelihood Ratio of Grammar Models
- Title(参考訳): 文法モデルの類似率に基づく著者検証
- Authors: Andrea Nini, Oren Halvani, Lukas Graner, Valerio Gherardi, Shunichi
Ishihara
- Abstract要約: 著者検証(英語: Authorship Verification、AV)とは、特定の著者によって書かれたかどうかを判断する一連の文書を分析するプロセスである。
我々は、$lambda_G$ (LambdaG) と呼ぶ量を計算する方法を提案する。
トレーニングに大量のデータを必要としないにも関わらず、LambdaGは計算複雑性の高い既存のAVメソッドよりも優れています。
- 参考スコア(独自算出の注目度): 0.8749675983608172
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Authorship Verification (AV) is the process of analyzing a set of documents
to determine whether they were written by a specific author. This problem often
arises in forensic scenarios, e.g., in cases where the documents in question
constitute evidence for a crime. Existing state-of-the-art AV methods use
computational solutions that are not supported by a plausible scientific
explanation for their functioning and that are often difficult for analysts to
interpret. To address this, we propose a method relying on calculating a
quantity we call $\lambda_G$ (LambdaG): the ratio between the likelihood of a
document given a model of the Grammar for the candidate author and the
likelihood of the same document given a model of the Grammar for a reference
population. These Grammar Models are estimated using $n$-gram language models
that are trained solely on grammatical features. Despite not needing large
amounts of data for training, LambdaG still outperforms other established AV
methods with higher computational complexity, including a fine-tuned Siamese
Transformer network. Our empirical evaluation based on four baseline methods
applied to twelve datasets shows that LambdaG leads to better results in terms
of both accuracy and AUC in eleven cases and in all twelve cases if considering
only topic-agnostic methods. The algorithm is also highly robust to important
variations in the genre of the reference population in many cross-genre
comparisons. In addition to these properties, we demonstrate how LambdaG is
easier to interpret than the current state-of-the-art. We argue that the
advantage of LambdaG over other methods is due to fact that it is compatible
with Cognitive Linguistic theories of language processing.
- Abstract(参考訳): 著者検証(英語: Authorship Verification、AV)とは、特定の著者によって書かれたかどうかを判断する一連の文書を分析するプロセスである。
この問題は、問題のある文書が犯罪の証拠となる場合など、法医学的なシナリオでしばしば発生する。
既存の最先端のAV手法では、その機能に関するもっともらしい科学的説明に支えられず、しばしばアナリストが解釈するのが困難である計算解を用いている。
そこで本稿では,著者候補に対する文法のモデルが与えられた文書の確率と,参照集団に対する文法のモデルが与えられた同じ文書の確率との比を,$\lambda_G$ (LambdaG) と呼ぶ量に依存する手法を提案する。
これらの文法モデルは、文法的特徴のみに基づいて訓練された$n$-gram言語モデルを用いて推定される。
トレーニングに大量のデータを必要としないにもかかわらず、LambdaGは依然として、微調整されたSiamese Transformerネットワークを含む、より高度な計算複雑性を持つ既存のAVメソッドよりも優れています。
12のデータセットに適用した4つのベースライン法に基づく経験的評価は、LambdaGが11のケースにおいて精度とAUCの両面で、トピックに依存しない手法のみを考慮すると、12のケースにおいて、より良い結果をもたらすことを示している。
このアルゴリズムは、多くのクロスジャンル比較において、参照人口のジャンルにおいて重要なバリエーションに対して非常に堅牢である。
これらの特性に加えて、現在の最先端技術よりもLambdaGの解釈が簡単であることを示す。
我々は、LambdaGが他の手法よりも優れているのは、言語処理の認知言語学理論と互換性があるという事実からであると主張している。
関連論文リスト
- Making Retrieval-Augmented Language Models Robust to Irrelevant Context [60.70054129188434]
ALMの重要なデシプラタムは、検索された情報が関連する場合のパフォーマンスをモデル化するのに役立つことである。
近年の研究では、検索の増大がパフォーマンスに悪影響を及ぼすことが示されている。
論文 参考訳(メタデータ) (2023-10-02T18:52:35Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Not All Metrics Are Guilty: Improving NLG Evaluation with LLM
Paraphrasing [92.17776245159622]
Para-Refは、参照数を増やして評価ベンチマークを強化する新しい方法である。
我々は,大規模言語モデル(LLM)を用いて,単一の参照を多種多様な表現で複数の高品質なものに表現する。
提案手法は, 自動評価値16の相関を+7.82%の比率で効果的に改善することができる。
論文 参考訳(メタデータ) (2023-05-24T11:53:29Z) - Efficient and Flexible Topic Modeling using Pretrained Embeddings and
Bag of Sentences [1.8592384822257952]
本稿では,新しいトピックモデリングと推論アルゴリズムを提案する。
我々は,生成過程モデルとクラスタリングを組み合わせることで,事前学習文の埋め込みを活用する。
The Tailor の評価は,本手法が比較的少ない計算要求で最先端の成果をもたらすことを示している。
論文 参考訳(メタデータ) (2023-02-06T20:13:11Z) - Revisiting text decomposition methods for NLI-based factuality scoring
of summaries [9.044665059626958]
細粒度分解が必ずしも事実性スコアの勝利戦略であるとは限らないことを示す。
また,従来提案されていたエンテーメントに基づくスコアリング手法の小さな変更により,性能が向上することを示した。
論文 参考訳(メタデータ) (2022-11-30T09:54:37Z) - A Unified Understanding of Deep NLP Models for Text Classification [88.35418976241057]
我々は、テキスト分類のためのNLPモデルの統一的な理解を可能にする視覚解析ツールDeepNLPVisを開発した。
主要なアイデアは相互情報に基づく尺度であり、モデルの各レイヤがサンプル内の入力語の情報をどのように保持するかを定量的に説明する。
コーパスレベル、サンプルレベル、単語レベルビジュアライゼーションで構成されるマルチレベルビジュアライゼーションは、全体トレーニングセットから個々のサンプルまでの分析をサポートする。
論文 参考訳(メタデータ) (2022-06-19T08:55:07Z) - A Syntax-Guided Grammatical Error Correction Model with Dependency Tree
Correction [83.14159143179269]
文法的誤り訂正(英: Grammatical Error Correction, GEC)は、文中の文法的誤りを検出し、訂正するタスクである。
本稿では,依存木の構文知識を利用するためのグラフアテンション機構を採用した構文誘導型GECモデル(SG-GEC)を提案する。
我々は、GECタスクの公開ベンチマークでモデルを評価し、競争結果を得る。
論文 参考訳(メタデータ) (2021-11-05T07:07:48Z) - Studying word order through iterative shuffling [14.530986799844873]
NLPベンチマークタスクの実行には,単語順序エンコードが不可欠であることを示す。
我々は、固定言語モデルの下で最も高い確率を持つ単語の袋を注文する、新しい効率的な手続きであるBISを使用する。
IBISのような推論手順のシャッフルが言語モデリングや制約付き生成にどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2021-09-10T13:27:06Z) - Unnatural Language Inference [48.45003475966808]
我々は、RoBERTaやBARTのような最先端のNLIモデルは、ランダムに並べ替えられた単語の例に不変であり、時にはよりよく機能することさえあります。
我々の発見は、自然言語理解モデルと、その進捗を測定するために使われるタスクが、本当に人間のような構文理解を必要とするという考えに疑問を投げかけている。
論文 参考訳(メタデータ) (2020-12-30T20:40:48Z) - Traduction des Grammaires Cat\'egorielles de Lambek dans les Grammaires
Cat\'egorielles Abstraites [0.0]
このインターンシップレポートは、すべてのランベク文法が抽象カテゴリー文法(ACG)で完全にではなく効率的に表現できることを示すものである。
主な考え方は、LGの型書き換えシステムを文脈自由文法(CFG)に変換し、導入規則と除去規則を消去し、カット規則が十分であるように十分な公理を生成することである。
基礎となるアルゴリズムは完全には実装されなかったが、この証明は自然言語処理におけるACGの関連性を支持する別の議論を提供する。
論文 参考訳(メタデータ) (2020-01-23T18:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。