論文の概要: Authorship Verification based on the Likelihood Ratio of Grammar Models
- arxiv url: http://arxiv.org/abs/2403.08462v1
- Date: Wed, 13 Mar 2024 12:25:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 14:43:45.071012
- Title: Authorship Verification based on the Likelihood Ratio of Grammar Models
- Title(参考訳): 文法モデルの類似率に基づく著者検証
- Authors: Andrea Nini, Oren Halvani, Lukas Graner, Valerio Gherardi, Shunichi
Ishihara
- Abstract要約: 著者検証(英語: Authorship Verification、AV)とは、特定の著者によって書かれたかどうかを判断する一連の文書を分析するプロセスである。
我々は、$lambda_G$ (LambdaG) と呼ぶ量を計算する方法を提案する。
トレーニングに大量のデータを必要としないにも関わらず、LambdaGは計算複雑性の高い既存のAVメソッドよりも優れています。
- 参考スコア(独自算出の注目度): 0.8749675983608172
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Authorship Verification (AV) is the process of analyzing a set of documents
to determine whether they were written by a specific author. This problem often
arises in forensic scenarios, e.g., in cases where the documents in question
constitute evidence for a crime. Existing state-of-the-art AV methods use
computational solutions that are not supported by a plausible scientific
explanation for their functioning and that are often difficult for analysts to
interpret. To address this, we propose a method relying on calculating a
quantity we call $\lambda_G$ (LambdaG): the ratio between the likelihood of a
document given a model of the Grammar for the candidate author and the
likelihood of the same document given a model of the Grammar for a reference
population. These Grammar Models are estimated using $n$-gram language models
that are trained solely on grammatical features. Despite not needing large
amounts of data for training, LambdaG still outperforms other established AV
methods with higher computational complexity, including a fine-tuned Siamese
Transformer network. Our empirical evaluation based on four baseline methods
applied to twelve datasets shows that LambdaG leads to better results in terms
of both accuracy and AUC in eleven cases and in all twelve cases if considering
only topic-agnostic methods. The algorithm is also highly robust to important
variations in the genre of the reference population in many cross-genre
comparisons. In addition to these properties, we demonstrate how LambdaG is
easier to interpret than the current state-of-the-art. We argue that the
advantage of LambdaG over other methods is due to fact that it is compatible
with Cognitive Linguistic theories of language processing.
- Abstract(参考訳): 著者検証(英語: Authorship Verification、AV)とは、特定の著者によって書かれたかどうかを判断する一連の文書を分析するプロセスである。
この問題は、問題のある文書が犯罪の証拠となる場合など、法医学的なシナリオでしばしば発生する。
既存の最先端のAV手法では、その機能に関するもっともらしい科学的説明に支えられず、しばしばアナリストが解釈するのが困難である計算解を用いている。
そこで本稿では,著者候補に対する文法のモデルが与えられた文書の確率と,参照集団に対する文法のモデルが与えられた同じ文書の確率との比を,$\lambda_G$ (LambdaG) と呼ぶ量に依存する手法を提案する。
これらの文法モデルは、文法的特徴のみに基づいて訓練された$n$-gram言語モデルを用いて推定される。
トレーニングに大量のデータを必要としないにもかかわらず、LambdaGは依然として、微調整されたSiamese Transformerネットワークを含む、より高度な計算複雑性を持つ既存のAVメソッドよりも優れています。
12のデータセットに適用した4つのベースライン法に基づく経験的評価は、LambdaGが11のケースにおいて精度とAUCの両面で、トピックに依存しない手法のみを考慮すると、12のケースにおいて、より良い結果をもたらすことを示している。
このアルゴリズムは、多くのクロスジャンル比較において、参照人口のジャンルにおいて重要なバリエーションに対して非常に堅牢である。
これらの特性に加えて、現在の最先端技術よりもLambdaGの解釈が簡単であることを示す。
我々は、LambdaGが他の手法よりも優れているのは、言語処理の認知言語学理論と互換性があるという事実からであると主張している。
関連論文リスト
- Detecting and explaining (in)equivalence of context-free grammars [0.6282171844772422]
文脈自由文法の同値性を決定し,証明し,説明するためのスケーラブルなフレームワークを提案する。
本稿では,本フレームワークの実装と,教育支援システム内で収集された大規模データセット上での評価を行う。
論文 参考訳(メタデータ) (2024-07-25T17:36:18Z) - A Fundamental Trade-off in Aligned Language Models and its Relation to Sampling Adaptors [50.046717886067555]
汎用言語モデルとその整列バージョンが与えられた場合、一般的な言語モデルの下では、平均報酬と平均ログライクな文字列の間にトレードオフが存在する。
この問題を形式的に処理し、サンプリングアダプタの選択が、報酬と交換する可能性の選択を可能にすることを実証する。
論文 参考訳(メタデータ) (2024-06-14T17:38:21Z) - Adapting Dual-encoder Vision-language Models for Paraphrased Retrieval [55.90407811819347]
モデルが類似した結果を返すことを目的とした,パラフレーズ付きテキスト画像検索の課題について考察する。
我々は、大きなテキストコーパスで事前訓練された言語モデルから始まる二重エンコーダモデルを訓練する。
CLIPやOpenCLIPのような公開デュアルエンコーダモデルと比較して、最高の適応戦略で訓練されたモデルは、パラフレーズクエリのランク付けの類似性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-06T06:30:17Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - Making Retrieval-Augmented Language Models Robust to Irrelevant Context [55.564789967211844]
ALMの重要なデシプラタムは、検索された情報が関連する場合のパフォーマンスをモデル化するのに役立つことである。
近年の研究では、検索の増大がパフォーマンスに悪影響を及ぼすことが示されている。
論文 参考訳(メタデータ) (2023-10-02T18:52:35Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Efficient and Flexible Topic Modeling using Pretrained Embeddings and
Bag of Sentences [1.8592384822257952]
本稿では,新しいトピックモデリングと推論アルゴリズムを提案する。
我々は,生成過程モデルとクラスタリングを組み合わせることで,事前学習文の埋め込みを活用する。
The Tailor の評価は,本手法が比較的少ない計算要求で最先端の成果をもたらすことを示している。
論文 参考訳(メタデータ) (2023-02-06T20:13:11Z) - A Syntax-Guided Grammatical Error Correction Model with Dependency Tree
Correction [83.14159143179269]
文法的誤り訂正(英: Grammatical Error Correction, GEC)は、文中の文法的誤りを検出し、訂正するタスクである。
本稿では,依存木の構文知識を利用するためのグラフアテンション機構を採用した構文誘導型GECモデル(SG-GEC)を提案する。
我々は、GECタスクの公開ベンチマークでモデルを評価し、競争結果を得る。
論文 参考訳(メタデータ) (2021-11-05T07:07:48Z) - Studying word order through iterative shuffling [14.530986799844873]
NLPベンチマークタスクの実行には,単語順序エンコードが不可欠であることを示す。
我々は、固定言語モデルの下で最も高い確率を持つ単語の袋を注文する、新しい効率的な手続きであるBISを使用する。
IBISのような推論手順のシャッフルが言語モデリングや制約付き生成にどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2021-09-10T13:27:06Z) - Traduction des Grammaires Cat\'egorielles de Lambek dans les Grammaires
Cat\'egorielles Abstraites [0.0]
このインターンシップレポートは、すべてのランベク文法が抽象カテゴリー文法(ACG)で完全にではなく効率的に表現できることを示すものである。
主な考え方は、LGの型書き換えシステムを文脈自由文法(CFG)に変換し、導入規則と除去規則を消去し、カット規則が十分であるように十分な公理を生成することである。
基礎となるアルゴリズムは完全には実装されなかったが、この証明は自然言語処理におけるACGの関連性を支持する別の議論を提供する。
論文 参考訳(メタデータ) (2020-01-23T18:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。