論文の概要: Grammar as a Behavioral Biometric: Using Cognitively Motivated Grammar Models for Authorship Verification
- arxiv url: http://arxiv.org/abs/2403.08462v2
- Date: Mon, 07 Apr 2025 11:12:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:07:32.217731
- Title: Grammar as a Behavioral Biometric: Using Cognitively Motivated Grammar Models for Authorship Verification
- Title(参考訳): 行動バイオメトリックとしての文法--認知的動機付け型文法モデルを用いたオーサリング検証
- Authors: Andrea Nini, Oren Halvani, Lukas Graner, Valerio Gherardi, Shunichi Ishihara,
- Abstract要約: 著者検証は、デジタルテキストの法医学における重要な研究領域である。
本稿では,認知言語学の原則に従って著者の文法をモデル化する手法を提案する。
- 参考スコア(独自算出の注目度): 0.815557531820863
- License:
- Abstract: Authorship Verification (AV) is a key area of research in digital text forensics, which addresses the fundamental question of whether two texts were written by the same person. Numerous computational approaches have been proposed over the last two decades in an attempt to address this challenge. However, existing AV methods often suffer from high complexity, low explainability and especially from a lack of clear scientific justification. We propose a simpler method based on modeling the grammar of an author following Cognitive Linguistics principles. These models are used to calculate $\lambda_G$ (LambdaG): the ratio of the likelihoods of a document given the candidate's grammar versus given a reference population's grammar. Our empirical evaluation, conducted on twelve datasets and compared against seven baseline methods, demonstrates that LambdaG achieves superior performance, including against several neural network-based AV methods. LambdaG is also robust to small variations in the composition of the reference population and provides interpretable visualizations, enhancing its explainability. We argue that its effectiveness is due to the method's compatibility with Cognitive Linguistics theories predicting that a person's grammar is a behavioral biometric.
- Abstract(参考訳): 著者検証(AV)は、デジタルテキスト鑑定学における重要な研究分野であり、2つのテキストが同一人物によって書かれたかどうかという根本的な問題に対処する。
この課題に対処するために、過去20年間に多くの計算手法が提案されてきた。
しかし、既存のAV法は、しばしば高い複雑さ、低い説明可能性、特に明確な科学的正当化の欠如に悩まされる。
本稿では,認知言語学の原則に従って著者の文法をモデル化した簡易な手法を提案する。
これらのモデルは$\lambda_G$ (LambdaG) を計算するのに使用される。
12のデータセットで実施し、7つのベースライン手法と比較した経験的評価は、LambdaGがいくつかのニューラルネットワークベースのAV手法と比較して優れた性能を発揮することを示す。
LambdaGは参照集団の構成の小さなバリエーションにも頑丈で、解釈可能な可視化を提供し、説明可能性を高めている。
本手法の有効性は,人の文法が行動バイオメトリックであると予測する認知言語学理論との整合性に起因すると論じる。
関連論文リスト
- Likelihood as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
言語モデルの性能の効果的な指標としての可能性を示す。
提案手法は,より優れた性能をもたらすプロンプトの選択と構築のための尺度として,疑似可能性を利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2024-11-12T13:14:09Z) - Less is More: Making Smaller Language Models Competent Subgraph Retrievers for Multi-hop KGQA [51.3033125256716]
本研究では,小言語モデルで処理される条件生成タスクとして,サブグラフ検索タスクをモデル化する。
2億2千万のパラメータからなる基本生成部分グラフ検索モデルでは,最先端モデルと比較して競合検索性能が向上した。
LLMリーダを接続した最大の3Bモデルは、WebQSPとCWQベンチマークの両方で、SOTAのエンドツーエンドパフォーマンスを新たに設定します。
論文 参考訳(メタデータ) (2024-10-08T15:22:36Z) - Detecting and explaining (in)equivalence of context-free grammars [0.6282171844772422]
文脈自由文法の同値性を決定し,証明し,説明するためのスケーラブルなフレームワークを提案する。
本稿では,本フレームワークの実装と,教育支援システム内で収集された大規模データセット上での評価を行う。
論文 参考訳(メタデータ) (2024-07-25T17:36:18Z) - Adapting Dual-encoder Vision-language Models for Paraphrased Retrieval [55.90407811819347]
モデルが類似した結果を返すことを目的とした,パラフレーズ付きテキスト画像検索の課題について考察する。
我々は、大きなテキストコーパスで事前訓練された言語モデルから始まる二重エンコーダモデルを訓練する。
CLIPやOpenCLIPのような公開デュアルエンコーダモデルと比較して、最高の適応戦略で訓練されたモデルは、パラフレーズクエリのランク付けの類似性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-06T06:30:17Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - Making Retrieval-Augmented Language Models Robust to Irrelevant Context [55.564789967211844]
ALMの重要なデシプラタムは、検索された情報が関連する場合のパフォーマンスをモデル化するのに役立つことである。
近年の研究では、検索の増大がパフォーマンスに悪影響を及ぼすことが示されている。
論文 参考訳(メタデータ) (2023-10-02T18:52:35Z) - Efficient and Flexible Topic Modeling using Pretrained Embeddings and
Bag of Sentences [1.8592384822257952]
本稿では,新しいトピックモデリングと推論アルゴリズムを提案する。
我々は,生成過程モデルとクラスタリングを組み合わせることで,事前学習文の埋め込みを活用する。
The Tailor の評価は,本手法が比較的少ない計算要求で最先端の成果をもたらすことを示している。
論文 参考訳(メタデータ) (2023-02-06T20:13:11Z) - A Syntax-Guided Grammatical Error Correction Model with Dependency Tree
Correction [83.14159143179269]
文法的誤り訂正(英: Grammatical Error Correction, GEC)は、文中の文法的誤りを検出し、訂正するタスクである。
本稿では,依存木の構文知識を利用するためのグラフアテンション機構を採用した構文誘導型GECモデル(SG-GEC)を提案する。
我々は、GECタスクの公開ベンチマークでモデルを評価し、競争結果を得る。
論文 参考訳(メタデータ) (2021-11-05T07:07:48Z) - Studying word order through iterative shuffling [14.530986799844873]
NLPベンチマークタスクの実行には,単語順序エンコードが不可欠であることを示す。
我々は、固定言語モデルの下で最も高い確率を持つ単語の袋を注文する、新しい効率的な手続きであるBISを使用する。
IBISのような推論手順のシャッフルが言語モデリングや制約付き生成にどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2021-09-10T13:27:06Z) - Traduction des Grammaires Cat\'egorielles de Lambek dans les Grammaires
Cat\'egorielles Abstraites [0.0]
このインターンシップレポートは、すべてのランベク文法が抽象カテゴリー文法(ACG)で完全にではなく効率的に表現できることを示すものである。
主な考え方は、LGの型書き換えシステムを文脈自由文法(CFG)に変換し、導入規則と除去規則を消去し、カット規則が十分であるように十分な公理を生成することである。
基礎となるアルゴリズムは完全には実装されなかったが、この証明は自然言語処理におけるACGの関連性を支持する別の議論を提供する。
論文 参考訳(メタデータ) (2020-01-23T18:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。