論文の概要: Grammar as a Behavioral Biometric: Using Cognitively Motivated Grammar Models for Authorship Verification
- arxiv url: http://arxiv.org/abs/2403.08462v2
- Date: Mon, 07 Apr 2025 11:12:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 02:48:49.886486
- Title: Grammar as a Behavioral Biometric: Using Cognitively Motivated Grammar Models for Authorship Verification
- Title(参考訳): 行動バイオメトリックとしての文法--認知的動機付け型文法モデルを用いたオーサリング検証
- Authors: Andrea Nini, Oren Halvani, Lukas Graner, Valerio Gherardi, Shunichi Ishihara,
- Abstract要約: 著者検証は、デジタルテキストの法医学における重要な研究領域である。
本稿では,認知言語学の原則に従って著者の文法をモデル化する手法を提案する。
- 参考スコア(独自算出の注目度): 0.815557531820863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Authorship Verification (AV) is a key area of research in digital text forensics, which addresses the fundamental question of whether two texts were written by the same person. Numerous computational approaches have been proposed over the last two decades in an attempt to address this challenge. However, existing AV methods often suffer from high complexity, low explainability and especially from a lack of clear scientific justification. We propose a simpler method based on modeling the grammar of an author following Cognitive Linguistics principles. These models are used to calculate $\lambda_G$ (LambdaG): the ratio of the likelihoods of a document given the candidate's grammar versus given a reference population's grammar. Our empirical evaluation, conducted on twelve datasets and compared against seven baseline methods, demonstrates that LambdaG achieves superior performance, including against several neural network-based AV methods. LambdaG is also robust to small variations in the composition of the reference population and provides interpretable visualizations, enhancing its explainability. We argue that its effectiveness is due to the method's compatibility with Cognitive Linguistics theories predicting that a person's grammar is a behavioral biometric.
- Abstract(参考訳): 著者検証(AV)は、デジタルテキスト鑑定学における重要な研究分野であり、2つのテキストが同一人物によって書かれたかどうかという根本的な問題に対処する。
この課題に対処するために、過去20年間に多くの計算手法が提案されてきた。
しかし、既存のAV法は、しばしば高い複雑さ、低い説明可能性、特に明確な科学的正当化の欠如に悩まされる。
本稿では,認知言語学の原則に従って著者の文法をモデル化した簡易な手法を提案する。
これらのモデルは$\lambda_G$ (LambdaG) を計算するのに使用される。
12のデータセットで実施し、7つのベースライン手法と比較した経験的評価は、LambdaGがいくつかのニューラルネットワークベースのAV手法と比較して優れた性能を発揮することを示す。
LambdaGは参照集団の構成の小さなバリエーションにも頑丈で、解釈可能な可視化を提供し、説明可能性を高めている。
本手法の有効性は,人の文法が行動バイオメトリックであると予測する認知言語学理論との整合性に起因すると論じる。
関連論文リスト
- Discrete Subgraph Sampling for Interpretable Graph based Visual Question Answering [27.193336817953142]
我々は,個別サブセットサンプリング手法をグラフベースの視覚的質問応答システムに統合する。
本手法は,解釈可能性と解答精度のトレードオフを効果的に緩和することを示す。
また、生成されたサブグラフの解釈可能性を評価するために、人間の評価を行う。
論文 参考訳(メタデータ) (2024-12-11T10:18:37Z) - Likelihood as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
言語モデルの性能の効果的な指標としての可能性を示す。
提案手法は,より優れた性能をもたらすプロンプトの選択と構築のための尺度として,疑似可能性を利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2024-11-12T13:14:09Z) - Less is More: Making Smaller Language Models Competent Subgraph Retrievers for Multi-hop KGQA [51.3033125256716]
本研究では,小言語モデルで処理される条件生成タスクとして,サブグラフ検索タスクをモデル化する。
2億2千万のパラメータからなる基本生成部分グラフ検索モデルでは,最先端モデルと比較して競合検索性能が向上した。
LLMリーダを接続した最大の3Bモデルは、WebQSPとCWQベンチマークの両方で、SOTAのエンドツーエンドパフォーマンスを新たに設定します。
論文 参考訳(メタデータ) (2024-10-08T15:22:36Z) - Detecting and explaining (in)equivalence of context-free grammars [0.6282171844772422]
文脈自由文法の同値性を決定し,証明し,説明するためのスケーラブルなフレームワークを提案する。
本稿では,本フレームワークの実装と,教育支援システム内で収集された大規模データセット上での評価を行う。
論文 参考訳(メタデータ) (2024-07-25T17:36:18Z) - H-STAR: LLM-driven Hybrid SQL-Text Adaptive Reasoning on Tables [56.73919743039263]
本稿では,2段階のプロセスにシンボル的アプローチと意味的アプローチ(テキスト的アプローチ)を統合し,制約に対処する新しいアルゴリズムを提案する。
実験の結果,H-STARは3つの質問応答(QA)と事実検証データセットにおいて,最先端の手法を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2024-06-29T21:24:19Z) - Adapting Dual-encoder Vision-language Models for Paraphrased Retrieval [55.90407811819347]
モデルが類似した結果を返すことを目的とした,パラフレーズ付きテキスト画像検索の課題について考察する。
我々は、大きなテキストコーパスで事前訓練された言語モデルから始まる二重エンコーダモデルを訓練する。
CLIPやOpenCLIPのような公開デュアルエンコーダモデルと比較して、最高の適応戦略で訓練されたモデルは、パラフレーズクエリのランク付けの類似性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-06T06:30:17Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - Making Retrieval-Augmented Language Models Robust to Irrelevant Context [55.564789967211844]
ALMの重要なデシプラタムは、検索された情報が関連する場合のパフォーマンスをモデル化するのに役立つことである。
近年の研究では、検索の増大がパフォーマンスに悪影響を及ぼすことが示されている。
論文 参考訳(メタデータ) (2023-10-02T18:52:35Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - ChatGraph: Interpretable Text Classification by Converting ChatGPT
Knowledge to Graphs [54.48467003509595]
ChatGPTは、様々な自然言語処理(NLP)タスクにおいて優れたパフォーマンスを示している。
テキスト分類などの特定のタスクにChatGPTのパワーを利用する新しいフレームワークを提案する。
本手法は,従来のテキスト分類法と比較して,より透過的な意思決定プロセスを提供する。
論文 参考訳(メタデータ) (2023-05-03T19:57:43Z) - Efficient and Flexible Topic Modeling using Pretrained Embeddings and
Bag of Sentences [1.8592384822257952]
本稿では,新しいトピックモデリングと推論アルゴリズムを提案する。
我々は,生成過程モデルとクラスタリングを組み合わせることで,事前学習文の埋め込みを活用する。
The Tailor の評価は,本手法が比較的少ない計算要求で最先端の成果をもたらすことを示している。
論文 参考訳(メタデータ) (2023-02-06T20:13:11Z) - MURMUR: Modular Multi-Step Reasoning for Semi-Structured Data-to-Text
Generation [102.20036684996248]
多段階推論を用いた半構造化データからテキストを生成するための,ニューロシンボリックなモジュラーアプローチであるMURMURを提案する。
WebNLG や LogicNLG のような2つのデータ・テキスト生成タスクについて実験を行った。
論文 参考訳(メタデータ) (2022-12-16T17:36:23Z) - Saliency Map Verbalization: Comparing Feature Importance Representations
from Model-free and Instruction-based Methods [6.018950511093273]
サージェンシマップは、重要な入力特徴を特定することによって、ニューラルネットワークの予測を説明することができる。
我々は,サリエンシマップを自然言語に翻訳する未調査課題を定式化する。
本研究では,従来の特徴強調表現と比較した2つの新手法(検索ベースおよび命令ベース言語化)を比較した。
論文 参考訳(メタデータ) (2022-10-13T17:48:15Z) - A Unified Understanding of Deep NLP Models for Text Classification [88.35418976241057]
我々は、テキスト分類のためのNLPモデルの統一的な理解を可能にする視覚解析ツールDeepNLPVisを開発した。
主要なアイデアは相互情報に基づく尺度であり、モデルの各レイヤがサンプル内の入力語の情報をどのように保持するかを定量的に説明する。
コーパスレベル、サンプルレベル、単語レベルビジュアライゼーションで構成されるマルチレベルビジュアライゼーションは、全体トレーニングセットから個々のサンプルまでの分析をサポートする。
論文 参考訳(メタデータ) (2022-06-19T08:55:07Z) - More Than Words: Towards Better Quality Interpretations of Text
Classifiers [16.66535643383862]
MLモデルの入力インタフェースを考えると、トークンベースの解釈性は便利な第1選択であるが、あらゆる状況において最も効果的ではないことを示す。
1)ランダム化テストにより測定されるほど頑健であり,2)SHAPのような近似に基づく手法を用いた場合の変動性が低く,3)言語的コヒーレンスがより高い水準にある場合の人間には理解できない。
論文 参考訳(メタデータ) (2021-12-23T10:18:50Z) - A Syntax-Guided Grammatical Error Correction Model with Dependency Tree
Correction [83.14159143179269]
文法的誤り訂正(英: Grammatical Error Correction, GEC)は、文中の文法的誤りを検出し、訂正するタスクである。
本稿では,依存木の構文知識を利用するためのグラフアテンション機構を採用した構文誘導型GECモデル(SG-GEC)を提案する。
我々は、GECタスクの公開ベンチマークでモデルを評価し、競争結果を得る。
論文 参考訳(メタデータ) (2021-11-05T07:07:48Z) - Studying word order through iterative shuffling [14.530986799844873]
NLPベンチマークタスクの実行には,単語順序エンコードが不可欠であることを示す。
我々は、固定言語モデルの下で最も高い確率を持つ単語の袋を注文する、新しい効率的な手続きであるBISを使用する。
IBISのような推論手順のシャッフルが言語モデリングや制約付き生成にどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2021-09-10T13:27:06Z) - Explaining Neural Network Predictions on Sentence Pairs via Learning
Word-Group Masks [21.16662651409811]
入力テキストペアから相関語をグループ化して単語相関を暗黙的に検出するグループマスク(GMASK)手法を提案する。
提案手法は4つのデータセットにまたがる2つの異なるモデルアーキテクチャ (decomposable attention model と bert) を用いて評価した。
論文 参考訳(メタデータ) (2021-04-09T17:14:34Z) - Improving Authorship Verification using Linguistic Divergence [6.673132899229721]
事前学習した深層言語モデルを活用したオーサシップ検証タスクに対する教師なしソリューションを提案します。
提案するメトリクスは,事前学習した言語モデルと比較した2人の著者間の差異の尺度である。
論文 参考訳(メタデータ) (2021-03-12T03:01:17Z) - The Return of Lexical Dependencies: Neural Lexicalized PCFGs [103.41187595153652]
語彙化PCFGのニューラルモデルを提案する。
実験により、この統一されたフレームワークは、いずれかの形式主義単独で達成されるよりも、両方の表現に対してより強い結果をもたらすことが示された。
論文 参考訳(メタデータ) (2020-07-29T22:12:49Z) - Traduction des Grammaires Cat\'egorielles de Lambek dans les Grammaires
Cat\'egorielles Abstraites [0.0]
このインターンシップレポートは、すべてのランベク文法が抽象カテゴリー文法(ACG)で完全にではなく効率的に表現できることを示すものである。
主な考え方は、LGの型書き換えシステムを文脈自由文法(CFG)に変換し、導入規則と除去規則を消去し、カット規則が十分であるように十分な公理を生成することである。
基礎となるアルゴリズムは完全には実装されなかったが、この証明は自然言語処理におけるACGの関連性を支持する別の議論を提供する。
論文 参考訳(メタデータ) (2020-01-23T18:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。