Fugu-MT 論文翻訳(概要): Authorship Verification based on the Likelihood Ratio of Grammar Models

論文の概要: Authorship Verification based on the Likelihood Ratio of Grammar Models

arxiv url: http://arxiv.org/abs/2403.08462v1
Date: Wed, 13 Mar 2024 12:25:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-14 14:43:45.071012
Title: Authorship Verification based on the Likelihood Ratio of Grammar Models
Title（参考訳）: 文法モデルの類似率に基づく著者検証
Authors: Andrea Nini, Oren Halvani, Lukas Graner, Valerio Gherardi, Shunichi Ishihara
Abstract要約: 著者検証(英語: Authorship Verification、AV)とは、特定の著者によって書かれたかどうかを判断する一連の文書を分析するプロセスである。我々は、$lambda_G$ (LambdaG) と呼ぶ量を計算する方法を提案する。トレーニングに大量のデータを必要としないにも関わらず、LambdaGは計算複雑性の高い既存のAVメソッドよりも優れています。
参考スコア（独自算出の注目度）: 0.8749675983608172
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Authorship Verification (AV) is the process of analyzing a set of documents to determine whether they were written by a specific author. This problem often arises in forensic scenarios, e.g., in cases where the documents in question constitute evidence for a crime. Existing state-of-the-art AV methods use computational solutions that are not supported by a plausible scientific explanation for their functioning and that are often difficult for analysts to interpret. To address this, we propose a method relying on calculating a quantity we call $\lambda_G$ (LambdaG): the ratio between the likelihood of a document given a model of the Grammar for the candidate author and the likelihood of the same document given a model of the Grammar for a reference population. These Grammar Models are estimated using $n$-gram language models that are trained solely on grammatical features. Despite not needing large amounts of data for training, LambdaG still outperforms other established AV methods with higher computational complexity, including a fine-tuned Siamese Transformer network. Our empirical evaluation based on four baseline methods applied to twelve datasets shows that LambdaG leads to better results in terms of both accuracy and AUC in eleven cases and in all twelve cases if considering only topic-agnostic methods. The algorithm is also highly robust to important variations in the genre of the reference population in many cross-genre comparisons. In addition to these properties, we demonstrate how LambdaG is easier to interpret than the current state-of-the-art. We argue that the advantage of LambdaG over other methods is due to fact that it is compatible with Cognitive Linguistic theories of language processing.
Abstract（参考訳）: 著者検証(英語: Authorship Verification、AV)とは、特定の著者によって書かれたかどうかを判断する一連の文書を分析するプロセスである。この問題は、問題のある文書が犯罪の証拠となる場合など、法医学的なシナリオでしばしば発生する。既存の最先端のAV手法では、その機能に関するもっともらしい科学的説明に支えられず、しばしばアナリストが解釈するのが困難である計算解を用いている。そこで本稿では,著者候補に対する文法のモデルが与えられた文書の確率と,参照集団に対する文法のモデルが与えられた同じ文書の確率との比を,$\lambda_G$ (LambdaG) と呼ぶ量に依存する手法を提案する。これらの文法モデルは、文法的特徴のみに基づいて訓練された$n$-gram言語モデルを用いて推定される。トレーニングに大量のデータを必要としないにもかかわらず、LambdaGは依然として、微調整されたSiamese Transformerネットワークを含む、より高度な計算複雑性を持つ既存のAVメソッドよりも優れています。 12のデータセットに適用した4つのベースライン法に基づく経験的評価は、LambdaGが11のケースにおいて精度とAUCの両面で、トピックに依存しない手法のみを考慮すると、12のケースにおいて、より良い結果をもたらすことを示している。このアルゴリズムは、多くのクロスジャンル比較において、参照人口のジャンルにおいて重要なバリエーションに対して非常に堅牢である。これらの特性に加えて、現在の最先端技術よりもLambdaGの解釈が簡単であることを示す。我々は、LambdaGが他の手法よりも優れているのは、言語処理の認知言語学理論と互換性があるという事実からであると主張している。

関連論文リスト

Verified Language Processing with Hybrid Explainability: A Technical Report [0.7066382982173529]
この問題に対処するために,ハイブリッドな説明責任を設計した新しいパイプラインを提案する。我々の手法はグラフと論理を組み合わせて一階述語論理表現を生成し、モンタギュー文法を通して機械的・人間的可読表現を生成する。予備的な結果は,本手法が全文類似性を捉える上での有効性を示している。
論文参考訳（メタデータ） (2025-07-07T14:00:05Z)
Discrete Subgraph Sampling for Interpretable Graph based Visual Question Answering [27.193336817953142]
我々は,個別サブセットサンプリング手法をグラフベースの視覚的質問応答システムに統合する。本手法は,解釈可能性と解答精度のトレードオフを効果的に緩和することを示す。また、生成されたサブグラフの解釈可能性を評価するために、人間の評価を行う。
論文参考訳（メタデータ） (2024-12-11T10:18:37Z)
Likelihood as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
言語モデルの性能の効果的な指標としての可能性を示す。提案手法は,より優れた性能をもたらすプロンプトの選択と構築のための尺度として,疑似可能性を利用する2つの手法を提案する。
論文参考訳（メタデータ） (2024-11-12T13:14:09Z)
Less is More: Making Smaller Language Models Competent Subgraph Retrievers for Multi-hop KGQA [51.3033125256716]
本研究では,小言語モデルで処理される条件生成タスクとして,サブグラフ検索タスクをモデル化する。 2億2千万のパラメータからなる基本生成部分グラフ検索モデルでは,最先端モデルと比較して競合検索性能が向上した。 LLMリーダを接続した最大の3Bモデルは、WebQSPとCWQベンチマークの両方で、SOTAのエンドツーエンドパフォーマンスを新たに設定します。
論文参考訳（メタデータ） (2024-10-08T15:22:36Z)
Detecting and explaining (in)equivalence of context-free grammars [0.6282171844772422]
文脈自由文法の同値性を決定し,証明し,説明するためのスケーラブルなフレームワークを提案する。本稿では,本フレームワークの実装と,教育支援システム内で収集された大規模データセット上での評価を行う。
論文参考訳（メタデータ） (2024-07-25T17:36:18Z)
H-STAR: LLM-driven Hybrid SQL-Text Adaptive Reasoning on Tables [56.73919743039263]
本稿では,2段階のプロセスにシンボル的アプローチと意味的アプローチ(テキスト的アプローチ)を統合し,制約に対処する新しいアルゴリズムを提案する。実験の結果,H-STARは3つの質問応答(QA)と事実検証データセットにおいて,最先端の手法を大幅に上回っていることがわかった。
論文参考訳（メタデータ） (2024-06-29T21:24:19Z)
Adapting Dual-encoder Vision-language Models for Paraphrased Retrieval [55.90407811819347]
モデルが類似した結果を返すことを目的とした,パラフレーズ付きテキスト画像検索の課題について考察する。我々は、大きなテキストコーパスで事前訓練された言語モデルから始まる二重エンコーダモデルを訓練する。 CLIPやOpenCLIPのような公開デュアルエンコーダモデルと比較して、最高の適応戦略で訓練されたモデルは、パラフレーズクエリのランク付けの類似性を大幅に向上させる。
論文参考訳（メタデータ） (2024-05-06T06:30:17Z)
Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文参考訳（メタデータ） (2024-03-26T12:47:39Z)
Making Retrieval-Augmented Language Models Robust to Irrelevant Context [55.564789967211844]
ALMの重要なデシプラタムは、検索された情報が関連する場合のパフォーマンスをモデル化するのに役立つことである。近年の研究では、検索の増大がパフォーマンスに悪影響を及ぼすことが示されている。
論文参考訳（メタデータ） (2023-10-02T18:52:35Z)
Scalable Learning of Latent Language Structure With Logical Offline Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文参考訳（メタデータ） (2023-05-31T16:47:20Z)
ChatGraph: Interpretable Text Classification by Converting ChatGPT Knowledge to Graphs [54.48467003509595]
ChatGPTは、様々な自然言語処理(NLP)タスクにおいて優れたパフォーマンスを示している。テキスト分類などの特定のタスクにChatGPTのパワーを利用する新しいフレームワークを提案する。本手法は,従来のテキスト分類法と比較して,より透過的な意思決定プロセスを提供する。
論文参考訳（メタデータ） (2023-05-03T19:57:43Z)
Efficient and Flexible Topic Modeling using Pretrained Embeddings and Bag of Sentences [1.8592384822257952]
本稿では,新しいトピックモデリングと推論アルゴリズムを提案する。我々は,生成過程モデルとクラスタリングを組み合わせることで,事前学習文の埋め込みを活用する。 The Tailor の評価は,本手法が比較的少ない計算要求で最先端の成果をもたらすことを示している。
論文参考訳（メタデータ） (2023-02-06T20:13:11Z)
MURMUR: Modular Multi-Step Reasoning for Semi-Structured Data-to-Text Generation [102.20036684996248]
多段階推論を用いた半構造化データからテキストを生成するための,ニューロシンボリックなモジュラーアプローチであるMURMURを提案する。 WebNLG や LogicNLG のような2つのデータ・テキスト生成タスクについて実験を行った。
論文参考訳（メタデータ） (2022-12-16T17:36:23Z)
Saliency Map Verbalization: Comparing Feature Importance Representations from Model-free and Instruction-based Methods [6.018950511093273]
サージェンシマップは、重要な入力特徴を特定することによって、ニューラルネットワークの予測を説明することができる。我々は,サリエンシマップを自然言語に翻訳する未調査課題を定式化する。本研究では,従来の特徴強調表現と比較した2つの新手法(検索ベースおよび命令ベース言語化)を比較した。
論文参考訳（メタデータ） (2022-10-13T17:48:15Z)
A Unified Understanding of Deep NLP Models for Text Classification [88.35418976241057]
我々は、テキスト分類のためのNLPモデルの統一的な理解を可能にする視覚解析ツールDeepNLPVisを開発した。主要なアイデアは相互情報に基づく尺度であり、モデルの各レイヤがサンプル内の入力語の情報をどのように保持するかを定量的に説明する。コーパスレベル、サンプルレベル、単語レベルビジュアライゼーションで構成されるマルチレベルビジュアライゼーションは、全体トレーニングセットから個々のサンプルまでの分析をサポートする。
論文参考訳（メタデータ） (2022-06-19T08:55:07Z)
More Than Words: Towards Better Quality Interpretations of Text Classifiers [16.66535643383862]
MLモデルの入力インタフェースを考えると、トークンベースの解釈性は便利な第1選択であるが、あらゆる状況において最も効果的ではないことを示す。 1)ランダム化テストにより測定されるほど頑健であり,2)SHAPのような近似に基づく手法を用いた場合の変動性が低く,3)言語的コヒーレンスがより高い水準にある場合の人間には理解できない。
論文参考訳（メタデータ） (2021-12-23T10:18:50Z)
A Syntax-Guided Grammatical Error Correction Model with Dependency Tree Correction [83.14159143179269]
文法的誤り訂正(英: Grammatical Error Correction, GEC)は、文中の文法的誤りを検出し、訂正するタスクである。本稿では,依存木の構文知識を利用するためのグラフアテンション機構を採用した構文誘導型GECモデル(SG-GEC)を提案する。我々は、GECタスクの公開ベンチマークでモデルを評価し、競争結果を得る。
論文参考訳（メタデータ） (2021-11-05T07:07:48Z)
Studying word order through iterative shuffling [14.530986799844873]
NLPベンチマークタスクの実行には,単語順序エンコードが不可欠であることを示す。我々は、固定言語モデルの下で最も高い確率を持つ単語の袋を注文する、新しい効率的な手続きであるBISを使用する。 IBISのような推論手順のシャッフルが言語モデリングや制約付き生成にどのように役立つかについて議論する。
論文参考訳（メタデータ） (2021-09-10T13:27:06Z)
Explaining Neural Network Predictions on Sentence Pairs via Learning Word-Group Masks [21.16662651409811]
入力テキストペアから相関語をグループ化して単語相関を暗黙的に検出するグループマスク(GMASK)手法を提案する。提案手法は4つのデータセットにまたがる2つの異なるモデルアーキテクチャ (decomposable attention model と bert) を用いて評価した。
論文参考訳（メタデータ） (2021-04-09T17:14:34Z)
Improving Authorship Verification using Linguistic Divergence [6.673132899229721]
事前学習した深層言語モデルを活用したオーサシップ検証タスクに対する教師なしソリューションを提案します。提案するメトリクスは,事前学習した言語モデルと比較した2人の著者間の差異の尺度である。
論文参考訳（メタデータ） (2021-03-12T03:01:17Z)
The Return of Lexical Dependencies: Neural Lexicalized PCFGs [103.41187595153652]
語彙化PCFGのニューラルモデルを提案する。実験により、この統一されたフレームワークは、いずれかの形式主義単独で達成されるよりも、両方の表現に対してより強い結果をもたらすことが示された。
論文参考訳（メタデータ） (2020-07-29T22:12:49Z)
Traduction des Grammaires Cat\'egorielles de Lambek dans les Grammaires Cat\'egorielles Abstraites [0.0]
このインターンシップレポートは、すべてのランベク文法が抽象カテゴリー文法(ACG)で完全にではなく効率的に表現できることを示すものである。主な考え方は、LGの型書き換えシステムを文脈自由文法(CFG)に変換し、導入規則と除去規則を消去し、カット規則が十分であるように十分な公理を生成することである。基礎となるアルゴリズムは完全には実装されなかったが、この証明は自然言語処理におけるACGの関連性を支持する別の議論を提供する。
論文参考訳（メタデータ） (2020-01-23T18:23:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。