論文の概要: Explainability of Machine Learning Approaches in Forensic Linguistics: A Case Study in Geolinguistic Authorship Profiling
- arxiv url: http://arxiv.org/abs/2404.18510v1
- Date: Mon, 29 Apr 2024 08:52:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 14:27:01.301968
- Title: Explainability of Machine Learning Approaches in Forensic Linguistics: A Case Study in Geolinguistic Authorship Profiling
- Title(参考訳): 法言語学における機械学習アプローチの説明可能性:ジオ言語的オーサシップ・プロファイリングを事例として
- Authors: Dana Roemling, Yves Scherrer, Aleksandra Miletic,
- Abstract要約: 法医学的文脈を考慮した機械学習手法の説明可能性について検討する。
未知のテキストのジオ言語的プロファイリングの手段として,多種多様な分類に焦点を当てた。
抽出された語彙的特徴が,それぞれのカテゴリに実際に代表的であることが判明した。
- 参考スコア(独自算出の注目度): 46.58131072375399
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Forensic authorship profiling uses linguistic markers to infer characteristics about an author of a text. This task is paralleled in dialect classification, where a prediction is made about the linguistic variety of a text based on the text itself. While there have been significant advances in the last years in variety classification (Jauhiainen et al., 2019) and state-of-the-art approaches reach accuracies of up to 100% depending on the similarity of varieties and the scope of prediction (e.g., Milne et al., 2012; Blodgett et al., 2017), forensic linguistics rarely relies on these approaches due to their lack of transparency (see Nini, 2023), amongst other reasons. In this paper we therefore explore explainability of machine learning approaches considering the forensic context. We focus on variety classification as a means of geolinguistic profiling of unknown texts. For this we work with an approach proposed by Xie et al. (2024) to extract the lexical items most relevant to the variety classifications. We find that the extracted lexical features are indeed representative of their respective varieties and note that the trained models also rely on place names for classifications.
- Abstract(参考訳): 法医学的著作者プロファイルは、言語マーカーを使用して、テキストの著者の特徴を推測する。
このタスクは方言分類において並列化され、テキスト自体に基づいたテキストの言語的多様性に関する予測が行われる。
過去数年間、多様性分類(Jauhiainen et al , 2019)や最先端のアプローチは、品種の類似性や予測範囲(eg , Milne et al , 2012; Blodgett et al , 2017)によって最大100%の精度に達するが、その透明性の欠如(Nini, 2023)などにより、法医学的言語学がこれらのアプローチに依存することは稀である。
そこで本稿では,法医学的文脈を考慮した機械学習手法の説明可能性について考察する。
未知のテキストのジオ言語的プロファイリングの手段として,多種多様な分類に焦点を当てた。
このために、Xie et al (2024) によって提案されたアプローチを使って、多様体分類に最も関係のある語彙項目を抽出する。
抽出した語彙的特徴がそれぞれの品種を実際に代表しており、訓練されたモデルは分類の場所名にも依存していることに注意する。
関連論文リスト
- Estimating the Influence of Sequentially Correlated Literary Properties in Textual Classification: A Data-Centric Hypothesis-Testing Approach [4.161155428666988]
スティロメトリーは、ジャンルやテーマといった要素とは異なる半意識的な選択を反映していると考えられる文学的特徴を分析して著者を区別することを目的としている。
主題的内容など一部の文学的特性は、隣接するテキスト単位間の相関関係として表される可能性が高いが、権威的なスタイルのように、その独立性を持つものもいる。
テキスト分類における逐次相関文学的特性の影響を評価するための仮説検証手法を提案する。
論文 参考訳(メタデータ) (2024-11-07T18:28:40Z) - Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。
本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文 参考訳(メタデータ) (2024-04-09T11:39:53Z) - Extracting Lexical Features from Dialects via Interpretable Dialect Classifiers [43.756851270091516]
本稿では,解釈可能な方言を用いて,方言の語彙的特徴を識別する新しい手法を提案する。
本手法は,方言の変種に寄与する重要な言語固有の語彙の特徴を同定し,その同定に有効であることを示す。
論文 参考訳(メタデータ) (2024-02-27T22:06:55Z) - Classifying text using machine learning models and determining
conversation drift [4.785406121053965]
様々な種類のテキストの分析は、意味的意味と関連性の両方を理解するのに有用である。
テキスト分類は文書を分類する方法である。
コンピュータテキスト分類と自然言語処理を組み合わせて、テキストを集約して分析する。
論文 参考訳(メタデータ) (2022-11-15T18:09:45Z) - Textual Entailment Recognition with Semantic Features from Empirical
Text Representation [60.31047947815282]
テキストが仮説を包含するのは、仮説の真の価値がテキストに従う場合に限る。
本稿では,テキストと仮説のテキストの包含関係を同定する新しい手法を提案する。
本手法では,テキスト・ハイブリッド・ペア間の意味的含意関係を識別できる要素ワイド・マンハッタン距離ベクトルベースの特徴を用いる。
論文 参考訳(メタデータ) (2022-10-18T10:03:51Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - Semantic Analysis for Automated Evaluation of the Potential Impact of
Research Articles [62.997667081978825]
本稿では,情報理論に基づくテキスト意味のベクトル表現のための新しい手法を提案する。
この情報意味論がLeicester Scientific Corpusに基づいてテキスト分類にどのように使用されるかを示す。
テキストの意味を表現するための情報的アプローチは,研究論文の科学的影響を効果的に予測する方法であることを示す。
論文 参考訳(メタデータ) (2021-04-26T20:37:13Z) - Linguistic Profiling of a Neural Language Model [1.0552465253379135]
本研究では,ニューラルネットワークモデル(NLM)が微調整前後に学習した言語知識について検討する。
BERTは、幅広い言語特性を符号化できるが、特定の下流タスクで訓練すると、その情報を失う傾向にある。
論文 参考訳(メタデータ) (2020-10-05T09:09:01Z) - Comparative Analysis of Text Classification Approaches in Electronic
Health Records [0.6229951975208341]
各種単語表現, テキスト前処理, 分類アルゴリズムが4種類のテキスト分類タスクの性能に与える影響を解析する。
その結果、従来のアプローチは、特定の言語や、分類タスクに固有のテキストの構造に合わせると、より最近のものの性能を達成または超えることができることがわかった。
論文 参考訳(メタデータ) (2020-05-08T14:04:18Z) - Linguistic Typology Features from Text: Inferring the Sparse Features of
World Atlas of Language Structures [73.06435180872293]
我々は、バイト埋め込みと畳み込み層に基づく繰り返しニューラルネットワーク予測器を構築する。
様々な言語型の特徴を確実に予測できることを示す。
論文 参考訳(メタデータ) (2020-04-30T21:00:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。