論文の概要: Domain-based Latent Personal Analysis and its use for impersonation
detection in social media
- arxiv url: http://arxiv.org/abs/2004.02346v3
- Date: Wed, 23 Feb 2022 16:10:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 12:53:39.957490
- Title: Domain-based Latent Personal Analysis and its use for impersonation
detection in social media
- Title(参考訳): ドメインベース潜在個人分析とソーシャルメディアにおける偽造検出への応用
- Authors: Osnat Mokryn and Hagit Ben-Shoshan
- Abstract要約: 我々は、ドメイン内のエンティティに対するドメインベースの属性を見つける方法、Latent Personal Analysisを考案した。
ドメイン内では、著者の署名は、緩やかな言葉で、著者の欠落した人気語と、頻繁な単語から導き出すことができる。
著者の帰属を説明するために,本手法の活用例を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zipf's law defines an inverse proportion between a word's ranking in a given
corpus and its frequency in it, roughly dividing the vocabulary into frequent
words and infrequent ones. Here, we stipulate that within a domain an author's
signature can be derived from, in loose terms, the author's missing popular
words and frequently used infrequent-words. We devise a method, termed Latent
Personal Analysis (LPA), for finding domain-based attributes for entities in a
domain: their distance from the domain and their signature, which determines
how they most differ from a domain. We identify the most suitable distance
metric for the method among several and construct the distances and personal
signatures for authors, the domain's entities. The signature consists of both
over-used terms (compared to the average), and missing popular terms. We
validate the correctness and power of the signatures in identifying users and
set existence conditions. We then show uses for the method in explainable
authorship attribution: we define algorithms that utilize LPA to identify two
types of impersonation in social media: (1) authors with sockpuppets (multiple)
accounts; (2) front users accounts, operated by several authors. We validate
the algorithms and employ them over a large scale dataset obtained from a
social media site with over 4000 users. We corroborate these results using
temporal rate analysis. LPA can further be used to devise personal attributes
in a wide range of scientific domains in which the constituents have a
long-tail distribution of elements.
- Abstract(参考訳): Zipfの法則は、与えられたコーパスにおける単語のランクとその頻度の間の逆比を定義し、語彙を概ね頻繁な単語と頻繁な単語に分ける。
ここでは、ドメイン内で著者の署名は、ゆるやかな言葉で著者の一般的な単語を欠いたり、稀な単語を頻繁に用いたりする。
我々は、ドメイン内のエンティティに対するドメインベースの属性を見つけるための、潜伏個人分析(lpa)と呼ばれるメソッドを考案する。
提案手法の最も適した距離測定基準を特定し,著者のための距離と個人的シグネチャ,ドメインのエンティティを構築した。
署名は、(平均に比較して)多用された用語と、一般的な用語の欠如から成り立っている。
ユーザの識別と存在条件の設定において,シグネチャの正しさとパワーを検証する。
そこで,本稿では,ソーシャルメディアにおける2種類の偽造の特定にLPAを利用するアルゴリズムを定義した。(1)ソケット(複数)アカウントを持つ著者,(2)複数の著者が運営するフロントエンドアカウント。
提案アルゴリズムを検証し,4000人以上のユーザを持つソーシャルメディアサイトから得られた大規模データセットに活用する。
時間速度解析を用いてこれらの結果を相関する。
lpaはさらに、構成員が要素の長いテール分布を持つ幅広い科学領域において、個人的属性を考案するために使うことができる。
関連論文リスト
- Protecting Copyrighted Material with Unique Identifiers in Large Language Model Training [55.321010757641524]
大きな言語モデル(LLM)のトレーニングに関する主要な公的な懸念は、著作権のあるオンラインテキストを悪用するかどうかである。
事前の会員推定法は、大量のトレーニングデータに類似した例によって誤解されることがある。
本稿では,Webユーザとコンテンツプラットフォームがtextbftextitunique 識別子を使用することを推奨する代替のtextitinsert-and-detection 手法を提案する。
論文 参考訳(メタデータ) (2024-03-23T06:36:32Z) - A Comparison of Lexicon-Based and ML-Based Sentiment Analysis: Are There
Outlier Words? [14.816706893177997]
本稿では、4つのドメインから抽出された15万以上の英語テキストに対する感情を計算する。
回帰モデルを用いて各ドメインの文書に対するアプローチ間の感情スコアの差をモデル化する。
以上の結果から,単語の重要性はドメインに依存しており,感情スコアの違いを系統的に引き起こす辞書項目が存在しないことが示唆された。
論文 参考訳(メタデータ) (2023-11-10T18:21:50Z) - The Fellowship of the Authors: Disambiguating Names from Social Network
Context [2.3605348648054454]
各エンティティに関する広範なテキスト記述を持つオーソリティリストは、欠落しており、曖昧な名前のエンティティである。
BERTをベースとした参照表現と,さまざまなグラフ誘導戦略を組み合わせて,教師付きクラスタ推論手法と教師なしクラスタ推論手法を実験する。
ドメイン内言語モデルの事前学習は,特により大きなコーパスに対して,参照表現を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2022-08-31T21:51:55Z) - Efficient Hierarchical Domain Adaptation for Pretrained Language Models [77.02962815423658]
生成言語モデルは、多種多様な一般的なドメインコーパスに基づいて訓練される。
計算効率のよいアダプタアプローチを用いて,ドメイン適応を多種多様なドメインに拡張する手法を提案する。
論文 参考訳(メタデータ) (2021-12-16T11:09:29Z) - Bib2Auth: Deep Learning Approach for Author Disambiguation using
Bibliographic Data [4.817368273632451]
著者名と現実の実体をリンクする新しい手法を,共著者パターンと研究領域に頼って提案する。
教師付きディープラーニングモデルでは,著者と共著者との関係や研究領域を把握し,著者を識別する。
Bib2Authは比較的大きなデータセットで優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2021-07-09T12:25:11Z) - Learning to Share by Masking the Non-shared for Multi-domain Sentiment
Classification [24.153584996936424]
テキストからドメイン関連語を明示的にマスキングし,これらのドメインに依存しないテキストからドメイン不変感の特徴を学習し,それらのマスキング語を用いてドメイン認識文表現を形成するネットワークを提案する。
適応度の高い複数領域感情分類データセットの実証実験により,提案モデルの有効性が実証された。
論文 参考訳(メタデータ) (2021-04-17T08:15:29Z) - Cross-domain Speech Recognition with Unsupervised Character-level
Distribution Matching [60.8427677151492]
2つの領域における各文字間の微粒化適応を行うための文字レベルの分布マッチング手法であるCMatchを提案する。
Libri-Adaptデータセットを用いた実験の結果,提案手法はクロスデバイスとクロス環境の両方で14.39%,16.50%の単語誤り率(WER)を低減できることがわかった。
論文 参考訳(メタデータ) (2021-04-15T14:36:54Z) - Batch Normalization Embeddings for Deep Domain Generalization [50.51405390150066]
ドメインの一般化は、異なるドメインと見えないドメインで堅牢に実行されるように機械学習モデルをトレーニングすることを目的としている。
一般的な領域一般化ベンチマークにおいて,最先端技術よりも分類精度が著しく向上したことを示す。
論文 参考訳(メタデータ) (2020-11-25T12:02:57Z) - Accelerating Text Mining Using Domain-Specific Stop Word Lists [57.76576681191192]
本稿では,超平面的アプローチと呼ばれるドメイン固有語の自動抽出手法を提案する。
ハイパープレーンベースのアプローチは、無関係な特徴を排除することによって、テキストの寸法を著しく削減することができる。
その結果,超平面型アプローチはコーパスの寸法を90%削減し,相互情報より優れることがわかった。
論文 参考訳(メタデータ) (2020-11-18T17:42:32Z) - The Importance of Suppressing Domain Style in Authorship Analysis [29.62131106353095]
文字トリグラムの特徴は, ドメインに注意を払わずに適用した場合, ドメイン情報に好適であることが示唆された。
本稿では,ドメイン・アドバイザリ・ラーニングに基づく新たな治療法を提案し,それを周波数に基づく文献と比較する。
論文 参考訳(メタデータ) (2020-05-29T17:58:19Z) - Improving Domain-Adapted Sentiment Classification by Deep Adversarial
Mutual Learning [51.742040588834996]
ドメイン適応型感情分類(ドメイン適応型感情分類、Domain-adapted sentiment classification)は、ラベル付きソースドメインでトレーニングを行い、ラベルなしターゲットドメイン上で文書レベルの感情を適切に推測する。
本稿では,2つの特徴抽出器群,ドメイン識別器群,感情分類器群,ラベル探索器群を包含する新たな相互学習手法を提案する。
論文 参考訳(メタデータ) (2020-02-01T01:22:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。