論文の概要: Towards Dark Jargon Interpretation in Underground Forums
- arxiv url: http://arxiv.org/abs/2011.03011v2
- Date: Mon, 11 Jan 2021 00:32:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 12:32:16.012815
- Title: Towards Dark Jargon Interpretation in Underground Forums
- Title(参考訳): 地下フォーラムにおけるダークジャーゴン解釈に向けて
- Authors: Dominic Seyler and Wei Liu and XiaoFeng Wang and ChengXiang Zhai
- Abstract要約: 暗黒ジャーゴンを自動同定し,解釈するための新しい手法を提案する。
暗黒語から隠れた意味のない「クリーン」語へのマッピングとして問題を定式化する。
本手法は,共有語彙上の確率分布の形でダークワードとクリーンワードの解釈可能な表現を利用する。
- 参考スコア(独自算出の注目度): 37.15748678894555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dark jargons are benign-looking words that have hidden, sinister meanings and
are used by participants of underground forums for illicit behavior. For
example, the dark term "rat" is often used in lieu of "Remote Access Trojan".
In this work we present a novel method towards automatically identifying and
interpreting dark jargons. We formalize the problem as a mapping from dark
words to "clean" words with no hidden meaning. Our method makes use of
interpretable representations of dark and clean words in the form of
probability distributions over a shared vocabulary. In our experiments we show
our method to be effective in terms of dark jargon identification, as it
outperforms another related method on simulated data. Using manual evaluation,
we show that our method is able to detect dark jargons in a real-world
underground forum dataset.
- Abstract(参考訳): 暗黒のジャーゴンは、隠された邪悪な意味を持つ良質な言葉であり、不正行為の地下フォーラムの参加者によって使用される。
例えば、「rat」という暗黒語は「remote access trojan」の代わりにしばしば用いられる。
本稿では,ダークジャーゴンの自動識別と解釈を行う新しい手法を提案する。
暗黒語から隠れた意味のない「クリーン」語へのマッピングとして問題を定式化する。
本手法は,共有語彙上の確率分布の形で,暗くクリーンな単語の解釈可能な表現を用いる。
本実験では,本手法がシミュレーションデータ上で関連する他の手法よりも優れているため,暗ジャーゴン識別の面で有効であることを示す。
本手法は,手作業による評価を用いて,実世界の地下フォーラムデータセットにおいて暗ジャルゴンを検出できることを示す。
関連論文リスト
- How Contentious Terms About People and Cultures are Used in Linked Open
Data [0.0]
時代遅れで文化的にステレオタイピングの用語がリテラルで使われる場合、インターフェースのユーザに対して攻撃的として現れ、その上で訓練されたアルゴリズムにステレオタイプを伝達する可能性がある。
リンクオープンデータ(LOD)における人や文化に関する論争的な用語の頻度と頻度について検討する。
Wikidata, The Getty Art & Architecture Thesaurus, Princeton WordNet, Open Dutch WordNetの4つの広く使用されているデータセットで,これらの用語の発生について検討する。
論文 参考訳(メタデータ) (2023-11-13T18:25:20Z) - Using meaning instead of words to track topics [0.76146285961466]
現在、既存のトピックトラッキング手法はすべて、単語使用量に合わせて語彙情報を使用している。
単語埋め込みを用いた意味に基づく新しい手法について検討する。
本結果から,トピックトラッキングに対する意味論的アプローチは語彙的アプローチと同等であるが,異なる誤りを犯すことが示唆された。
論文 参考訳(メタデータ) (2023-01-02T08:55:55Z) - What is Where by Looking: Weakly-Supervised Open-World Phrase-Grounding
without Text Inputs [82.93345261434943]
入力画像が与えられたら、そのオブジェクトを記述した画像とフレーズのバウンディングボックスを返します。
これは、入力画像内のオブジェクトがローカライゼーション機構のトレーニング中に遭遇しなかった可能性のあるオープンワールドパラダイム内で実現される。
本研究は, 弱教師付きセグメンテーションと句接頭辞を一般化し, 両領域の最先端技術として実証的に示す。
論文 参考訳(メタデータ) (2022-06-19T09:07:30Z) - Discovering the Hidden Vocabulary of DALLE-2 [96.19666636109729]
DALLE-2は、不条理なプロンプトで画像を生成するために使用できる、隠れた語彙を持つように見える。
例えば、 textttApoploe vesrreaitais は鳥を意味し、 textttContarra ccetnxniams luryca tanniounons は虫や害虫を意味する。
論文 参考訳(メタデータ) (2022-06-01T01:14:48Z) - Euphemistic Phrase Detection by Masked Language Model [9.49544185939481]
ソーシャルメディアコーパス上でフレーズマイニングを行い、高品質なフレーズを抽出する。
次に,単語埋め込み類似性を利用して,語句候補の集合を選択する。
本アルゴリズムを用いて,20~50%の高精度な検出精度を報告した。
論文 参考訳(メタデータ) (2021-09-10T04:57:30Z) - UCPhrase: Unsupervised Context-aware Quality Phrase Tagging [63.86606855524567]
UCPhraseは、教師なしの文脈対応のフレーズタグである。
我々は,一貫した単語列から,高品質なフレーズを銀のラベルとして表現する。
我々の設計は、最先端の事前訓練、教師なし、遠隔管理の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-05-28T19:44:24Z) - Self-Supervised Euphemism Detection and Identification for Content
Moderation [16.322965299627974]
ユーヘミズムの一般的な使用法は、ソーシャルメディアプラットフォームによって強制されるコンテンツモデレーションポリシーを回避することである。
通常、人間のモデレーターは、ある単語がエキシマティックに使われていることは明らかであるが、秘密の意味が何であるかは分かっていない。
本論文は, 共起的に使用される単語を検知し, 各単語の秘密意味を識別できる教師なしアルゴリズムを示す。
論文 参考訳(メタデータ) (2021-03-31T04:52:38Z) - Sent2Matrix: Folding Character Sequences in Serpentine Manifolds for
Two-Dimensional Sentence [54.6266741821988]
テキストを2次元表現に変換し、Sent2Matrix法を開発する。
この手法は単語形態と境界の両方を明示的に組み込むことができる。
特に,本手法は,テキストを2次元フォーマットで表現する最初の試みである。
論文 参考訳(メタデータ) (2021-03-15T13:52:47Z) - Techniques for Vocabulary Expansion in Hybrid Speech Recognition Systems [54.49880724137688]
語彙外単語(OOV)の問題は、音声認識システムにおいて典型的である。
OOVをカバーするための一般的なアプローチの1つは、単語ではなくサブワード単位を使用することである。
本稿では,グラフ構築法と探索法の両方のレベルで,この解の既存手法について検討する。
論文 参考訳(メタデータ) (2020-03-19T21:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。