論文の概要: Euphemistic Phrase Detection by Masked Language Model
- arxiv url: http://arxiv.org/abs/2109.04666v1
- Date: Fri, 10 Sep 2021 04:57:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-13 13:34:21.125199
- Title: Euphemistic Phrase Detection by Masked Language Model
- Title(参考訳): マスキング言語モデルによる短命句検出
- Authors: Wanzheng Zhu, Suma Bhat
- Abstract要約: ソーシャルメディアコーパス上でフレーズマイニングを行い、高品質なフレーズを抽出する。
次に,単語埋め込み類似性を利用して,語句候補の集合を選択する。
本アルゴリズムを用いて,20~50%の高精度な検出精度を報告した。
- 参考スコア(独自算出の注目度): 9.49544185939481
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: It is a well-known approach for fringe groups and organizations to use
euphemisms -- ordinary-sounding and innocent-looking words with a secret
meaning -- to conceal what they are discussing. For instance, drug dealers
often use "pot" for marijuana and "avocado" for heroin. From a social media
content moderation perspective, though recent advances in NLP have enabled the
automatic detection of such single-word euphemisms, no existing work is capable
of automatically detecting multi-word euphemisms, such as "blue dream"
(marijuana) and "black tar" (heroin). Our paper tackles the problem of
euphemistic phrase detection without human effort for the first time, as far as
we are aware. We first perform phrase mining on a raw text corpus (e.g., social
media posts) to extract quality phrases. Then, we utilize word embedding
similarities to select a set of euphemistic phrase candidates. Finally, we rank
those candidates by a masked language model -- SpanBERT. Compared to strong
baselines, we report 20-50% higher detection accuracies using our algorithm for
detecting euphemistic phrases.
- Abstract(参考訳): 秘密の意味を持つ普通の響きと無邪気な言葉を使って、彼らが議論していることを隠そうとする団体や組織にとって、これはよく知られているアプローチである。
例えば、麻薬ディーラーはマリファナに「ポット」、ヘロインに「アボカド」を用いることが多い。
ソーシャルメディアのコンテンツモデレーションの観点からは、近年のNLPの進歩により、このような単一単語のエウヘミズムの自動検出が可能になったが、ブルードリーム(マリファナ)やブラックタール(ヘロイン)など、複数の単語のエウヘミズムを自動的に検出することはできない。
本稿では,人間の努力を伴わずに語句検出の問題に,私たちが知る限り,初めて取り組む。
まず、原文コーパス(例えばソーシャルメディア投稿)上でフレーズマイニングを行い、品質の高いフレーズを抽出する。
次に,単語埋め込み類似性を利用して,語句候補の集合を選択する。
最後に、これらの候補をSpanBERTというマスキング言語モデルでランク付けします。
本アルゴリズムを用いて,強塩基性に対して20~50%高い検出精度を報告した。
関連論文リスト
- Impromptu Cybercrime Euphemism Detection [20.969469059941545]
本稿では,Impromptu Cybercrime Euphemisms Detectionデータセットを紹介する。
本稿では,この問題に適した検出フレームワークを提案する。
提案手法は,従来の最先端のエウヘミズム検出器と比較して,76倍の精度向上を実現している。
論文 参考訳(メタデータ) (2024-12-02T11:56:06Z) - Towards Effective Paraphrasing for Information Disguise [13.356934367660811]
著者の執筆したオンラインコミュニケーションがセンシティブなドメインに関連する場合,ID(Information Disguise)の研究が重要となる。
著者の投稿から与えられた文に対して,パラフレージングの方向に文の反復摂動を行う枠組みを提案する。
本研究は, パープレキシティスコアを用いたフレーズ重要度ランキングの新たな手法を導入し, ビームサーチによる複数レベルのフレーズ置換を行う。
論文 参考訳(メタデータ) (2023-11-08T21:12:59Z) - Biomedical Named Entity Recognition via Dictionary-based Synonym
Generalization [51.89486520806639]
本研究では,入力テキストに含まれる生物医学的概念をスパンベース予測を用いて認識する,新しいSynGenフレームワークを提案する。
提案手法を広範囲のベンチマークで広範囲に評価し,SynGenが従来の辞書ベースモデルよりも顕著なマージンで優れていることを確認した。
論文 参考訳(メタデータ) (2023-05-22T14:36:32Z) - Keywords and Instances: A Hierarchical Contrastive Learning Framework
Unifying Hybrid Granularities for Text Generation [59.01297461453444]
入力テキスト中のハイブリッドな粒度意味を統一する階層的コントラスト学習機構を提案する。
実験により,本モデルがパラフレージング,対話生成,ストーリーテリングタスクにおいて,競争ベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2022-05-26T13:26:03Z) - Semantic-Preserving Adversarial Text Attacks [85.32186121859321]
深層モデルの脆弱性を調べるために, Bigram と Unigram を用いた適応的セマンティック保存最適化法 (BU-SPO) を提案する。
提案手法は,既存手法と比較して最小の単語数を変更することで,攻撃成功率とセマンティックス率を最大化する。
論文 参考訳(メタデータ) (2021-08-23T09:05:18Z) - UCPhrase: Unsupervised Context-aware Quality Phrase Tagging [63.86606855524567]
UCPhraseは、教師なしの文脈対応のフレーズタグである。
我々は,一貫した単語列から,高品質なフレーズを銀のラベルとして表現する。
我々の設計は、最先端の事前訓練、教師なし、遠隔管理の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-05-28T19:44:24Z) - Self-Supervised Euphemism Detection and Identification for Content
Moderation [16.322965299627974]
ユーヘミズムの一般的な使用法は、ソーシャルメディアプラットフォームによって強制されるコンテンツモデレーションポリシーを回避することである。
通常、人間のモデレーターは、ある単語がエキシマティックに使われていることは明らかであるが、秘密の意味が何であるかは分かっていない。
本論文は, 共起的に使用される単語を検知し, 各単語の秘密意味を識別できる教師なしアルゴリズムを示す。
論文 参考訳(メタデータ) (2021-03-31T04:52:38Z) - Towards Dark Jargon Interpretation in Underground Forums [37.15748678894555]
暗黒ジャーゴンを自動同定し,解釈するための新しい手法を提案する。
暗黒語から隠れた意味のない「クリーン」語へのマッピングとして問題を定式化する。
本手法は,共有語彙上の確率分布の形でダークワードとクリーンワードの解釈可能な表現を利用する。
論文 参考訳(メタデータ) (2020-11-05T18:08:32Z) - Speakers Fill Lexical Semantic Gaps with Context [65.08205006886591]
我々は単語の語彙的あいまいさを意味のエントロピーとして運用する。
単語のあいまいさの推定値と,WordNetにおける単語の同義語数との間には,有意な相関関係が認められた。
これは、あいまいさの存在下では、話者が文脈をより情報的にすることで補うことを示唆している。
論文 参考訳(メタデータ) (2020-10-05T17:19:10Z) - Techniques for Vocabulary Expansion in Hybrid Speech Recognition Systems [54.49880724137688]
語彙外単語(OOV)の問題は、音声認識システムにおいて典型的である。
OOVをカバーするための一般的なアプローチの1つは、単語ではなくサブワード単位を使用することである。
本稿では,グラフ構築法と探索法の両方のレベルで,この解の既存手法について検討する。
論文 参考訳(メタデータ) (2020-03-19T21:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。