論文の概要: Covering Cracks in Content Moderation: Delexicalized Distant Supervision for Illicit Drug Jargon Detection
- arxiv url: http://arxiv.org/abs/2503.14926v1
- Date: Wed, 19 Mar 2025 06:26:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:24:15.921660
- Title: Covering Cracks in Content Moderation: Delexicalized Distant Supervision for Illicit Drug Jargon Detection
- Title(参考訳): コンテンツモデレーションにおける亀裂の被覆 : 薬品ジャーゴン検出のためのデレキシライズドディスタント・スーパービジョン
- Authors: Minkyoo Song, Eugene Jang, Jaehan Kim, Seungwon Shin,
- Abstract要約: JEDISは,その文脈を解析して違法薬物の用語を検出するためのフレームワークである。
実験の結果,JEDISは薬物ジャーゴン検出におけるF1スコアおよび検出範囲において,最先端の単語ベースラインよりも有意に優れていた。
- 参考スコア(独自算出の注目度): 12.757384713732698
- License:
- Abstract: In light of rising drug-related concerns and the increasing role of social media, sales and discussions of illicit drugs have become commonplace online. Social media platforms hosting user-generated content must therefore perform content moderation, which is a difficult task due to the vast amount of jargon used in drug discussions. Previous works on drug jargon detection were limited to extracting a list of terms, but these approaches have fundamental problems in practical application. First, they are trivially evaded using word substitutions. Second, they cannot distinguish whether euphemistic terms such as "pot" or "crack" are being used as drugs or in their benign meanings. We argue that drug content moderation should be done using contexts rather than relying on a banlist. However, manually annotated datasets for training such a task are not only expensive but also prone to becoming obsolete. We present JEDIS, a framework for detecting illicit drug jargon terms by analyzing their contexts. JEDIS utilizes a novel approach that combines distant supervision and delexicalization, which allows JEDIS to be trained without human-labeled data while being robust to new terms and euphemisms. Experiments on two manually annotated datasets show JEDIS significantly outperforms state-of-the-art word-based baselines in terms of F1-score and detection coverage in drug jargon detection. We also conduct qualitative analysis that demonstrates JEDIS is robust against pitfalls faced by existing approaches.
- Abstract(参考訳): 薬物関連の懸念が高まり、ソーシャルメディアの役割が高まる中、違法薬物の販売や議論はオンラインで一般的になっている。
ソーシャルメディアプラットフォームは、ユーザーが生成したコンテンツをホストしているため、コンテンツモデレーションを行わなければならない。
薬物ジャーゴン検出に関するこれまでの研究は、用語のリストの抽出に限られていたが、これらのアプローチは実用上基本的な問題である。
まず、単語置換によって自明に回避される。
第二に、"pot" や "crack" といったエキシマティックな用語が薬物として使われているか、あるいはその良心的な意味において使われているかは区別できない。
我々は、ドラッグコンテンツのモデレーションは、禁止リストに頼るのではなく、コンテキストを使って行うべきだと論じている。
しかし、このようなタスクをトレーニングするための手動のアノテートデータセットは高価であるだけでなく、時代遅れになる傾向がある。
JEDISは,その文脈を解析して違法薬物の用語を検出するためのフレームワークである。
JEDISは、遠隔の監督とデリクティカル化を組み合わせた新しいアプローチを採用しており、JEDISは、新しい用語やエウヘミズムに頑健でありながら、人間のラベル付きデータなしで訓練することができる。
手動でアノテートした2つのデータセットの実験では、JEDISはF1スコアと薬物ジャーゴン検出における検出範囲で最先端の単語ベースのベースラインを著しく上回っている。
また,既存のアプローチが直面する落とし穴に対して,JEDISが堅牢であることを示す定性分析を実施している。
関連論文リスト
- Learning to Describe for Predicting Zero-shot Drug-Drug Interactions [54.172575323610175]
薬物と薬物の相互作用は同時投与の有効性を損なう可能性がある。
従来のDDI予測の計算手法では、知識不足のため、新しい薬物の相互作用を捉えることができない可能性がある。
言語モデルに基づくDDI予測器と強化学習(RL)に基づく情報セレクタを用いたテキストDDIを提案する。
論文 参考訳(メタデータ) (2024-03-13T09:42:46Z) - MC-DRE: Multi-Aspect Cross Integration for Drug Event/Entity Extraction [19.4567740328955]
本稿では,薬物の実体・事象検出のための多面的クロスインテグレーションフレームワークを提案する。
我々のモデルは、フラットなエンティティ検出と不連続なイベント抽出という2つの広く使われているタスクにおいて、全てのSOTAより優れています。
論文 参考訳(メタデータ) (2023-08-12T12:03:41Z) - Biomedical Named Entity Recognition via Dictionary-based Synonym
Generalization [51.89486520806639]
本研究では,入力テキストに含まれる生物医学的概念をスパンベース予測を用いて認識する,新しいSynGenフレームワークを提案する。
提案手法を広範囲のベンチマークで広範囲に評価し,SynGenが従来の辞書ベースモデルよりも顕著なマージンで優れていることを確認した。
論文 参考訳(メタデータ) (2023-05-22T14:36:32Z) - Entity Disambiguation with Entity Definitions [50.01142092276296]
ローカルモデルはEntity Disambiguation (ED)で最近驚くべきパフォーマンスを達成した
それまでの研究は、各候補者のテキスト表現として、ウィキペディアのタイトルのみを使うことに限られていた。
本稿では、この制限に対処し、より表現力のあるテキスト表現がそれを緩和できる範囲について検討する。
提案する6つのベンチマークのうち2つに新たな技術の現状を報告し,未知のパターンに対する一般化能力を強く改善する。
論文 参考訳(メタデータ) (2022-10-11T17:46:28Z) - Knowledge-Driven New Drug Recommendation [88.35607943144261]
既存の薬物と新薬のギャップを埋めるために, 薬物依存型マルチフェノタイプ数発学習機を開発した。
EDGEは外部薬効知識ベースを用いて偽陰性監視信号を除去する。
その結果, EDGEは, ROC-AUCスコアよりも7.3%向上していることがわかった。
論文 参考訳(メタデータ) (2022-10-11T16:07:52Z) - Healthy Twitter discussions? Time will tell [0.0]
議論の健全性を示す指標として,時間的動的パターンの利用を検討する。
まず、教師なしの方法で議論のタイプを探求し、その後、短命の概念を用いてこれらのタイプを特徴づける。
最後に、オンライン談話のラベル付けにおける短命の定義の可能性について、それがいかに望ましいか、健全で建設的かに基づいて論じる。
論文 参考訳(メタデータ) (2022-03-21T18:43:40Z) - A Token-level Reference-free Hallucination Detection Benchmark for
Free-form Text Generation [50.55448707570669]
本稿ではトークンレベルの参照なし幻覚検出タスクとHaDesというアノテーション付きデータセットを提案する。
このデータセットを作成するために、まず英語のウィキペディアから抽出された大量のテキストセグメントを摂り込み、それからクラウドソースアノテーションで検証する。
論文 参考訳(メタデータ) (2021-04-18T04:09:48Z) - Drugs4Covid: Drug-driven Knowledge Exploitation based on Scientific
Publications [0.2012378666405002]
Drugs4Covidは、単語の埋め込み技術とセマンティックウェブ技術を組み合わせて、大規模な医学文献のドラッグ指向の探索を可能にする。
新型コロナウイルス(COVID-19)やSARS(SARS)などの関連コロナウイルスに関する情報とともに、CORD-19コーパスから6万件以上の記事や2万段以上の段落が処理されている。
薬のオープンカタログが作成され、その結果はドラッグブラウザ、キーワード誘導テキストエクスプローラー、知識グラフを通じて公開されている。
論文 参考訳(メタデータ) (2020-12-03T14:26:54Z) - Two Step Joint Model for Drug Drug Interaction Extraction [82.49278654043577]
薬物と薬物の相互作用 (DDI) テキスト分析会議 (TAC) 2018における薬物ラベルからの抽出
本稿では,DDI検出のための2段階関節モデルを提案する。
シーケンスタギングシステム(CNN-GRUエンコーダデコーダ)は、まず沈殿剤を発見し、その微細なトリガーを探索し、第2ステップで沈殿剤毎のDDIを決定する。
論文 参考訳(メタデータ) (2020-08-28T15:30:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。