論文の概要: Large language models can disambiguate opioid slang on social media
- arxiv url: http://arxiv.org/abs/2603.10313v1
- Date: Wed, 11 Mar 2026 01:27:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.74109
- Title: Large language models can disambiguate opioid slang on social media
- Title(参考訳): 大規模言語モデルはソーシャルメディア上でオピオイドスラングを曖昧にできる
- Authors: Kristy A. Carpenter, Issah A. Samori, Mathew V. Kiang, Keith Humphreys, Anna Lembke, Johannes C. Eichstaedt, Russ B. Altman,
- Abstract要約: 関連コンテンツを特定するための一般的な戦略は、オピオイド関連用語の語彙を包含基準として使うことである。
スマック(smack)やブルー(blues)のようなオピオイドのスラング語の多くは、一般的な非オピオイドの意味を持ち、曖昧である。
大規模言語モデル(LLM)の高度なテキスト推論能力は、これらのスラング語を大規模に曖昧にする機会を与える。
- 参考スコア(独自算出の注目度): 2.036174242046602
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Social media text shows promise for monitoring trends in the opioid overdose crisis; however, the overwhelming majority of social media text is unrelated to opioids. When leveraging social media text to monitor trends in the ongoing opioid overdose crisis, a common strategy for identifying relevant content is to use a lexicon of opioid-related terms as inclusion criteria. However, many slang terms for opioids, such as "smack" or "blues," have common non-opioid meanings, making them ambiguous. The advanced textual reasoning capability of large language models (LLMs) presents an opportunity to disambiguate these slang terms at scale. We present three tasks on which to evaluate four state-of-the-art LLMs (GPT-4, GPT-5, Gemini 2.5 Pro, and Claude Sonnet 4.5): a lexicon-based setting, in which the LLM must disambiguate a specific term within the context of a given post; a lexicon-free setting, in which the LLM must identify opioid-related posts from context without a lexicon; and an emergent slang setting, in which the LLM must identify opioid-related posts with simulated new slang terms. All four LLMs showed excellent performance across all tasks. In both subtasks of the lexicon-based setting, LLM F1 scores ("fenty" subtask: 0.824-0.972; "smack" subtask: 0.540-0.862) far exceeded those of the best lexicon strategy (0.126 and 0.009, respectively). In the lexicon-free task, LLM F1 scores (0.544-0.769) surpassed those of lexicons (0.080-0.540), and LLMs demonstrated uniformly higher recall. On emergent slang, all LLMs had higher accuracy (average: 0.784), F1 score (average: 0.712), precision (average: 0.981), and recall (average: 0.587) than the two lexicons assessed. Our results show that LLMs can be used to identify relevant content for low-prevalence topics, including but not limited to opioid references, enhancing data provided to downstream analyses and predictive models.
- Abstract(参考訳): ソーシャルメディアのテキストは、オピオイド過剰摂取危機の傾向を監視することを約束していることを示しているが、ソーシャルメディアのテキストの大部分はオピオイドとは無関係である。
ソーシャルメディアのテキストを活用して、進行中のオピオイド過剰摂取危機の傾向を監視する場合、関連するコンテンツを特定するための一般的な戦略は、オピオイド関連用語の語彙を包含基準として使うことである。
しかし、"smack"や"blues"のような多くのオピオイドのスラング語は、一般的な非オピオイドの意味を持ち、曖昧である。
大規模言語モデル(LLM)の高度なテキスト推論能力は、これらのスラング語を大規模に曖昧にする機会を与える。
我々は,4つの最先端LPM (GPT-4, GPT-5, Gemini 2.5 Pro, Claude Sonnet 4.5) を評価するための課題として,LLMが与えられたポストのコンテキスト内で特定の用語を曖昧にしなければならないレキシコンベースセッティング,LLMがレキシコンなしでコンテキストからオピオイド関連ポストを識別しなければならないレキシコンフリーセッティング,LLMがシミュレートされた新しいスラング用語でオピオイド関連ポストを識別しなければならない創発スラングセッティングの3つを提示する。
4つのLSMは全てのタスクで優れた性能を示した。
LLM F1スコア(fenty subtask: 0.824-0.972; "smack" subtask: 0.540-0.862)は、両サブタスクにおいて最も優れた語彙戦略(0.126と0.009)を上回った。
レキシコンフリータスクでは、LLM F1スコア(0.544-0.769)がレキシコン(0.080-0.540)を上回り、LLMは均一に高いリコールを示した。
緊急スラングでは、全てのLSMは評価された2つのレキシコンよりも高い精度(平均0.784)、F1スコア(平均0.712)、精度(平均0.981)、リコール(平均0.587)を持っていた。
以上の結果から,LLMは,オピオイド参照に限らず,下流分析や予測モデルに提供されたデータの向上を含む,低頻度トピックに関する関連内容の特定に有効であることが示唆された。
関連論文リスト
- Demo: Statistically Significant Results On Biases and Errors of LLMs Do Not Guarantee Generalizable Results [10.858989372235657]
本研究では,複数のLCM-as-a-judgeセットアップとプロンプトを用いて,これらのクエリに対する応答を評価する。
基礎研究として,LLM間の合意と回答および評価LLMの変化の影響について,2つの事例研究を行った。
論文 参考訳(メタデータ) (2025-11-04T04:20:33Z) - SlangDIT: Benchmarking LLMs in Interpretative Slang Translation [89.48208612476068]
本稿では,スラング翻訳タスク(SlangDIT)を紹介する。
言語間スラング検出、言語間スラング説明、現在のコンテキスト内のスラング翻訳の3つのサブタスクで構成されている。
まず、文にスラングが含まれているかどうかを識別し、スラングが多義的かどうかを判断し、その意味を解析する。
論文 参考訳(メタデータ) (2025-05-20T10:37:34Z) - Dialectal Toxicity Detection: Evaluating LLM-as-a-Judge Consistency Across Language Varieties [23.777874316083984]
現代のLSMによる毒性の検出に方言の違いがどう影響するかについては、体系的な研究はほとんど行われていない。
10の言語クラスタと60の変種をカバーする合成変換と人間による翻訳により、多言語データセットを作成する。
次に,多言語,方言,LLM-ヒト間の毒性を評価できる3つのLSMを評価した。
論文 参考訳(メタデータ) (2024-11-17T03:53:24Z) - LongHalQA: Long-Context Hallucination Evaluation for MultiModal Large Language Models [96.64960606650115]
LongHalQA (LongHalQA) は、6Kの長い複雑な幻覚テキストからなるLLMフリー幻覚ベンチマークである。
LongHalQA は GPT4V の生成した幻覚データによって特徴付けられる。
論文 参考訳(メタデータ) (2024-10-13T18:59:58Z) - MALADE: Orchestration of LLM-powered Agents with Retrieval Augmented Generation for Pharmacovigilance [17.008132675107355]
本稿ではPhV(Pharmacovigilance)の問題に焦点をあて,さまざまなテキストソースからADE(Adverse Drug Events)を特定することの重要性と課題について述べる。
MALADEは,薬物ラベルデータからADEを抽出するための大規模言語モデルと検索拡張生成を用いた,最初の効果的な協調型マルチエージェントシステムである。
論文 参考訳(メタデータ) (2024-08-03T22:14:13Z) - ANAH: Analytical Annotation of Hallucinations in Large Language Models [65.12177400764506]
我々は、大言語モデルにおける幻覚の@textbfAN$alytical $textbfA$nnotationを提供するデータセットである$textbfANAH$を提示する。
ANAHは、700以上のトピックをカバーする4.3k LLM応答のための12kの文レベルのアノテーションで構成されている。
幻覚アノテーションの微粒化により, LLMの幻覚が解答に蓄積されることを定量的に確認し, ANAHを用いて幻覚アノテーションを訓練し, 評価する。
論文 参考訳(メタデータ) (2024-05-30T17:54:40Z) - "Sorry, Come Again?" Prompting -- Enhancing Comprehension and Diminishing Hallucination with [PAUSE]-injected Optimal Paraphrasing [10.20632187568563]
幻覚は現代大言語モデル(LLM)の最も脆弱な側面として現れてきた。
本稿では,LCMの幻覚を避けることを目的としたSCAプロンプトについて紹介する。
本稿では,21のLLMに対するプロンプトの形式性,可読性,具体性について,言語的ニュアンスを詳細に分析する。
与えられたプロンプトの最も理解しやすいパラフレーズを識別する最適なパラフレーズ化手法を提案する。
論文 参考訳(メタデータ) (2024-03-27T19:45:09Z) - Tokenization Matters: Navigating Data-Scarce Tokenization for Gender Inclusive Language Technologies [75.85462924188076]
ジェンダー非包括的NLP研究は、ジェンダーバイナリ中心大言語モデル(LLM)の有害な制限を文書化している。
誤認識はByte-Pair(BPE)トークン化によって大きく影響されている。
本研究では,(1)代名詞の代名詞化パリティ,(2)代名詞間の一貫した代名詞化を強制する手法,および(2)既存のLLM代名詞の知識を活用して新代名詞の習熟度を向上させる手法を提案する。
論文 参考訳(メタデータ) (2023-12-19T01:28:46Z) - "Knowing When You Don't Know": A Multilingual Relevance Assessment Dataset for Robust Retrieval-Augmented Generation [90.09260023184932]
Retrieval-Augmented Generation (RAG) は、外部の知識源を活用して、事実の幻覚を減らすことで、Large Language Model (LLM) を出力する。
NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。
本研究は,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sr。
論文 参考訳(メタデータ) (2023-12-18T17:18:04Z) - Systematic Rectification of Language Models via Dead-end Analysis [34.37598463459319]
大型言語モデル(LLM)は有害な談話を生成するためにプッシュされる。
ここでは、完了した談話が最終的に有毒と考えられる確率について、デトックス化を中心とする。
我々の手法は整流化と呼ばれ、別個のモデルを用いるが、デトキシ化には著しく小さいモデルを用いる。
論文 参考訳(メタデータ) (2023-02-27T17:47:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。